콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#자연어

NEW 진로문장완성검사 텍스트 데이터

진로문장완성검사 텍스트 데이터 아이콘 이미지
  • 분야교육
  • 유형 텍스트
구축년도 : 2023 갱신년월 : 2024-10 조회수 : 3,334 다운로드 : 123 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.1 2024-10-30 데이터 최종 개방
    1.0 2024-06-28 데이터 개방 Beta Version

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2024-06-28 산출물 공개 Beta Version

    소개

    - 진로문장완성검사를 통해 청소년의 진로 관련 발달 수준(진로성숙도) 파악 및 진로상담 지표로 활용하기 위한 텍스트 데이터.
    
    1. 학생(피검자)의 응답 데이터(원천데이터)와 전문가의 문항별 해석 
    2. 데이터(라벨링 데이터) - 진로성숙도 분류 (상·중·하) - 문항별 전문가 해석 (전문가 해석 텍스트)

    구축목적

    - 진로문장완성검사 결과 해석 AI를 학습할 수 있는 데이터 셋 구축
    
    1. 표준화된 진로검사 데이터셋 구축 : 학생 성장 수준 파악 및 진로상담 지표로 활용    가능한 실제 진로검사 데이터 구축
    2. 학생을 위한 비대면 상담 경험 제공 : 진로상담 데이터셋 구축을 바탕으로 인공지능   진로문장완성검사 전문가 해석 모델을 학습하여 질 높고 효과적인 진로상담 지원
  • - 데이터 통계
    ① 데이터 구축 규모
      - 진로문장완성검사 피검자 1,281명을 대상으로 한 40,422건의 원천데이터 및 라벨링데이터

    데이터 구축 규모
    데이터 종류 데이터 형태 데이터 포맷 필수여부 데이터 규모
    원천데이터 텍스트 JSON Y 40,422건
    라벨링데이터 텍스트 JSON Y 40,422건

     

     

    ② 데이터 분포
      - 학교급별 분포 : 초등학교, 중학교, 일반계열고등학교, 특수목적고등학교, 특성화고등학교, 자율형 고등학교
      - 문항 영역별 분포 : 자기이해 및 긍정적 자아상, 대인관계 및 의사소통 역량 외 12개 영역
      - 학생 성별 분포 : 남, 녀
      - 학생 진로성숙도 등급 분포 : 상, 중, 하
      - 지역별 피검자 분포 : 대도시, 중도시, 읍면     (2022 교육부 『초중고사교육비조사』의 지역별 구분)

     

    ③ 분포 상세
      - 학교급별 분포

    학교급별 차트 1 학교급별 차트 2

     

    학교급 분포
    학교급 분포
    비고 기록 수 비율(%)
    초등학교 11,863 29.35%
    중학교 12,795 31.65%
    일반계열고등학교 12,720 31.47%
    특수목적고등학교 680 1.68%
    특성화고등학교 2,262 5.60%
    자율형고등학교 102 0.25%
    총합 40,422 100.00%

     

      - 문항 영역별 분포

    문항 영역별 차트 1 문항 영역별 차트 2

     

    문항 영역(카테고리) 분포
    문항 영역(카테고리) 분포
    비고 기록 수 비율(%)
    자기이해 및 긍정적 자아상 8,415 20.82%
    대인관계 및 의사소통 역량 6,958 17.21%
    직업세계 이해 3,355 4.14%
    건강한 직업의식 3,355 4.16%
    교육기회의 탐색 2,516 8.30%
    직업정보의 탐색 2,507 6.20%
    진로의사결정능력 1,908 8.30%
    진로 설계와 준비 1,905 6.22%
    긍정적자아상 1,890 4.71%
    자기이해 1,681 4.72%
    직업세계이해 및 건강한 직업의식 1,673 3.52%
    교육기회 및 직업정보 탐색능력 1,423 3.52%
    진로의사결정능력 및 진로설계와 준비 1,421 4.68%
    미래에 대한 기대 1,415 3.50%
    총합 40,422 100.00%

     

      - 학생 성별 분포

    학생 성별 차트 1 학생 성별 차트 2

     

    학생 성별 분포
    학생 성별 분포
    비고 기록 수 비율(%)
    20,590 50.94%
    19,832 49.06%
    총합 40,422 100.00%

     

      - 학생 진로성숙도 등급 분포

    학생 진로성숙도 등급 차트 학생 진로성숙도 등급 차트

     

    학생 진로성숙도 등급 분포
    학생 진로성숙도 등급 분포
    비고 기록 수 비율(%)
    18,090 44.75%
    16,689 41.29%
    5,643 13.96%
    총합 40,422 100.00%

     

      - 지역별 피검자 분포

    지역별 피검자 차트 1 지역별 피검자 차트 2

     

    지역별 피검자 분포
    지역별 피검자 분포
    비고 기록 수 비율(%)
    대도시 22,513 55.69%
    중도시 13,079 32.36%
    읍면 4,830 11.95%
    총합 40,422 100.00%
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    - 텍스트 생성형 모델 (문항별 전문가 해석 생성 모델)

    텍스트 생성형 모델 (문항별 전문가 해석 생성 모델)
    AI모델 task AI모델 Data I/O
    텍스트 생성 모델 EleutherAI
    polyglot-ko-5.8b
    Input data :
    “### MBTI: ESFP###
    학교급: 초등학교 3학년### 제시 문구: 나는 ____한 사람이다### 학생 응답: 활발”
    output data :
    “본인의 성격을 잘 파악하고 있어 보인다. 실제 해당 아동은 MBTI 결과 ESFP에 해당하고, I보다 E의 성향이 두드러진다.”

    생성형모델 이미지 1

    생성형모델 이미지 2


    • Reference
      - Language Models are Unsupervised Multitask Learners
      - Language Models are Few-Shot Learners
      - GPT-NeoX-20B: An Open-Source Autoregressive Language Model
      - LLaMA: Open and Efficient Foundation Language Models
      - Polyglot: Large Language Models of Well-balanced Competence in    Multi-languages

    - 분류형 모델 (문항별 전문가 해석 생성 모델)

    분류형 모델 (문항별 전문가 해석 생성 모델)
    AI모델 task AI모델(후보) Data I/O
    텍스트 분류 모델 KC_BERT Input data : “초등학교 3학년 / 질문: 나는 __한 사람이다. / 답변: 멋진”
    output data : “중”

    분류형 모델 이미지

    • Reference
      - Hierarchical Transformers for Long Document Classification
      - BERT: Pre-training of Deep Bidirectional Transformers for Language     Understanding
      - RoBERTa: A Robustly Optimized BERT Pretraining Approach
      - ELECTRA: Pre-training Text Encoders as Discriminators Rather Than     Generators
      - HuggingFace's Transformers: State-of-the-art Natural Language     Processing

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    - 데이터 구성

    데이터 구성
    Key Description Type
    tester_id 피검자 ID String
    school_type 피검자 학교급 (ex : “초등학교”) String
    school_name 피검자 학교명 (ex : “가락고등학교”) String
    gender 피검자 성별 (ex : “여”) String
    region 피검자 지역 (ex : “대도시”) String
    category_id 진로문장완성검사 문항이 속한 영역의 ID (ex : “CFY0001”) String
    category_name 영역의 명칭 (ex : “자기이해 및 긍정적 자아상”) String
    question_id 문항의 ID (ex : “QFY-001”) String
    question 검사 제시 문장 (ex : “내가 생각하는 나의 능력은”) String
    answer_1 피검자 응답 문장 1 (ex : “감정에 휘둘리지 않는다”) String
    answer_2 피검자 응답 문장 2 (ex : “감정에 휘둘리지 않는다”) String
    answer_3 피검자 응답 문장 3 (ex : “감정에 휘둘리지 않는다”) String
    answer_4 피검자 응답 문장 4 (ex : “감정에 휘둘리지 않는다”) String
    answer_5 피검자 응답 문장 5 (ex : “감정에 휘둘리지 않는다”) String
    answer_6 피검자 응답 문장 6 (ex : “감정에 휘둘리지 않는다”) String
    grade 응답 문장에 대한 진로성숙도의 전문가 분류 (ex : “상”) String
    comment 응답 문장에 대한 전문가 해석
    (ex : “긍정적 결과로 이어지는 구체적인 인식이 필요”)
    String
    commenter 해석 데이터 입력 전문가 ID (ex : “c0034”) String

     

    - 어노테이션 포맷

    어노테이션 포맷
    구분 항목 데이터
    타입
    필수
    여부
    설명 예시
    1 meta Object   문항별 해석 라벨링
    데이터의 메타데이터 객체
    -
      1-1 tester_id String Y 피검자 ID “S-0551”
    1-2 school_type String Y 학교 구분 "초등학교", "중학교", "일반계열
    고등학교", "특수목적고등학교",
    "특성화고등학교",
    "자율형고등학교"
    1-3 school_name String Y 학교명 “가락고등학교”
    1-4 gender String Y 남,여 성별 정보 “남”.
    “여”
    1-5 region String Y 지역구분 “대도시”,“중도시”, “읍면”
    1-6 category_id String Y 문항이 속한 영역 ID “CFY0001”
    1-7 category_name String Y 문항이 속한 영역명 “자기이해 및 긍정적 자아상”
    2 comment Object   문항별 해석 라벨링
    데이터 객체
    -
      2-1 question_id String Y 문항 ID “QFY-001”
    2-2 question String Y 검사 제시 문장 “내가 생각하는 나의 능력은”
    2-3 answer_1 String Y 피검자의 답변(완성) 문장 “감정에 휘둘리지 않는다”
    2-4 answer_2 String   피검자의 답변(완성) 문장 -
    2-5 answer_3 String   피검자의 답변(완성) 문장 -
    2-6 answer_4 String   피검자의 답변(완성) 문장 -
    2-7 answer_5 String   피검자의 답변(완성) 문장 -
    2-8 answer_6 String   피검자의 답변(완성) 문장 -
    2-9 grade String Y 진로성숙도 등급 ‘상’,‘중’,‘하’
    2-10 comment String Y 완성 문장에 대한 전문가가
    입력한 해석 데이터
    “감정적으로 행동하지 않는다는
    자신의 장점을 인식하고 있으나,
    그것이 어떠한 효과나 긍정적 결
    과로 이어지는 구체적인 인식이
    필요하다.”
    2-11 commenter String Y 해석 데이터 입력 전문가 ID “c0034”

     

    - 원문 데이터 포맷 예시
     ① 원천데이터

    원천데이터
    No 속성1 속성2 속성설명 데이터타입 필수여부 예시
    1 tester_meta tester_id 피검자ID string Y ‘S-0001’
    school_type 학교급 string Y ‘초등학교’, ‘중학교’, 고등학교‘
    school_name 학교명 string N ‘A초등학교’, ‘B중학교’
    grade 학년 string N ‘1학년’,
    ‘2학년’
    gender 성별 string Y ‘남’, ‘여’
    region 지역 string Y ‘서울특별시 관악구’,
    ‘경기도 수원시’
    2 category_meta category_id 카테고리ID string Y ‘C01’,C0101’..
    category_name 카테고리명 string Y ‘긍정적 자아상’, ‘자기 이해’
    school_type 학교급 string N ‘초등학교’, ‘중학교’
    3 question_meta question_id 문항ID string Y ‘Q-0001’
    category_id 카테고리ID string Y ‘C010101’,C010102’..
    question 문항 string Y ‘나는 __한 사람이다.
    4 tester_id tester_id 피검자 ID string Y ‘S-0001’
    5 test question_id 문항ID string Y ‘Q-0001’
    answer_1 문항응답1 string Y ‘웃기’
    answer_2 문항응답2 string Y ‘친구같은 존재이다.’
    answer_3 문항응답3 string Y ‘친구같은 존재이다.’
    answer_4 문항응답4 string Y ‘친구같은 존재이다.’
    answer_5 문항응답5 string Y ‘친구같은 존재이다.’
    answer_6 문항응답6 string Y ‘친구같은 존재이다.’
    answer_full 전체응답 string Y ‘나에게 선생님은 웃기고
    친구같은 존재이다’

     

     ② 라벨링데이터

    라벨링데이터
    No 속성1 속성2 속성설명 데이터타입 필수여부 예시
    1 tester_meta tester_id 피검자ID string Y ‘S-0001’
    school_type 학교급 string Y ‘초등학교’, ‘중학교’, 고등학교‘
    school_name 학교명 string N ‘A초등학교’, ‘B중학교’
    grade 학년 string N ‘1학년’,
    ‘2학년’
    gender 성별 string Y ‘남’, ‘여’
    region 지역 string Y ‘서울특별시 관악구’, ‘경기도 수원시’
    2 category_meta category_id 카테고리ID string Y ‘C01’,C0101’..
    category_name 카테고리명 string Y ‘긍정적 자아상’, ‘자기 이해’
    school_type 학교급 string N ‘초등학교’, ‘중학교’
    3 question_meta question_id 문항ID string Y ‘Q-0001’
    category_id 카테고리ID string Y ‘C010101’,C010102’..
    question 문항 string Y ‘나는 __한 사람이다.
    4 tester_id tester_id 피검자 ID string Y ‘S-0001’
    5 test question_id 문항ID string Y ‘Q-0001’
    answer_1 문항응답1 string Y ‘웃기’
    answer_2 문항응답2 string Y ‘친구같은 존재이다.’
    answer_3 문항응답3 string Y ‘친구같은 존재이다.’
    answer_4 문항응답4 string Y ‘친구같은 존재이다.’
    answer_5 문항응답5 string Y ‘친구같은 존재이다.’
    answer_6 문항응답6 string Y ‘친구같은 존재이다.’
    answer_full 전체응답 string Y ‘나에게 선생님은 웃기고
    친구같은 존재이다’
    6 comment grade string 필수 문항 평가 결과
    (진로성숙도)
    ‘상’, ‘중’, ‘하’
    comment string 필수 문항 해석 결과 ‘가족이 중요할 수 있다.’
    commenter string 선택 문항 해석 전문가
    ID
    ‘C-0001’

     

    - 실제 예시

    실제 예시

     
       "meta": {
         "tester_id": "S-0551",
         "school_type": "일반계열고등학교",
         "school_name": "가락고등학교",
         "gender": "여",
         "region": "대도시",
         "category_id": "CFY0001",
         "category_name": "자기이해 및 긍정적 자아상"
       },
       "category_comment": {
         "category_id": "CFY0001",
         "category_name": "자기이해 및 긍정적 자아상",
         "comment": "부정적인 자아상을 지니고 있고 자신이 추구하는 삶의 모습을 단순하게 인식하고 있으며 추구하는

          가치를 추상적으로 표현하고 있다. 관계지향적인 성향으로 타인과의 친밀함에 가치를 두고 있다. 흥미, 적성과

          관련된 질문에 대하여 진로와 관련이 적은 답변을 보이고 있다. ",
         "commenter": "c0034"
       } 
     } 

  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜데이터드리븐
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    최명수 02-875-5075 [email protected] 사업 총괄 / AI 학습
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    한국가이던스㈜ 데이터 수집
    ㈜자유로운소프트 데이터 정제
    ㈜원플 데이터 가공
    ㈜메가웍스 데이터 품질 관리
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    최명수 02-875-5075 [email protected]
    김기범 02-875-5075 [email protected]
    AI모델 관련 문의처
    AI모델 관련 문의처
    담당자명 전화번호 이메일
    최명수 02-875-5075 [email protected]
    강다솔 02-875-5075 [email protected]
    저작도구 관련 문의처
    저작도구 관련 문의처
    담당자명 전화번호 이메일
    이락규 044-867-0496 [email protected]
    유인국 042-483-0496 [email protected]
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.