-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2024-10-30 데이터 최종 개방 1.0 2024-06-28 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-06-28 산출물 공개 Beta Version 소개
- 진로문장완성검사를 통해 청소년의 진로 관련 발달 수준(진로성숙도) 파악 및 진로상담 지표로 활용하기 위한 텍스트 데이터. 1. 학생(피검자)의 응답 데이터(원천데이터)와 전문가의 문항별 해석 2. 데이터(라벨링 데이터) - 진로성숙도 분류 (상·중·하) - 문항별 전문가 해석 (전문가 해석 텍스트)
구축목적
- 진로문장완성검사 결과 해석 AI를 학습할 수 있는 데이터 셋 구축 1. 표준화된 진로검사 데이터셋 구축 : 학생 성장 수준 파악 및 진로상담 지표로 활용 가능한 실제 진로검사 데이터 구축 2. 학생을 위한 비대면 상담 경험 제공 : 진로상담 데이터셋 구축을 바탕으로 인공지능 진로문장완성검사 전문가 해석 모델을 학습하여 질 높고 효과적인 진로상담 지원
-
메타데이터 구조표 데이터 영역 교육 데이터 유형 텍스트 데이터 형식 JSON 데이터 출처 자체 수집 (한국가이던스㈜의 진로문장완성검사를 활용) 라벨링 유형 진로성숙도 분류 / 응답 해석 라벨링 형식 JSON 데이터 활용 서비스 온라인 진로문장완성검사 서비스 데이터 구축년도/
데이터 구축량2023년/40,422건 -
- 데이터 통계
① 데이터 구축 규모
- 진로문장완성검사 피검자 1,281명을 대상으로 한 40,422건의 원천데이터 및 라벨링데이터데이터 구축 규모 데이터 종류 데이터 형태 데이터 포맷 필수여부 데이터 규모 원천데이터 텍스트 JSON Y 40,422건 라벨링데이터 텍스트 JSON Y 40,422건 ② 데이터 분포
- 학교급별 분포 : 초등학교, 중학교, 일반계열고등학교, 특수목적고등학교, 특성화고등학교, 자율형 고등학교
- 문항 영역별 분포 : 자기이해 및 긍정적 자아상, 대인관계 및 의사소통 역량 외 12개 영역
- 학생 성별 분포 : 남, 녀
- 학생 진로성숙도 등급 분포 : 상, 중, 하
- 지역별 피검자 분포 : 대도시, 중도시, 읍면 (2022 교육부 『초중고사교육비조사』의 지역별 구분)③ 분포 상세
- 학교급별 분포학교급 분포 학교급 분포 비고 기록 수 비율(%) 초등학교 11,863 29.35% 중학교 12,795 31.65% 일반계열고등학교 12,720 31.47% 특수목적고등학교 680 1.68% 특성화고등학교 2,262 5.60% 자율형고등학교 102 0.25% 총합 40,422 100.00% - 문항 영역별 분포
문항 영역(카테고리) 분포 문항 영역(카테고리) 분포 비고 기록 수 비율(%) 자기이해 및 긍정적 자아상 8,415 20.82% 대인관계 및 의사소통 역량 6,958 17.21% 직업세계 이해 3,355 4.14% 건강한 직업의식 3,355 4.16% 교육기회의 탐색 2,516 8.30% 직업정보의 탐색 2,507 6.20% 진로의사결정능력 1,908 8.30% 진로 설계와 준비 1,905 6.22% 긍정적자아상 1,890 4.71% 자기이해 1,681 4.72% 직업세계이해 및 건강한 직업의식 1,673 3.52% 교육기회 및 직업정보 탐색능력 1,423 3.52% 진로의사결정능력 및 진로설계와 준비 1,421 4.68% 미래에 대한 기대 1,415 3.50% 총합 40,422 100.00% - 학생 성별 분포
학생 성별 분포 학생 성별 분포 비고 기록 수 비율(%) 남 20,590 50.94% 여 19,832 49.06% 총합 40,422 100.00% - 학생 진로성숙도 등급 분포
학생 진로성숙도 등급 분포 학생 진로성숙도 등급 분포 비고 기록 수 비율(%) 상 18,090 44.75% 중 16,689 41.29% 하 5,643 13.96% 총합 40,422 100.00% - 지역별 피검자 분포
지역별 피검자 분포 지역별 피검자 분포 비고 기록 수 비율(%) 대도시 22,513 55.69% 중도시 13,079 32.36% 읍면 4,830 11.95% 총합 40,422 100.00% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드- 텍스트 생성형 모델 (문항별 전문가 해석 생성 모델)
텍스트 생성형 모델 (문항별 전문가 해석 생성 모델) AI모델 task AI모델 Data I/O 텍스트 생성 모델 EleutherAI
polyglot-ko-5.8bInput data :
“### MBTI: ESFP###
학교급: 초등학교 3학년### 제시 문구: 나는 ____한 사람이다### 학생 응답: 활발”
output data :
“본인의 성격을 잘 파악하고 있어 보인다. 실제 해당 아동은 MBTI 결과 ESFP에 해당하고, I보다 E의 성향이 두드러진다.”
• Reference
- Language Models are Unsupervised Multitask Learners
- Language Models are Few-Shot Learners
- GPT-NeoX-20B: An Open-Source Autoregressive Language Model
- LLaMA: Open and Efficient Foundation Language Models
- Polyglot: Large Language Models of Well-balanced Competence in Multi-languages- 분류형 모델 (문항별 전문가 해석 생성 모델)
분류형 모델 (문항별 전문가 해석 생성 모델) AI모델 task AI모델(후보) Data I/O 텍스트 분류 모델 KC_BERT Input data : “초등학교 3학년 / 질문: 나는 __한 사람이다. / 답변: 멋진”
output data : “중”• Reference
- Hierarchical Transformers for Long Document Classification
- BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
- RoBERTa: A Robustly Optimized BERT Pretraining Approach
- ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators
- HuggingFace's Transformers: State-of-the-art Natural Language Processing -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드- 데이터 구성
데이터 구성 Key Description Type tester_id 피검자 ID String school_type 피검자 학교급 (ex : “초등학교”) String school_name 피검자 학교명 (ex : “가락고등학교”) String gender 피검자 성별 (ex : “여”) String region 피검자 지역 (ex : “대도시”) String category_id 진로문장완성검사 문항이 속한 영역의 ID (ex : “CFY0001”) String category_name 영역의 명칭 (ex : “자기이해 및 긍정적 자아상”) String question_id 문항의 ID (ex : “QFY-001”) String question 검사 제시 문장 (ex : “내가 생각하는 나의 능력은”) String answer_1 피검자 응답 문장 1 (ex : “감정에 휘둘리지 않는다”) String answer_2 피검자 응답 문장 2 (ex : “감정에 휘둘리지 않는다”) String answer_3 피검자 응답 문장 3 (ex : “감정에 휘둘리지 않는다”) String answer_4 피검자 응답 문장 4 (ex : “감정에 휘둘리지 않는다”) String answer_5 피검자 응답 문장 5 (ex : “감정에 휘둘리지 않는다”) String answer_6 피검자 응답 문장 6 (ex : “감정에 휘둘리지 않는다”) String grade 응답 문장에 대한 진로성숙도의 전문가 분류 (ex : “상”) String comment 응답 문장에 대한 전문가 해석
(ex : “긍정적 결과로 이어지는 구체적인 인식이 필요”)String commenter 해석 데이터 입력 전문가 ID (ex : “c0034”) String - 어노테이션 포맷
어노테이션 포맷 구분 항목 데이터
타입필수
여부설명 예시 1 meta Object 문항별 해석 라벨링
데이터의 메타데이터 객체- 1-1 tester_id String Y 피검자 ID “S-0551” 1-2 school_type String Y 학교 구분 "초등학교", "중학교", "일반계열
고등학교", "특수목적고등학교",
"특성화고등학교",
"자율형고등학교"1-3 school_name String Y 학교명 “가락고등학교” 1-4 gender String Y 남,여 성별 정보 “남”.
“여”1-5 region String Y 지역구분 “대도시”,“중도시”, “읍면” 1-6 category_id String Y 문항이 속한 영역 ID “CFY0001” 1-7 category_name String Y 문항이 속한 영역명 “자기이해 및 긍정적 자아상” 2 comment Object 문항별 해석 라벨링
데이터 객체- 2-1 question_id String Y 문항 ID “QFY-001” 2-2 question String Y 검사 제시 문장 “내가 생각하는 나의 능력은” 2-3 answer_1 String Y 피검자의 답변(완성) 문장 “감정에 휘둘리지 않는다” 2-4 answer_2 String 피검자의 답변(완성) 문장 - 2-5 answer_3 String 피검자의 답변(완성) 문장 - 2-6 answer_4 String 피검자의 답변(완성) 문장 - 2-7 answer_5 String 피검자의 답변(완성) 문장 - 2-8 answer_6 String 피검자의 답변(완성) 문장 - 2-9 grade String Y 진로성숙도 등급 ‘상’,‘중’,‘하’ 2-10 comment String Y 완성 문장에 대한 전문가가
입력한 해석 데이터“감정적으로 행동하지 않는다는
자신의 장점을 인식하고 있으나,
그것이 어떠한 효과나 긍정적 결
과로 이어지는 구체적인 인식이
필요하다.”2-11 commenter String Y 해석 데이터 입력 전문가 ID “c0034” - 원문 데이터 포맷 예시
① 원천데이터원천데이터 No 속성1 속성2 속성설명 데이터타입 필수여부 예시 1 tester_meta tester_id 피검자ID string Y ‘S-0001’ school_type 학교급 string Y ‘초등학교’, ‘중학교’, 고등학교‘ school_name 학교명 string N ‘A초등학교’, ‘B중학교’ grade 학년 string N ‘1학년’,
‘2학년’gender 성별 string Y ‘남’, ‘여’ region 지역 string Y ‘서울특별시 관악구’,
‘경기도 수원시’2 category_meta category_id 카테고리ID string Y ‘C01’,C0101’.. category_name 카테고리명 string Y ‘긍정적 자아상’, ‘자기 이해’ school_type 학교급 string N ‘초등학교’, ‘중학교’ 3 question_meta question_id 문항ID string Y ‘Q-0001’ category_id 카테고리ID string Y ‘C010101’,C010102’.. question 문항 string Y ‘나는 __한 사람이다. 4 tester_id tester_id 피검자 ID string Y ‘S-0001’ 5 test question_id 문항ID string Y ‘Q-0001’ answer_1 문항응답1 string Y ‘웃기’ answer_2 문항응답2 string Y ‘친구같은 존재이다.’ answer_3 문항응답3 string Y ‘친구같은 존재이다.’ answer_4 문항응답4 string Y ‘친구같은 존재이다.’ answer_5 문항응답5 string Y ‘친구같은 존재이다.’ answer_6 문항응답6 string Y ‘친구같은 존재이다.’ answer_full 전체응답 string Y ‘나에게 선생님은 웃기고
친구같은 존재이다’② 라벨링데이터
라벨링데이터 No 속성1 속성2 속성설명 데이터타입 필수여부 예시 1 tester_meta tester_id 피검자ID string Y ‘S-0001’ school_type 학교급 string Y ‘초등학교’, ‘중학교’, 고등학교‘ school_name 학교명 string N ‘A초등학교’, ‘B중학교’ grade 학년 string N ‘1학년’,
‘2학년’gender 성별 string Y ‘남’, ‘여’ region 지역 string Y ‘서울특별시 관악구’, ‘경기도 수원시’ 2 category_meta category_id 카테고리ID string Y ‘C01’,C0101’.. category_name 카테고리명 string Y ‘긍정적 자아상’, ‘자기 이해’ school_type 학교급 string N ‘초등학교’, ‘중학교’ 3 question_meta question_id 문항ID string Y ‘Q-0001’ category_id 카테고리ID string Y ‘C010101’,C010102’.. question 문항 string Y ‘나는 __한 사람이다. 4 tester_id tester_id 피검자 ID string Y ‘S-0001’ 5 test question_id 문항ID string Y ‘Q-0001’ answer_1 문항응답1 string Y ‘웃기’ answer_2 문항응답2 string Y ‘친구같은 존재이다.’ answer_3 문항응답3 string Y ‘친구같은 존재이다.’ answer_4 문항응답4 string Y ‘친구같은 존재이다.’ answer_5 문항응답5 string Y ‘친구같은 존재이다.’ answer_6 문항응답6 string Y ‘친구같은 존재이다.’ answer_full 전체응답 string Y ‘나에게 선생님은 웃기고
친구같은 존재이다’6 comment grade string 필수 문항 평가 결과
(진로성숙도)‘상’, ‘중’, ‘하’ comment string 필수 문항 해석 결과 ‘가족이 중요할 수 있다.’ commenter string 선택 문항 해석 전문가
ID‘C-0001’ - 실제 예시
실제 예시 {
"meta": {
"tester_id": "S-0551",
"school_type": "일반계열고등학교",
"school_name": "가락고등학교",
"gender": "여",
"region": "대도시",
"category_id": "CFY0001",
"category_name": "자기이해 및 긍정적 자아상"
},
"category_comment": {
"category_id": "CFY0001",
"category_name": "자기이해 및 긍정적 자아상",
"comment": "부정적인 자아상을 지니고 있고 자신이 추구하는 삶의 모습을 단순하게 인식하고 있으며 추구하는가치를 추상적으로 표현하고 있다. 관계지향적인 성향으로 타인과의 친밀함에 가치를 두고 있다. 흥미, 적성과
관련된 질문에 대하여 진로와 관련이 적은 답변을 보이고 있다. ",
"commenter": "c0034"
}
} -
데이터셋 구축 담당자
수행기관(주관) : ㈜데이터드리븐
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 최명수 02-875-5075 [email protected] 사업 총괄 / AI 학습 수행기관(참여)
수행기관(참여) 기관명 담당업무 한국가이던스㈜ 데이터 수집 ㈜자유로운소프트 데이터 정제 ㈜원플 데이터 가공 ㈜메가웍스 데이터 품질 관리 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 최명수 02-875-5075 [email protected] 김기범 02-875-5075 [email protected] AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 최명수 02-875-5075 [email protected] 강다솔 02-875-5075 [email protected] 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 이락규 044-867-0496 [email protected] 유인국 042-483-0496 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.