-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2022-07-29 데이터 최초 개방 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2022-07-29 콘텐츠 최초 등록 소개
실제 교육 현장에서 학생을 관찰한 텍스트데이터를 정규화하여, 정규화된 결과를 교육적 역량으로 치환하고 이를 기준으로 수업기록을 교육 전문가를 통한 어노테이션을 진행하여, 교육 텍스트에서 정량적 역량 점수를 예측할 수 있는 인공지능 학습용 데이터셋
구축목적
학생 및 교육활동 메타 정보와 교육활동에서 관찰된 수업기록 텍스트데이터, 기록에서 나타난 역량 레이블링 데이터를 수집하여 역량을 예측할 수 있는 인공지능을 훈련하기 위한 데이터셋
-
메타데이터 구조표 데이터 영역 한국어 데이터 유형 텍스트 데이터 형식 csv 데이터 출처 자체 수집 라벨링 유형 역량평가(자연어) 라벨링 형식 csv 데이터 활용 서비스 교육효과 분석, 교육활동 리포트, 교육텍스트 기록 역량 변환, 역량 지표에 따른 문장 생성 데이터 구축년도/
데이터 구축량2021년/140,359 -
1. 데이터 구축 규모
1. 데이터 구축 규모 No 원시 데이터 종류 데이터 형태 데이터 셋 규모 비고 1 학생 정보 csv 12,000건 초·중·고 데이터 분리 2 프로그램 정보 csv 100건 이상 3 미션 정보 csv 100건 이상 4 수업기록 데이터 csv 140,359건 초·중·고 데이터 분리 5 교과목 핵심개념 데이터 csv 100건 이상 2. 데이터 분포
- 학교급별 데이터 분포
2. 데이터 분포-학교급별 데이터 분포 학교급 별 데이터 분포 비고 학생 수 비율(%) 기록 수 비율(%) 기록 길이 초등 6,947 39.07% 88,443 63.01% 173.2 중등 7,869 44.26% 40,743 29.03% 172.45 고등 2,965 16.68% 11,173 7.96% 174.39 총합 17,781 100.00% 140,359 100.00% -
- 프로그램 카테고리별 데이터 분포
프로그램 카테고리별 데이터 분포 프로그램 카테고리 별 데이터 분포 비고 학생 수 비율(%) 기록 수 비율(%) 기록 길이 학습지원 4,108 23.10% 42,383 30.20% 173.45 창의체험 3,210 18.05% 31,625 22.53% 171.49 진로탐색 4,225 23.76% 20,202 14.39% 170.09 4-IRCT 1,527 8.59% 19,819 14.12% 172.31 시민역량 2,040 11.47% 10,952 7.80% 181.89 자치/행사 1,775 9.98% 10,240 7.30% 171.17 자기개발 896 5.04% 5,138 3.66% 179.47 총합 17,781 100.00% 140,359 100.00% -
- 미션 카테고리별 데이터 분포
미션 카테고리별 데이터 분포 미션 카테고리 별 데이터 분포 비고 학생 수 비율(%) 기록 수 비율(%) 기록 길이 실습/연습 14,216 52.60% 86,647 61.73% 173.46 학습/교과이해 7,199 26.64% 40,889 29.13% 170.93 의견나누기 2,357 8.72% 5,343 3.81% 180.5 발표하기 1,846 6.83% 4,233 3.02% 180.41 계획세우기 564 2.09% 1,350 0.96% 164.79 공연/대회 283 1.05% 949 0.68% 170.29 도와주기 284 1.05% 427 0.30% 166.19 자료조사 216 0.80% 398 0.28% 170.39 현장탐방/모니터링 60 0.22% 123 0.09% 155.27 총합 27,025 100.00% 140,359 100.00% -
- 지역별 데이터 분포
지역별 데이터 분포 지역별 데이터 분포 비고 학생 수 비율(%) 기록 수 비율(%) 기록 길이 경기도(성남 제외) 3,984 22.41% 32,336 23.04% 177.26 야탑3동 1,336 7.51% 19,291 13.74% 171.96 서울특별시 1,020 5.74% 10,003 7.13% 170.83 판교동 1,031 5.80% 8,394 5.98% 171.34 서현2동 734 4.13% 8,288 5.90% 177.22 신흥2동 1,195 6.72% 6,439 4.59% 169.72 은행2동 279 1.57% 6,295 4.48% 172.72 성남동 700 3.94% 6,218 4.43% 172.9 정자1동 487 2.74% 5,113 3.64% 166.93 단대동 862 4.85% 4,767 3.40% 171.03 금곡동 982 5.52% 3,805 2.71% 180.84 양지동 368 2.07% 2,790 1.99% 171.24 수내2동 460 2.59% 2,376 1.69% 163.05 하대원동 342 1.92% 2,315 1.65% 179.82 금광2동 290 1.63% 2,266 1.61% 163.82 수내1동 356 2.00% 2,152 1.53% 179.08 백현동 232 1.30% 1,609 1.15% 173.19 충청남도 99 0.56% 1,387 0.99% 167.13 운중동 220 1.24% 1,387 0.99% 168.31 경상북도 180 1.01% 1,217 0.87% 162.73 구미1동 164 0.92% 990 0.71% 176.93 금광1동 309 1.74% 966 0.69% 169.52 신촌동 237 1.33% 928 0.66% 177.92 서현1동 90 0.51% 900 0.64% 178.86 야탑1동 128 0.72% 825 0.59% 162.8 정자동 88 0.49% 791 0.56% 169.12 정자3동 61 0.34% 523 0.37% 176.76 경상남도 61 0.34% 469 0.33% 161.61 중앙동 156 0.88% 454 0.32% 163.91 위례동 88 0.49% 436 0.31% 170.34 충청북도 145 0.82% 415 0.30% 167.32 강원도 83 0.47% 384 0.27% 184.18 제주도 121 0.68% 350 0.25% 166.48 대구광역시 119 0.67% 348 0.25% 166.57 분당동 68 0.38% 321 0.23% 172.14 화성시 60 0.34% 266 0.19% 168.56 태평3동 42 0.24% 232 0.17% 161.73 이매1동 122 0.69% 225 0.16% 180.82 세종시 31 0.17% 223 0.16% 160.21 전라남도 76 0.43% 217 0.15% 164.41 복정동 24 0.13% 207 0.15% 172.32 인천광역시 67 0.38% 196 0.14% 161.85 태평4동 15 0.08% 178 0.13% 171.12 야탑2동 27 0.15% 160 0.11% 191.7 산성동 50 0.28% 146 0.10% 169.08 광주광역시 30 0.17% 127 0.09% 178.46 전라북도 45 0.25% 121 0.09% 163.17 고등동 30 0.17% 90 0.06% 163.3 울산광역시 15 0.08% 80 0.06% 171.05 부산광역시 25 0.14% 75 0.05% 168.61 태평1동 22 0.12% 75 0.05% 162.87 도촌동 9 0.05% 63 0.04% 152.79 수진2동 2 0.01% 52 0.04% 152.15 상대원3동 5 0.03% 35 0.02% 160.2 금광동 2 0.01% 24 0.02% 139.13 상대원1동 4 0.02% 16 0.01% 261.06 상대원2동 3 0.02% 3 0.00% 139 총합 17,781 100.00% 140,359 100.00% -
- 성별 데이터 분포
성별 데이터 분포 성별 데이터 분포 비고 학생 수 비율(%) 기록 수 비율(%) 기록 길이 불특정 14,617 82.21% 120,819 86.08% 172.89 남 1,589 8.94% 9,384 6.69% 175.88 여 1,575 8.86% 10,156 7.24% 172.66 총합 17,781 100.00% 140,359 100.00% -
- 관련 교과목별 데이터 분포
관련 교과목별 데이터 분포 관련 교과목 별 데이터 분포 비고 학생 수 비율(%) 기록 수 비율(%) 기록 길이 실과(기술・가정) 7,304 25.30% 35,104 25.01% 169.81 사회(초·중) 4,368 15.13% 21,380 15.23% 176.8 국어 2,844 9.85% 16,534 11.78% 174.9 수학(초·중) 2,611 9.04% 14,376 10.24% 170.71 미술 2,347 8.13% 12,811 9.13% 171.95 체육 1,803 6.25% 10,016 7.14% 172.02 도덕 1,667 5.77% 6,438 4.59% 169 영어 1,449 5.02% 6,111 4.35% 175.22 통합사회(고) 1,570 5.44% 5,590 3.98% 187.58 정보 1,046 3.62% 5,186 3.69% 170.76 과학(초·중) 1,032 3.57% 3,737 2.66% 171.68 음악 492 1.70% 2,230 1.59% 177.35 한문 336 1.16% 846 0.60% 169.98 총합 28,869 100.00% 140,359 100.00% -
- 학교급별 데이터 분포
-
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드1. 모델학습
- 서울대학교 산학협력단 머신인텔리전스랩(Machine Intelligence Lab)에서 3개 모델에 대한 학습을 진행
1. 모델학습 Model 사례 Trainer Output 2. AI 기획 (레이블 3에 대한 처리 방법)
- 기존 Ai 모델의 학습 방법의 경우, 각 역량의 점수를 1 ~ 5 점의 score로 생각하여, 역량 4개에 대한 regression 결과를 출력으로 내어놓는 regression model로 accuracy_round 70% 정도의 성능을 보이는 모델을 구성하였음.
- 역량이 관측되지 않음의 label 3 이 전체의 70% 가량을 차지하는 등 class imbalance 문제에 대한 보완 사항으로, 가장 class label의 개수가 적은 1점(역량 매우 낮음)과 2점(역량 낮음)을 하나의 class 0으로, 3점(역량 관측 되지 않음)을 class 1으로, 그리고 4점(역량 높음)과 5점(역량 매우 높음)을 class 2로 하는 3-way classification model로 구성을 변경하고, 이후 가장 class의 data 개수가 적은 class 0의 개수를 바탕으로, undersampling 을 하여, 학습하는 과정에서 세 개의 class 의 비율을 1:1:1로 하여 학습을 진행하여 보완할 수 있음.
3. 서비스 활용
- 응용(시범) 서비스 개발
- 성남시청소년재단 야탑수련관 야탑 LMS 서비스 시범 도입 (계약·도입 완료, 조정 중)
응용(시범) 서비스 개발 에이플 서비스 상세
(https://aplus.datadriven.kr/)
- 성남시청소년재단 야탑수련관 야탑 LMS 서비스 시범 도입 (계약·도입 완료, 조정 중)
-
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 역량평가 분석 정확도 Text Classification KorBERT F1-Score(weighted) 0.55 점 0.61 점 2 역량평가 분석 정확도 Text Classification KorBERT MAE 0.5 단위없음 0.41 단위없음 3 역량평가 분석 정확도 Text Classification KorBERT MSE 35 % 29 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드1. 라벨링데이터 구성
1. 라벨링데이터 구성 No 속성 속성설명 데이터 타입 필수여부 예시 1 record_id 기록 ID number Y 1,2,3 2 student_id 학생 ID number Y 1,2,3 3 mission_id 미션 ID number Y 1,2,3 4 student_performance 학생수행결과 string Y “” 5 student_assessment 학생관찰결과 string Y “” 6 date 수행날짜 date Y 2021-07-21 10:04 7 competency_label_1 역량 라벨 결과 number Y 1,2,3,4,5 8 competency_label_2 역량 라벨 결과 number Y 1,2,3,4,5 9 competency_label_3 역량 라벨 결과 number Y 1,2,3,4,5 10 competency_label_4 역량 라벨 결과 number Y 1,2,3,4,5 2. 라벨링데이터 실제예시
3. 데이터 설명 및 데이터 명세
- 교수자가 학생을 관찰한 기록 텍스트데이터를 텍스트 마이닝을 통해 정규화한 결과를 기반으로 교육적 의미를 가진 역량으로 설계하고 이를 수집된 원천데이터에 라벨링을 진행함. 인공지능 학습을 위해 120,000건의 데이터셋을 구축하고 이를 토대로 교과 과정을 진행함에 있어서 학생별로 개인화 학습이 가능토록 역량을 분석해주는 AI 활용 서비스를 제공할 수 있도록 함.
- 수집대상 데이터는 크게 학생의 관찰기록과 그를 보강할 수 있는 수업, 학생정보, 수행미션 등의 메타정보로 설계하였음. 또한 방과후 교육이나 청소년시설내의 교육이 비교과 항목인 점을 고려하여 교과 과정과의 핵심개념 연계성 부분의 데이터를 추가하여 설계함.
3. 데이터 설명 및 데이터 명세 구분 데이터셋명 파일명 설명 원천
데이터학생정보 데이터 /label/학생정보데이터.csv 학생 한명당 한명의 id값 부여.
관계정보 -
학생정보데이터(student_id) : 프로그램정보 (program_id) = n:n프로그램 정보 데이터 /label/프로그램정보 데이터.csv 한개의 프로그램은 여러 미션으로 구성됨.
관계정보 -
프로그램정보데이터(program_id) : 미션정보데이터(mission_id) = 1:n미션정보 /label/미션정보 데이터.csv 프로그램 내부의 학생에게 부여된 미션에 id값 부여. 프로그램정보데이터에 귀속되어 있는 데이터임.
관계 정보 -
프로그램정보데이터(program_id) : 미션정보데이터(mission_id) = 1:n교과목 핵심개념 데이터 /label/교과목 핵심개념 데이터.csv 데이터와 교과연계성을 나타냄.
관계정보 -
프로그램정보데이터(program_id) : 교과목핵심개념데이터(subject_concept) = n:n가공
데이터수업기록 데이터 /label/수업기록 데이터.csv 학생의 수행 결과에 대해서 기록하고 이에 대한 레이블 정보를 포함함.
(student_id, mission_id) 쌍에 대해서 1:1 관계성을 가지고
(학생 수행 결과 (student_performance), 학생 관찰 결과(student_assessment))
쌍의 데이터를 가짐.[전체 데이터 명세]
3. 데이터 설명 및 데이터 명세 No 속성 속성설명 데이터타입 필수여부 예시 1 student_id 학생 ID number Y 1,2,3 2 school_type 학교급 string Y “초등”, “중등”, “고등” 3 student_grade 학년 number Y 1,2,3 4 student_sex 성별 string N “남”, “여” 5 student_area 지역 string N “성남”, “노원” [학생 정보 데이터 명세 (메타데이터 1)]
3. 데이터 설명 및 데이터 명세 No 속성 속성설명 데이터타입 필수여부 예시 1 program_id 프로그램 ID number Y 1,2,3 2 program_name 프로그램 명 string Y “평화학교” 3 program_category 프로그램 카테고리 string Y “공동체의식” “미술공예”, ... 4 school_type 프로그램 학교급 string Y “초등”, “중등”, “고등” 5 subject_concept 교과목 핵심개념 ID number Y 1,2,3 [프로그램 정보 데이터 명세 (메타데이터 2)]
3. 데이터 설명 및 데이터 명세 No 속성 속성설명 데이터타입 필수여부 예시 1 mission_id 미션 ID number Y 1,2,3 2 program_id 미션이 속해있는 프로그램 ID number Y 1,2,3 3 mission_category 미션 분류 string Y “실습/연습”, “발표하기”, ... 4 mission_name 미션 명 string Y 목공작품 사포질하기 [미션 정보 데이터 명세 (메타데이터 3)]
데이터 명세 No 속성 속성설명 데이터타입 필수여부 예시 1 concept_id 핵심개념 ID number Y 1,2,3 2 subject 교과목명 string Y “사회” 3 subject_concept 핵심개념 string Y “민주주의와 국가” “헌법과 우리생활”, ... [교과목 핵심개념 데이터 명세 (메타데이터 4)]
데이터명세 No 속성 속성설명 데이터 타입 필수여부 예시 비고 1 record_id 기록 ID number Y 1,2,3 2 student_id 학생 ID number Y 1,2,3 3 mission_id 미션 ID number Y 1,2,3 4 student_
performance학생수행
결과string Y “” 5 student_
assessment학생관찰
결과string Y “” 6 date 수행날짜 date Y 2021-07-21 10:04 7 competency_
label_1자기관리
역량number Y 1,2,3,4,5 역량라벨결과 8 competency_
label_2대인관계
역량number Y 1,2,3,4,5 역량라벨결과 9 competency_
label_3시민역량 number Y 1,2,3,4,5 역량라벨결과 10 competency_
label_4문제해결
역량number Y 1,2,3,4,5 역량라벨결과 [수업기록 데이터 명세]
- 역량 클래스는 지역특화를 고려하여 성남시 청소년 4대 핵심역량을 정의하였고, 다른 지역에서도 사용할 수 있도록 교육부에서 정의한 2015 역량체계를 호환 가능한 형태로 설계하였음.
역량 클래스 역량명 정의 객체
클래스자기관리역량 육체적․정신적으로 타인과 구별되는 자아를 인식하고 자기정체성을 수립, 자신에 대한 긍정적인 평가를 통해 자신과 삶을 유지, 관리하며, 자신의 가치 향상과 행복한 삶을 위해 미래를 설계하고 인생 전반에 걸쳐 지속적으로 학습하는 역량 대인관계역량 집단의 목표달성을 위하여 집단의 구성원들과 원만한 관계를 형성하고, 상호 협력하여 효율적으로 과제를 수행하며, 효과적으로 의사소통하는 사회적 관계 기술 역량 시민역량 공동체의 구성원으로서 소속감과 일체감을 느끼고 역할과 책임을 인식하고 조절하며, 다른 문화와 환경을 이해하고 수용하면서 공익을 추구하는 자발적인 역량 문제해결역량 해결해야 하는 문제를 정확하게 파악하고 진단하며, 관련 사항의 상관관계나 인과관계를 규명하여 다양한 관점에서 새로운 기술, 방법, 절차, 아이디어 등을 창출하여 실제 문제해결에 반영하는 역량 [성남시 청소년 4대 핵심역량 명세]
-
데이터셋 구축 담당자
수행기관(주관) : ㈜데이터드리븐
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김기범 02-875-5075 [email protected] · 실무 총괄 수행기관(참여)
수행기관(참여) 기관명 담당업무 성남시청소년재단 · 원천 데이터 수집 및 관리 성남형교육지원단 · 원천 데이터 수집 및 관리 ㈜하얀에이아이 · 데이터 검사 관리 서울대학교 산학협력단 · AI 개발 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 김기범 02-875-5075 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.