한국인의 주제적응형 영어말하기 평가데이터
- 분야한국어
- 유형 오디오 , 비디오 , 텍스트
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2023-12-06 데이터 최종 개방 1.0 2023-07-31 데이터 개방(Beta Version) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2023-12-15 산출물 전체 공개 소개
ㅇ 영어말하기 평가 음성데이터 수집 (1,016.81시간) 및 가공 학습용 데이터 구축 - 데이터 규모 : 발화음성 총 1,016.81시간 - 활용 도구 : 음성데이터 추출(ffmpeg), STT 자동전사도구, 전사 교정 워크벤치, 평가 워크벤치 AI 모델링 서버
구축목적
ㅇ 양질의 영어 말하기평가 데이터 구축을 통한, AI 자동평가 시스템 개발 ㅇ 비용이 저렴하고, 높은 학습효과의 AI 자동평가 시스템 보급으로, 사회적 비용 절감 및 교육/취업의 균등한 기회 제공
-
메타데이터 구조표 데이터 영역 한국어 데이터 유형 오디오 , 비디오 , 텍스트 데이터 형식 wav 데이터 출처 자체 수집 라벨링 유형 질의응답(자연어) 라벨링 형식 json 데이터 활용 서비스 학습서비스, 자동 평가 서비스, 분석 데이터 정의 데이터 구축년도/
데이터 구축량2022년/1,016.81 시간 -
데이터 통계
데이터 구축 규모 및 분포
데이터 구축량
원시 데이터
1,200시간 영상데이터
원천 데이터
한국인의 영어 말하기평가 음성데이터 1,016.81시간
※ 발화 전후 비음성구간 500ms는 목표 시간 (약 1,000시간) 산출에서 제외
학습 데이터
문장 단위, 단락 단위 구조화 저장
2인 이상의 교사 채점(주제 설계 참여 교사 연계)
실제 작성 학생 데이터 기준 메타 데이터 정보 포함
데이터 분포 해당언어 구사 수준/발화방법/성별/지역별 고르게 분포
아래의 인원수는 최종 구축된 데이터 수량으로, 데이터 목표시간인 1,000시간을 엄수하도록 20% 이상 추가 모집데이터 분포 등급 레벨 인원(명) 시간(분) 5 NA
(Native)291 7,720.80 4 TH
(Talented High)775 19,563 3 TM
(Talented Mid)1,015 24,223.80 2 TL
(Talented Low)450 8,416.80 1 IG
(Ignite) 이하109 1,084.20 계 2,640 61,008.60 ※ 레벨별 오차범위 5% 적용
구분 구분 인원(명) 시간 합계(분) 직업별 대학생 및
구직자1,787 41,717.40 직장인 및
일반 성인853 19,291.20 합계 2,640 61,008.60 성별 남성 1,026 22,802.40 여성 1,614 38,206.20 합계 2,640 61,008.60 지역별 서울, 경기권 1,584 37,515 강원권 73 1,562.40 충청권 239 5,576.40 전라, 제주권 231 5,161.20 경상권 513 11,193.60 합계 2,640 61,008.60 ※ 5% 오차범위 허용
연령, 성별, 발화 환경, 학습자별 분석, 학습자별 평가
-
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드구분 내용 모델명 한국인의 주제적응형 영어스피킹 자동평가를 위한 분석영역별 평가모델 분석 단위 단위 문항별 한 개 이상의 문장으로 구성되는 단위 발화 모델 특성 - 단위 발화별로 분석 영역별 수준을 단계별로 제시
- 분석영역별 점수 제시
. Task Completion
. Delivery
. Accuracy
. Appropriateness입력 특징 - 모델별로 입력 특징을 심층신경망의 입력층에 인가하고 전문가 점수를 목표값으로 하여 분석영역별 유창성 설명 모델을 학습
- AI 모델 주요 입력 특징
. 문항별 질문
. 응시자 답변 문장성능지표 피어슨 상관 계수(Pearson Correlation Coefficient, ρ)
* 단위 발화에 대한 전문가 평가 점수 대비 AI 모델 기반의 자동 평가 점수 간 선형 상관계수를 추정함데이터 활용 전체 1,016.81시간 데이터에 대해 학습 약 824시간, 개발 약 98시간, 평가 약 96시간으로 분할하여 학습 및 평가에 활용함 성능목표 분석영역 평가모델별 ρ = 0.72 이상 응용서비스 예시 - 공인영어능력 시험의 말하기 및 쓰기 자동 평가 서비스
- 공인영어능력 시험을 준비하는 국민을 위한 학습 서비스
- 한국어, 중국어 등 타 외국어에 대한 자동 평가 및 학습 서비스기타 정보
-
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 화용적 기능 자동평가모델 Audio Classification Transformer PCC 0.72 % 76.91 % 2 정확성 자동평가모델 Audio Classification Transformer PCC 0.72 % 74.05 % 3 답안 내용과 문맥 자동평가모델 Audio Classification Transformer PCC 0.72 % 73.3 % 4 텍스트 유형 자동평가모델 Audio Classification Transformer PCC 0.72 % 72.52 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드데이터 포맷
데이터 포맷 수집 대상 형태 원천데이터 wav 음성 파일 메타데이터 - JSON 파일
- 대상자 상세정보 (성별/지역/직업/레벨)
- 질문유형 및 질문내용과 대답내용
- 어휘별 발화 시간과 평가점수- 원천데이터(음성파일)과 메타데이터(JSON)으로 구분
- 원천데이터(음성파일)와 메타데이터(JSON)는 각각의 파일명으로 구분
(예시 : ESPEAK_0030_IG_STUD_F_SG_01.json / ESPEAK_0030_IG_STUD_F_SG_01.wav)
- 원천데이터(음성파일)와 메타데이터(JSON)
데이터 구성 및 어노테이션 포맷
데이터 구성 및 어노테이션 포맷 구분 속성명 타입 필수여부 설명 1 Speaker string Y 화자 정보 1-1 ID string Y 화자 아이디 1-2 Name string Y 화자 이름 1-3 age string Y 화자 연령대 1-4 self_grade string Y 설문 응답 자기 등급 1-5 gender string Y 화자 성별 1-6 location string Y 거주 지역 1-7 recording_device string Y 응시장치정보 1-8 interview object Y 사전 인터뷰 정보 1-9 종사_분야 string Y 직장인, 취준생 1-10 현_거주_환경 string Y 거주환경 형태 1-11 여가_활동_취미 array Y 여가활동, 취미 생활 1-12 영어권_거주_여부 string Y 영어권 거주 여부 1-13 영어권_거주_기간 string Y 영어권 거주 기간 1-14 level object Y 평가 등급 1-15 Combo0_Q1 string Y Combo0 점수 1-16 Combo1_Q2_Q4 string Y Combo1 점수 1-17 Combo2_Q5_Q7 string Y Combo2 점수 1-18 Combo3_Q8_Q10 string Y Combo3 점수 1-19 Combo4_Q11_Q13 string Y Combo4 점수 1-20 Combo5_Q14_Q15 string Y Combo5 점수 1-21 final string Y 최종 등급 2 Prompt object 질문 상세정보 2-1 Interview_Relation object Y 사전인터뷰 연관정보 2-2 interview_question string 사전인터뷰 문항 중
연관 질문 번호2-3 interview_answer string 사전인터뷰 문항
연관 질문 답변2-4 Question_number string Y 응시 문항 번호 2-5 Question_type string Y 응시 문항 종류 2-6 prompt string Y 응시 문항 질문 내용 3 Utterance object 답변발화정보 3-1 id string Y 발화 파일 아이디 3-2 start string Y 녹음파일 시작 시간(초) 3-3 end string Y 녹음파일 종료 시간(초) 3-4 speaker_id string Y 화자 아이디 3-5 wav_file string Y wav 파일 위치 3-6 transcription string 전사문 3-7 words array 단어 단위 정보 3-8 id string 단어 아이디 3-9 name string 단어 이름 3-10 start string 단어 시작 시간(초) 3-11 end string 단어 끝 시간(초) 4 Rating object Y 전문가평가정보 4-1 type string Y 평가요소 이름 4-2 rater1_id string Y 평가자1 아이디 4-3 rater2_id string Y 평가자2 아이디 4-4 rater1 string Y 평가자1 점수 4-5 rater2 string Y 평가자2 점수 4-6 rater_final string Y 최종점수 4-7 rater_diff string Y 평가자 간 점수 차 5 Acoustic feature object 음향학적 메타정보 5-1 F0semitoneFrom27.5Hz_sma3nz_amean string Mean of logarithmic F0 on a semitone frequency scale, starting at 27.5 Hz 5-2 F0semitoneFrom27.5Hz_sma3nz_meanFallingSlope string Mean of the slope of falling signal parts of F0 5-3 F0semitoneFrom27.5Hz_sma3nz_meanRisingSlope string Mean of the slope of rising signal parts of F0 5-4 F0semitoneFrom27.5Hz_sma3nz_pctlrange0-2 string Range of 20-th to 80-th of logarithmic F0 on a semitone frequency scale,
starting at 27.5 Hz5-5 F0semitoneFrom27.5Hz_sma3nz_percentile20.0 string Percentile 20-th of logarithmic F0 on a semitone frequency
scale, starting at 27.5 Hz5-6 F0semitoneFrom27.5Hz_sma3nz_percentile50.0 string Percentile 50-th of logarithmic F0 on a semitone frequency scale,starting at 27.5 Hz 5-7 F0semitoneFrom27.5Hz_sma3nz_percentile80.0 string Percentile 80-th of logarithmic F0 on a semitone frequency scale,starting at 27.5 Hz 5-8 F0semitoneFrom27.5Hz_sma3nz_stddevFallingSlope string Standard deviation of the slope of falling signal parts of F0 5-9 F0semitoneFrom27.5Hz_sma3nz_stddevNorm string Coefficient of variation of logarithmic F0 on a semitone frequency scale,starting at 27.5 Hz 5-10 F0semitoneFrom27.5Hz_sma3nz_stddevRisingSlope string Standard deviation of the slope of rising signal parts of F0 5-11 jitterLocal_sma3nz_amean string Mean of the deviations in individual consecutive F0 period lengths 5-12 jitterLocal_sma3nz_stddevNorm string Coefficient of variation of the deviations in individual consecutive F0 period lengths 5-13 loudness_sma3_amean string Mean of estimate of perceived signal intensity from an auditory spectrum 5-14 loudness_sma3_meanFallingSlope string Mean of the slope of falling signal parts of loudness 5-15 loudness_sma3_meanRisingSlope string Mean of the slope of rising signal parts of loudness 5-16 loudness_sma3_pctlrange0-2 string Range of 20-th to 80-th of estimate of perceived signal intensity from an auditory spectrum 5-17 loudness_sma3_percentile20.0 string Percentile 20-th of estimate of perceived signal intensity from an auditory Spectrum 5-18 loudness_sma3_percentile50.0 string Percentile 50-th of estimate of perceived signal intensity from an auditory Spectrum 5-19 loudness_sma3_percentile80.0 string Percentile 80-th of estimate of perceived signal intensity from an auditory spectrum 5-20 loudness_sma3_stddevFallingSlope string Standard deviation of the slope of falling signal parts of loudness 5-21 loudness_sma3_stddevNorm string Coefficient of variation of estimate of perceived signal intensity from an auditory spectrum 5-22 loudness_sma3_stddevRisingSlope string Standard deviation of the slope of rising signal parts of loudness 5-23 shimmerLocaldB_sma3nz_amean string Mean of difference of the peak amplitudes of consecutive F0 periods 5-24 shimmerLocaldB_sma3nz_stddevNorm string Coefficient of variation of difference of the peak amplitudes of consecutive F0 periods 5-25 loudnessPeaksPerSec string The number of the loudness peaks per second 5-26 MeanVoicedSegmentLengthSec string Mean of continuously voiced regions 5-27 MeanUnvoicedSegmentLength string Mean of unvoiced regions 5-28 StddevVoicedSegmentLengthSec string Standard deviation of continuously voiced regions 5-29 StddevUnvoicedSegmentLength string Standard deviation of unvoiced regions 5-30 VoicedSegmentsPerSec string The number of continuous voiced regions per second 실제 예시
{
"metadata": {
"title": "ESPEAK_0030_IG_STUD_F_SG_01",
"creator": "SLIEdu",
"distributor": "NIA",
"year": "2022",
"date": "20221125",
"file_format": {
"format": "wav",
"sampling_rate": "16kHz",
"channel": "mono",
"bit": "16bit",
"byte_order": "little_endian"
}
},
"speaker": {
"id": "ESPEAK_0030_IG_STUD_F_SG",
"name": "ESPEAK_0030_IG_STUD_F_SG",
"age": "20",
"self_grade": "TM",
"gender": "female",
"location": "경기",
"recoding_device": "None",
"interview": {
"종사_분야": "대학(원)생",
"현_거주_환경": "가족(배우자/자녀/기타 가족일원)과 함께 거주",
"여가_활동_취미": [
"예술활동",
"운동"
],
"영어권_거주_여부": "없음",
"영어권_거주_기간": "없음"
},
"level": {
"Combo0_Q1": "2.25",
"Combo1_Q2_Q4": "1.08",
"Combo2_Q5_Q7": "1.88",
"Combo3_Q8_Q10": "1.50",
"Combo4_Q11_Q13": "1.38",
"Combo5_Q14_Q15": "1.06",
"final": "IG"
}
},
"prompt": {
"Interview_Relation": {
"interview_question": "NULL",
"interview_answer": "NULL"
},
"Question_number": "01",
"Question_type": "자기소개",
"prompt": "Can you introduce yourself in as much detail as possible?"
},
"utterance": {
"id": "ESPEAK_0030_IG_STUD_F_SG_01",
"start": "0.00",
"end": "12.01",
"speaker_id": "ESPEAK_0030_IG_STUD_F_SG",
"wav_file": "train/Ignite/ESPEAK_0030_IG_STUD_F_SG_wav/ESPEAK_0030_IG_STUD_F_SG_01.wav",
"transcription": "uhm my name is don kim and twenty one years old uh and i'm attending in suwon science college",
"words": [
{
"id": 1,
"name": "",
"start": "0.01",
"end": "0.03"
},... -
데이터셋 구축 담당자
수행기관(주관) : ㈜에스엘아이평생교육원
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 박진석 02-541-7158 [email protected] 데이터 수집, 데이터 평가, 데이터 품질검수, 크라우드 소싱인력 관리 수행기관(참여)
수행기관(참여) 기관명 담당업무 성신여대 연구산학협력단 데이터 선정/설계, 데이터 품질검수 ㈜튜터러스랩스 AI모델 개발 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 박진석 02-541-7158 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.