콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#영어교육 # 영어말하기시험 서비스 # 영어음성 # 외국어교육

한국인의 주제적응형 영어말하기 평가데이터

한국인의 주제적응형 영어말하기 평가데이터 아이콘 이미지
  • 분야한국어
  • 유형 오디오 , 비디오 , 텍스트
구축년도 : 2022 갱신년월 : 2023-12 조회수 : 18,453 다운로드 : 138 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.1 2023-12-06 데이터 최종 개방
    1.0 2023-07-31 데이터 개방(Beta Version)

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2023-12-15 산출물 전체 공개

    소개

    ㅇ 영어말하기 평가 음성데이터 수집 (1,016.81시간) 및 가공 학습용 데이터 구축
       - 데이터 규모 : 발화음성 총 1,016.81시간
       - 활용 도구 : 음성데이터 추출(ffmpeg), STT 자동전사도구, 전사 교정 워크벤치, 평가 워크벤치 AI 모델링 서버

    구축목적

    ㅇ 양질의 영어 말하기평가 데이터 구축을 통한, AI 자동평가 시스템 개발
    ㅇ 비용이 저렴하고, 높은 학습효과의 AI 자동평가 시스템 보급으로, 사회적 비용 절감 및 교육/취업의 균등한 기회 제공
  • 데이터 통계

    데이터 구축 규모 및 분포
     

    데이터 구축량
    원시 데이터
     1,200시간 영상데이터


    원천 데이터 
     한국인의 영어 말하기평가 음성데이터 1,016.81시간
    ※ 발화 전후 비음성구간 500ms는 목표 시간 (약 1,000시간) 산출에서 제외 


    학습 데이터
     문장 단위, 단락 단위 구조화 저장
     2인 이상의 교사 채점(주제 설계 참여 교사 연계)
     실제 작성 학생 데이터 기준 메타 데이터 정보 포함


    데이터 분포

     해당언어 구사 수준/발화방법/성별/지역별 고르게 분포
    아래의 인원수는 최종 구축된 데이터 수량으로, 데이터 목표시간인 1,000시간을 엄수하도록 20% 이상 추가 모집

    데이터 분포
    등급 레벨 인원(명) 시간(분)
    5 NA
    (Native)
    291 7,720.80
    4 TH
    (Talented High)
    775 19,563
    3 TM
    (Talented Mid)
    1,015 24,223.80
    2 TL
    (Talented Low)
    450 8,416.80
    1 IG
    (Ignite) 이하
    109 1,084.20
    2,640 61,008.60

    ※ 레벨별 오차범위 5% 적용

     

     
    구분 구분  인원(명) 시간 합계(분)
    직업별 대학생 및
    구직자
    1,787 41,717.40
    직장인 및
    일반 성인
    853 19,291.20
    합계 2,640 61,008.60
    성별 남성 1,026 22,802.40
    여성 1,614 38,206.20
    합계 2,640 61,008.60
    지역별 서울, 경기권 1,584 37,515
    강원권 73 1,562.40
    충청권 239 5,576.40
    전라, 제주권 231 5,161.20
    경상권 513 11,193.60
    합계 2,640 61,008.60

    ※ 5% 오차범위 허용

     연령, 성별, 발화 환경, 학습자별 분석, 학습자별 평가

     

  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드
     
    구분 내용
    모델명 한국인의 주제적응형 영어스피킹 자동평가를 위한 분석영역별 평가모델
    분석 단위 단위 문항별 한 개 이상의 문장으로 구성되는 단위 발화
    모델 특성 - 단위 발화별로 분석 영역별 수준을 단계별로 제시
    - 분석영역별 점수 제시
    . Task Completion
    . Delivery
    . Accuracy
    . Appropriateness
    입력 특징 - 모델별로 입력 특징을 심층신경망의 입력층에 인가하고 전문가 점수를 목표값으로 하여 분석영역별 유창성 설명 모델을 학습
    - AI 모델 주요 입력 특징
    . 문항별 질문
    . 응시자 답변 문장
    성능지표 피어슨 상관 계수(Pearson Correlation Coefficient, ρ)
    * 단위 발화에 대한 전문가 평가 점수 대비 AI 모델 기반의 자동 평가 점수 간 선형 상관계수를 추정함
    데이터 활용 전체 1,016.81시간 데이터에 대해 학습 약 824시간, 개발 약 98시간, 평가 약 96시간으로 분할하여 학습 및 평가에 활용함
    성능목표 분석영역 평가모델별 ρ = 0.72 이상
    응용서비스 예시 - 공인영어능력 시험의 말하기 및 쓰기 자동 평가 서비스
    - 공인영어능력 시험을 준비하는 국민을 위한 학습 서비스
    - 한국어, 중국어 등 타 외국어에 대한 자동 평가 및 학습 서비스

     

    기타 정보
     

  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 화용적 기능 자동평가모델 Audio Classification Transformer PCC 0.72 % 76.91 %
    2 정확성 자동평가모델 Audio Classification Transformer PCC 0.72 % 74.05 %
    3 답안 내용과 문맥 자동평가모델 Audio Classification Transformer PCC 0.72 % 73.3 %
    4 텍스트 유형 자동평가모델 Audio Classification Transformer PCC 0.72 % 72.52 %

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    데이터 포맷

    데이터 포맷
    수집 대상 형태
    원천데이터 wav 음성 파일
    메타데이터 - JSON 파일
    - 대상자 상세정보 (성별/지역/직업/레벨)
    - 질문유형 및 질문내용과 대답내용
    - 어휘별 발화 시간과 평가점수

    - 원천데이터(음성파일)과 메타데이터(JSON)으로 구분
    - 원천데이터(음성파일)와 메타데이터(JSON)는 각각의 파일명으로 구분
      (예시 : ESPEAK_0030_IG_STUD_F_SG_01.json / ESPEAK_0030_IG_STUD_F_SG_01.wav)
    - 원천데이터(음성파일)와 메타데이터(JSON) 
     

    데이터 구성 및 어노테이션 포맷

    데이터 구성 및 어노테이션 포맷
    구분 속성명 타입 필수여부 설명
    1 Speaker string Y 화자 정보
      1-1 ID string Y 화자 아이디
    1-2 Name string Y 화자 이름
    1-3 age string Y 화자 연령대
    1-4 self_grade string Y 설문 응답 자기 등급
    1-5 gender string Y 화자 성별
    1-6 location string Y 거주 지역
    1-7 recording_device string Y 응시장치정보
    1-8 interview object Y 사전 인터뷰 정보
    1-9 종사_분야 string Y 직장인, 취준생
    1-10 현_거주_환경 string Y 거주환경 형태
    1-11 여가_활동_취미 array Y 여가활동, 취미 생활
    1-12 영어권_거주_여부 string Y 영어권 거주 여부
    1-13 영어권_거주_기간 string Y 영어권 거주 기간
    1-14 level object Y 평가 등급
    1-15 Combo0_Q1 string Y Combo0 점수
    1-16 Combo1_Q2_Q4 string Y Combo1 점수
    1-17 Combo2_Q5_Q7 string Y Combo2 점수
    1-18 Combo3_Q8_Q10 string Y Combo3 점수
    1-19 Combo4_Q11_Q13 string Y Combo4 점수
    1-20 Combo5_Q14_Q15 string Y Combo5 점수
    1-21 final string Y 최종 등급
    2 Prompt object   질문 상세정보
      2-1 Interview_Relation object Y 사전인터뷰 연관정보
    2-2 interview_question string   사전인터뷰 문항 중
    연관 질문 번호
    2-3 interview_answer string   사전인터뷰 문항
    연관 질문 답변
    2-4 Question_number string Y 응시 문항 번호
    2-5 Question_type string Y 응시 문항 종류
    2-6 prompt string Y 응시 문항 질문 내용
    3 Utterance object   답변발화정보
      3-1 id string Y 발화 파일 아이디
    3-2 start string Y 녹음파일 시작 시간(초)
    3-3 end string Y 녹음파일 종료 시간(초)
    3-4 speaker_id string Y 화자 아이디
    3-5 wav_file string Y wav 파일 위치
    3-6 transcription string   전사문
    3-7 words array   단어 단위 정보
    3-8 id string   단어 아이디
    3-9 name string   단어 이름
    3-10 start string   단어 시작 시간(초)
    3-11 end string   단어 끝 시간(초)
    4 Rating object Y 전문가평가정보
      4-1 type string Y 평가요소 이름
    4-2 rater1_id string Y 평가자1 아이디
    4-3 rater2_id string Y 평가자2 아이디
    4-4 rater1 string Y 평가자1 점수
    4-5 rater2 string Y 평가자2 점수
    4-6 rater_final string Y 최종점수
    4-7 rater_diff string Y 평가자 간 점수 차
    5 Acoustic feature object   음향학적 메타정보
      5-1 F0semitoneFrom27.5Hz_sma3nz_amean string   Mean of logarithmic F0 on a semitone frequency scale, starting at 27.5 Hz
    5-2 F0semitoneFrom27.5Hz_sma3nz_meanFallingSlope string   Mean of the slope of falling signal parts of F0
    5-3 F0semitoneFrom27.5Hz_sma3nz_meanRisingSlope string   Mean of the slope of rising signal parts of F0
    5-4 F0semitoneFrom27.5Hz_sma3nz_pctlrange0-2 string   Range of 20-th to 80-th of logarithmic F0 on a semitone frequency scale,
    starting at 27.5 Hz
    5-5 F0semitoneFrom27.5Hz_sma3nz_percentile20.0 string   Percentile 20-th of logarithmic F0 on a semitone frequency
    scale, starting at 27.5 Hz
    5-6 F0semitoneFrom27.5Hz_sma3nz_percentile50.0 string   Percentile 50-th of logarithmic F0 on a semitone frequency scale,starting at 27.5 Hz
    5-7 F0semitoneFrom27.5Hz_sma3nz_percentile80.0 string   Percentile 80-th of logarithmic F0 on a semitone frequency scale,starting at 27.5 Hz
    5-8 F0semitoneFrom27.5Hz_sma3nz_stddevFallingSlope string   Standard deviation of the slope of falling signal parts of F0
    5-9 F0semitoneFrom27.5Hz_sma3nz_stddevNorm string   Coefficient of variation of logarithmic F0 on a semitone frequency scale,starting at 27.5 Hz
    5-10 F0semitoneFrom27.5Hz_sma3nz_stddevRisingSlope string   Standard deviation of the slope of rising signal parts of F0
    5-11 jitterLocal_sma3nz_amean string   Mean of the deviations in individual consecutive F0 period lengths
    5-12 jitterLocal_sma3nz_stddevNorm string   Coefficient of variation of the deviations in individual consecutive F0 period lengths
    5-13 loudness_sma3_amean string   Mean of estimate of perceived signal intensity from an auditory spectrum
    5-14 loudness_sma3_meanFallingSlope string   Mean of the slope of falling signal parts of loudness
    5-15 loudness_sma3_meanRisingSlope string   Mean of the slope of rising signal parts of loudness
    5-16 loudness_sma3_pctlrange0-2 string   Range of 20-th to 80-th of estimate of perceived signal intensity from an auditory spectrum
    5-17 loudness_sma3_percentile20.0 string   Percentile 20-th of estimate of perceived signal intensity from an auditory Spectrum
    5-18 loudness_sma3_percentile50.0 string   Percentile 50-th of estimate of perceived signal intensity from an auditory Spectrum
    5-19 loudness_sma3_percentile80.0 string   Percentile 80-th of estimate of perceived signal intensity from an auditory spectrum
    5-20 loudness_sma3_stddevFallingSlope string   Standard deviation of the slope of falling signal parts of loudness
    5-21 loudness_sma3_stddevNorm string   Coefficient of variation of estimate of perceived signal intensity from an auditory spectrum
    5-22 loudness_sma3_stddevRisingSlope string   Standard deviation of the slope of rising signal parts of loudness
    5-23 shimmerLocaldB_sma3nz_amean string   Mean of difference of the peak amplitudes of consecutive F0 periods
    5-24 shimmerLocaldB_sma3nz_stddevNorm string   Coefficient of variation of difference of the peak amplitudes of consecutive F0 periods
    5-25 loudnessPeaksPerSec string   The number of the loudness peaks per second
    5-26 MeanVoicedSegmentLengthSec string   Mean of continuously voiced regions
    5-27 MeanUnvoicedSegmentLength string   Mean of unvoiced regions
    5-28 StddevVoicedSegmentLengthSec string   Standard deviation of continuously voiced regions
    5-29 StddevUnvoicedSegmentLength string   Standard deviation of unvoiced regions
    5-30 VoicedSegmentsPerSec string   The number of continuous voiced regions per second

     

    실제 예시

    {
        "metadata": {
            "title": "ESPEAK_0030_IG_STUD_F_SG_01",
            "creator": "SLIEdu",
            "distributor": "NIA",
            "year": "2022",
            "date": "20221125",
            "file_format": {
                "format": "wav",
                "sampling_rate": "16kHz",
                "channel": "mono",
                "bit": "16bit",
                "byte_order": "little_endian"
            }
        },
        "speaker": {
            "id": "ESPEAK_0030_IG_STUD_F_SG",
            "name": "ESPEAK_0030_IG_STUD_F_SG",
            "age": "20",
            "self_grade": "TM",
            "gender": "female",
            "location": "경기",
            "recoding_device": "None",
            "interview": {
                "종사_분야": "대학(원)생",
                "현_거주_환경": "가족(배우자/자녀/기타 가족일원)과 함께 거주",
                "여가_활동_취미": [
                    "예술활동",
                    "운동"
                ],
                "영어권_거주_여부": "없음",
                "영어권_거주_기간": "없음"
            },
            "level": {
                "Combo0_Q1": "2.25",
                "Combo1_Q2_Q4": "1.08",
                "Combo2_Q5_Q7": "1.88",
                "Combo3_Q8_Q10": "1.50",
                "Combo4_Q11_Q13": "1.38",
                "Combo5_Q14_Q15": "1.06",
                "final": "IG"
            }
        },
        "prompt": {
            "Interview_Relation": {
                "interview_question": "NULL",
                "interview_answer": "NULL"
            },
            "Question_number": "01",
            "Question_type": "자기소개",
            "prompt": "Can you introduce yourself in as much detail as possible?"
        },
        "utterance": {
            "id": "ESPEAK_0030_IG_STUD_F_SG_01",
            "start": "0.00",
            "end": "12.01",
            "speaker_id": "ESPEAK_0030_IG_STUD_F_SG",
            "wav_file": "train/Ignite/ESPEAK_0030_IG_STUD_F_SG_wav/ESPEAK_0030_IG_STUD_F_SG_01.wav",
            "transcription": "uhm my name is don kim and twenty one years old uh and i'm attending in suwon science college",
            "words": [
                {
                    "id": 1,
                    "name": "",
         "start": "0.01",
                    "end": "0.03"
                },

                ...

     

  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜에스엘아이평생교육원
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    박진석 02-541-7158 [email protected] 데이터 수집, 데이터 평가, 데이터 품질검수, 크라우드 소싱인력 관리
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    성신여대 연구산학협력단 데이터 선정/설계, 데이터 품질검수
    ㈜튜터러스랩스 AI모델 개발
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    박진석 02-541-7158 [email protected]
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.