콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#외국인 # 한국어 # 음성데이터 # 자동평가 # 말하기 # 발음 # 오류 # 발음오류 원인 레이블링 # 철자전사 # 발음전사 # 교육 # 평가

교육용 아시아어(중·일어 제외) 사용자의 한국어 음성 데이터

교육용 아시아어(중·일어 제외) 사용자의 한국어 음성 데이터 아이콘 이미지
  • 분야교육
  • 유형 오디오
구축년도 : 2022 갱신년월 : 2023-11 조회수 : 29,434 다운로드 : 136 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.2 2023-11-21 데이터 추가 개방
    1.1 2023-11-03 데이터 최종 개방
    1.0 2023-07-31 데이터 개방(Beta Version)

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2023-12-08 산출물 전체 공개
    2023-11-03 데이터 설명서, 구축가이드, 교육동영상 공개

    소개

    ● 인공지능 학습용 아시아어 사용자의 한국어 음성 데이터 수집 및 가공
    ● 발음 및 말하기 교육과 평가에 활용할 수 있는 인공지능 프로그램 개발에 실질적으로 도움을 줄 수 있는 고품질의 음성데이터 수집 및 가공

    구축목적

    ● 인공지능 학습용 데이터 구축
    ● 인공지능 기반 한국어 교육 및 평가용 서비스 모델 개발 및 실증
    ● 인공지능 데이터 생태계 조성
  • 발화자별 발화 시간(다양성 통계)

    발화자별 발화 시간(다양성 통계)-발음유형 녹음시간 차트

    발화자별 발화 시간(다양성 통계)-말하기유형 녹음시간 차트

     

    발화 오류 유형(다양성 통계)

    발화 오류 유형(다양성 통계)-발음 오류 유형 차트

     

    한국어 학습 기간(다양성 통계)

    한국어 학습 기간(다양성 통계)-한국어 학습 기간 분포 차트

     

    한국 거주 기간(다양성 통계)

    한국 거주 기간(다양성 통계)-한국 거주 기간 분포 차트

     

    한국어 학습 목표(다양성 통계)

    한국어 학습 목표(다양성 통계)-한국어 학습 목표 차트

     

    한국어 학습 방법(다양성 통계)

    한국어 학습 방법(다양성 통계)-한국어 학습 방법 차트

     

    발화자 학력(다양성 통계)

    발화자 학력(다양성 통계)-발화자 학력 분포 차트

     

    평가별 점수 분포(다양성 통계)

    평가별 점수 분포(다양성 통계)-전달력 평가 차트

    평가별 점수 분포(다양성 통계)-언어사용 평가 차트

    평가별 점수 분포(다양성 통계)-내용 평가 차트

    평가별 점수 분포(다양성 통계)-유창성 평가 차트

    평가별 점수 분포(다양성 통계)-이해도 평가 차트

     

    유형별 텍스트 길이(다양성 통계)

    유형별 텍스트 길이(다양성 통계)-발음유형 단어 수 차트

    유형별 텍스트 길이(다양성 통계)-말하기유형 단어 수 차트

     

    성별(다양성 통계)

    성별(다양성 통계)-성별 분포 차트

     

    과제 유형(다양성 요건)

    과제 유형(다양성 요건)-과제 유형 분포 차트

     

    화자 출신지역(다양성 요건)

    화자 출신지역(다양성 요건)-화자 출신지역 분포 차트

     

    발화자 연령(다양성 요건)

    발화자 연령(다양성 요건)-발화자 연령 차트

     

    발화자 수준(다양성 요건)

    발화자 수준(다양성 요건)-발화자 수준 분포 차트


     
     
     
     
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    ◯ 음성데이터 활용에 최적화한 Wavegram-Logmel-CNN, ResNet, Trident ResNet 등 활용AI모델을 제시합니다.

     ① 한국어 말하기 내용과 언어사용을 평가하는 말하기 내용 및 언어사용 평가 모델
     ② 음성인식 오류율에 기반하여 전달력을 평가하는 말하기 전달력 평가 모델
     ③ 문장 구사 실력에 대한 숙달도 평가 모델
     ④ 개별적인 소리가 맞는 발음인지 틀린 발음인지를 판단하는 개별 발음 평가 모델
     ⑤ 숙련도, 이해가능도, 유창성에 대하여 발음을 평가하는 발음평가 모델

    활용 모델, AI 모델, 평가 지표, 응용서비스(예시)


    ◯ 응용서비스에서는 지능형 한국어 발음·말하기 자동평가 시스템개발을 지원합니다.
     ① 외국인의 한국어 발음 자동 채점 서비스
     ② 한국어 시험의 말하기 영역 자동 채점 서비스
     ③ 발음 및 운율의 정확성과 자연스러움에 대한 평가 서비스
     ④ 대화 기반 표현력, 구성력, 내용 적절성 평가 서비스
     

    AI 기반 자동 평가시스템을 통해 한국어 시험 채점에 적용, 개인화된 한국어 발화 학습 서비스 제공

     

    ◯ 수요주체와의 긴밀한 네트워크를 통해 응용서비스 개발과 데이터 즉시 활용 
     ① 주관 및 참여기관: 엔에스데블과 서울대 언어교육원의 지능형 평가플랫폼 개발시 AI 자동채점 활용, 네이버클로바 기능 고도화
     ② 예상 수요기관(기업): 한글과 컴퓨터, 글로벌 챗봇 심심이, 보이스웨어, 이드웨어, 스마트미디어테크, 휴먼미디어테크, 브이에스웍스 등
     ③ 예상 수요기관(공공): 교육부 국립국제교육원 TOPIK 시험, 한국전자통신연구원(ETRI) 등

    주관 및 참여기관, 수요기관(관련기업), 수요기관(공공기관)

     

  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 한국어 말하기 전달력 평가 음성인식 정확도 Speech Recognition Conformer-CTC small CER 12 % 11.18 %
    2 한국어 발음 평가 정확도 Audio Classification Wav2vec2.0 Correlation(Pearson) 0.6 단위없음 0.81 단위없음
    3 한국어 발음 평가 정확도 Audio Classification Wav2vec2.0 F1-Score 0.7 0.9601
    4 한국어 말하기 내용, 언어사용 평가 정확도 Action Recognition LSTM QWK 0.55 단위없음 0.86 단위없음
    5 한국어 말하기 능숙도 평가 분류 정확도 Audio Classification KcELECTRA Weighted Classification Error 30 % 8.69 %

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    ◯ 데이터 포맷

    (원천 음성데이터)
    - 발화 앞·뒤 500~1000ms의 묵음이 들어간 단어 단위, 문장 단위, 문단 단위, 전체 스토리 단위의 PCM 형식의 영어 모어 화자의 한국어 음성데이터
    - 원시 음성데이터는 CD 품질(16비트, 44.1kHz 샘플링레이트)로 녹음하고, 발화자의 문항별로 wav 파일의 음성 파일명 부여 원칙에 입각하여 저장

    (발화자 메타데이터)
    - 녹음 진행 전 부여받은 계정을 통해 워크벤치 내 발화자 메타데이터를 입력하여 Json 형식으로 저장

    (말하기 전사 라벨링 데이터)
    - 말하기 교육 및 평가용 음성데이터의 발음오류가 그대로 드러나는 수동 발음전사 데이터(JSON) 

    (발음오류 태깅 라벨링 데이터)
    - 발음 교육 및 평가용 음성데이터와 대응되는 음절 및 음소 열의 정보와 발음오류에 대한 태깅 데이터(JSON, TextGrid)

    (말하기/발음 평가 라벨링 데이터)
    - 데이터 건당 음성 & 전사 데이터와 매치되는 발음 및 말하기 레벨 스코어링 평가 결과(JSON)

     

    ◯ 데이터 포맷
    분류 구분 파일포맷 샘플링 비트 채널 비고
    레이트
    원시/원천 데이터 음원 wav 44.1KHz 16bit Mono -
    학습 데이터 메타정보 json - - -  
    오류태깅 TextGrid - - - -

     

    ◯ 데이터 구성
    발음문항

    ◯ 데이터 구성 발음문항
    Key Description Type
    UserID 발화자ID 5자리 string
    SpeakerMetadata 발화자 메타정보 object
    birth_year 생년(00~99) string
    gender 성별(F, M, O) string
    nationality 국적 string
    language 모국어 string
    proficiency 한국어 능숙도("Beginner", "Intermediate", "Advance", "Fluent") string
    topik_score 토픽점수(0~300) number
    topik_level 토픽등급(0~6) number
    education 최종학력("High School Diploma", "College Diploma", "Technical Diploma", "Bachelor’s Degree", "Master’s Degree", "Doctorate Degree", "Other") string
    learning_period 학습방법 string
    korea_residency 한국거주 기간 (단위 년) string
    purpose 한국어 학습 목적 string
    learning_method 학습방법 string
    recording_level 문항세트 등급("Beginner", "Advanced") string
    sound_id 녹음 파일 ID 7자리 string
    RecordingMetadata 녹음메타 정보 object
    task_create 녹음시작 시간(YYYY-MM-DD HH:MM:SS) string
    task_end 녹음종료 시간(YYYY-MM-DD HH:MM:SS) string
    RecordedTime 녹음된 시간(단위 초) number
    sound_environment 녹음 환경("on-line", "off-line") string
    prompt 발음 문항 낭독 지문 string
    phonemic 발음 문항 음소열 전사 결과 object
    words 단어열 정보  array
    word 단어 string
    start 시작시간(단위 초) number
    end 종료시간(단위 초) number
    phones 음소열 정보 array
    phone 음소 string
    start 시작시간(단위 초) number
    end 종료시간(단위 초) number
    error_tags 태깅정보 array
    tag 태깅 string
    start 시작시간(단위 초) number
    end 종료시간(단위 초) number
    EvaluationMetadata 평가메타 정보 object
    PronunProfEval 발음숙련도 평가점수(1~5점) number
    FluencyEval 유창성 평가점수(1~5점) number
    ComprehendEval 이해가능도 평가점수(1~5점) number
    TaggingMetadata 발음 오류태깅 메타데이터 object
    file_type 오류태깅 정보가 담긴 파일 유형 string
    filename 오류태깅 정보 TextGrid 파일 명  string
     

     

    말하기 문항

    ◯ 데이터 구성 말하기 문항
    Key Description Type
    UserID 발화자ID 5자리 string
    SpeakerMetadata 발화자 메타정보 object
    birth_year 생년(00~99) string
    gender 성별(F, M, O) string
    nationality 국적 string
    language 모국어 string
    proficiency 한국어 능숙도("Beginner", "Intermediate", "Advance", "Fluent") string
    topik_score 토픽점수(0~300) number
    topik_level 토픽등급(0~6) number
    education 최종학력("High School Diploma", "College Diploma", "Technical Diploma", "Bachelor’s Degree", "Master’s Degree", "Doctorate Degree", "Other") string
    learning_period 학습방법 string
    korea_residency 한국거주 기간 (단위 년) string
    purpose 한국어 학습 목적 string
    learning_method 학습방법 string
    recording_level 문항세트 등급("Beginner", "Advanced") string
    sound_id 녹음 파일 ID 7자리 string
    RecordingMetadata 녹음메타 정보 object
    task_create 녹음시작 시간(YYYY-MM-DD HH:MM:SS) string
    task_end 녹음종료 시간(YYYY-MM-DD HH:MM:SS) string
    RecordedTime 녹음된 시간(단위 초) number
    sound_environment 녹음 환경("on-line", "off-line") string
    prompt 문항 제시문 string
    orthographic 말하기문항 철자 전사 결과 string
    EvaluationMetadata 말하기 평가 메타정보 object
    DeliveryEval 전달력 평가점수(0~5점) number
    LanguageUseEval 연어사용 평가 점수(0~5점) number
    ContentEval 내용 평가점수(0~5점) number

     

    ◯ 어노테이션 데이터 포맷
    발음문항

    ◯ 어노테이션 데이터 포맷 발음문항
    구분 속성명 타입 필수여부 설명 범위 비고
    1 UserID string Y 발화자 ID 5자리 숫자  
    2 SpeakerMetadata object Y 발화자 메타데이터    
      2-1 birth_year string Y 출생년 00~99  
    2-2 gender string Y 성별 "M", "F", "O"  
    2-3 nationality string Y 국적    
    2-4 language string Y 모국어 [별첨1. 언어별_권역_분류.xlsx] 참조  
    2-5 proficiency string Y 한국어 능숙도 "Beginner", "Intermediate", "Advance", "Fluent"  
    2-6 topik_score number Y TOPIK 점수 0~300  
    2-7 topik_level number Y TOPIK 등급 0~6  
    2-8 education string Y 최종학력 "High School Diploma", "College Diploma", "Technical Diploma", "Bachelor’s Degree", "Master’s Degree", "Doctorate Degree", "Other"  
    2-9 learning_period string Y 한국어 학습기간 0~99 단위: 년
    2-10 korea_residency string Y 한국거주 기간 0~99 단위: 년
    2-11 purpose string Y 한국어 학습 목적    
    2-12 learning_method string Y 한국어 학습 방법    
    2-13 recording_level string Y 녹음 문항 수준 “Beginner”, “Advanced”  
    3 sound_id string Y 녹음 파일 ID  7자리 숫자  
    4 RecordingMetadata object Y 녹음 메타데이터    
      4-1 task_create string Y 녹음 시작시간    
    4-2 task_end string Y 녹음 종료시간    
    4-3 RecordedTime number Y 녹음파일 시간   단위:초
    4-4 sound_environment string Y 녹음환경 "online", "offline"  
    4-5 prompt string Y 발음문항 낭독 지문    
    4-6 Phonemic object Y 발음문항 음소열     
    전사 결과
      4-6-1 words array Y 단어열 정보    
      1 word string Y 단어    
    2 start number Y 단어 시작시간    
    3 end number Y 단어 종료시간    
    4-6-2 phones array Y 음소열 정보    
      1 phone string Y 음소    
    2 start number Y 음소 시작시간    
    3 end number Y 음소 종료시간    
    4-6-3 error_tags array Y 음소열 정보    
      1 tag string N 음소    
    2 start number N 음소 시작시간    
    3 end number N 음소 종료시간    
    5 EvaluationMetadata object Y 평가 메타데이터    
      5-1 PronunProfEval number Y 발음숙련도 평가점수    
      5-2 FluencyEval number Y 유창성 평가점수    
      5-3 ComprehendEval number Y 이해가능도 평가점수    
    6 TaggingMetadata object Y 발음 오류태깅 메타데이터    
      6-1 File_type string Y 오류태깅 정보가 담긴 파일 유형    
      6-2 Filename string Y 오류태깅 정보 TextGrid 파일 명  
     

     

    말하기 문항

    ◯ 어노테이션 데이터 포맷 말하기 문항
    구분 속성명 타입 필수여부 설명 범위 비고
    1 UserID string Y 발화자 ID 5자리 숫자  
    2 SpeakerMetadata object Y 발화자 메타데이터    
      2-1 birth_year string Y 출생년 00~99  
    2-2 gender string Y 성별 "M", "F", "O"  
    2-3 nationality string Y 국적    
    2-4 language string Y 모국어 [별첨1. 언어별_권역_분류.xlsx] 참조  
    2-5 proficiency string Y 한국어 능숙도 "Beginner", "Intermediate", "Advance", "Fluent"  
    2-6 topik_score number Y TOPIK 점수 0~300  
    2-7 topik_level number Y TOPIK 등급 0~6  
    2-8 education string Y 최종학력 "High School Diploma", "College Diploma", "Technical Diploma", "Bachelor’s Degree", "Master’s Degree", "Doctorate Degree", "Other"  
    2-9 learning_period string Y 한국어 학습기간 0~99 단위: 년
    2-10 korea_residency string Y 한국거주 기간 0~99 단위: 년
    2-11 purpose string Y 한국어 학습 목적    
    2-12 learning_method string Y 한국어 학습 방법    
    2-13 recording_level string Y 녹음 문항 수준 “Beginner”, “Advanced”  
    3 sound_id string Y 녹음 파일 ID  7자리 숫자  
    4 RecordingMetadata object Y 녹음 메타데이터    
      4-1 task_create string Y 녹음 시작시간    
    4-2 task_end string Y 녹음 종료시간    
    4-3 RecordedTime number Y 녹음파일 시간   단위:초
    4-3 sound_environment string Y 녹음환경 "online", "offline"  
    4-4 prompt string N 문항 제시문    
    4-5 orthographic string Y 말하기문항 철자 전사 결과    
    5 EvaluationMetadata object Y 평가 메타데이터    
      5-1 DeliveryEval number Y 전달력 평가점수    
      5-2 LanguageUseEval number Y 연어사용 평가 점수    
      5-3 ContentEval number Y 내용 평가점수  
     

     

    ◯ 실제 데이터
    ◆ 원천음원(wav)

     - 파일명: 02508-M-92-VI-A-RS063-0574166.WAV

    실제 데이터 원천음원 wav 이미지

     

    메타 데이터 (JSON) 

     - 파일명: 02508-M-92-VI-A-RS063-0574166.JSON

    메타 데이터 (JSON) 메타 데이터(JSON)
    메타 데이터(JSON) 메타 데이터 (JSON) 메타 데이터 (JSON)

     

    ◆ Pratt TextGrid 태깅정보

     Pratt TextGrid 태깅정보

     - 파일명: 02508-M-92-VI-A-RS063-0574166.TextGrid

    File type = "ooTextFile"
    Object class = "TextGrid"
    xmin = 0
    xmax = 3.98
    tiers?
    size = 3
    item []:
        item [1]:
            class = "IntervalTier"
            name = "words"
            xmin = 0
            xmax = 3.98
            intervals: size = 5
            intervals [1]:
                xmin = 0
                xmax = 1.31
                text = "그렇게"
            intervals [2]:
                xmin = 1.31
                xmax = 1.98
                text = "힘든"
            intervals [3]:
                xmin = 1.98
                xmax = 2.66
                text = "일을"
            intervals [4]:
                xmin = 2.66
                xmax = 3.06
                text = "누가"
            intervals [5]:
                xmin = 3.06
                xmax = 3.98
                text = "하겠어요" 
        item [2]:
            class = "IntervalTier"
            name = "phones"
            xmin = 0
            xmax = 3.98
            intervals: size = 28
            intervals [1]:
                xmin = 0
                xmax = 0.7
                text = "ㄱ"
            intervals [2]:
                xmin = 0.7
                xmax = 0.76
                text = "ㅡ"
            intervals [3]:
                xmin = 0.76
                xmax = 0.83
                text = "ㄹ"
       ( 중    략 )
            intervals [16]:
                xmin = 2.35
                xmax = 2.49
                text = "ㅡ"
            intervals [17]:
                xmin = 2.49
                xmax = 2.66
                text = "ㄴ"
            intervals [18]:
                xmin = 2.66
                xmax = 2.78
                text = "ㄴ"
            intervals [19]:
                xmin = 2.78
                xmax = 2.89
                text = "ㅜ"
       ( 중    략 )
            intervals [27]:
                xmin = 3.58
                xmax = 3.74
                text = "ㅓ"
            intervals [28]:
                xmin = 3.74
                xmax = 3.98
                text = "ㅛ" 
        item [3]:
            class = "IntervalTier"
            name = "tags"
            xmin = 0
            xmax = 3.98
            intervals: size = 3
            intervals [1]:
                xmin = 0
                xmax = 2.49
                text = ""
            intervals [2]:
                xmin = 2.49
                xmax = 2.66
                text = "종성"
            intervals [3]:
                xmin = 2.66
                xmax = 3.98
                text = "" 
  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜엔에스데블
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    김종훈 070-7576-1072 [email protected] 데이터 관리
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    ㈜나라지식정보 말하기 전사
    ㈜넥타르소프트 말하기 정제
    ㈜테리뉴 데이터 검사
    네이버 주식회사 데이터 정제
    서울대학교 발음평가, 발음오류태깅, AI모델 개발
    성균관대학교 말하기 평가
    서강대학교 말하기 평가, AI모델 개발
    사단법인 대한 음성확회 데이터 검수
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    김종훈 070-7576-1072 [email protected]
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.