콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#음성인식 # 음성 합성 # 기계 번역 # LibriSpeech

다국어 통·번역 낭독체 데이터

다국어 통·번역 낭독체 데이터 아이콘 이미지
  • 분야한국어
  • 유형 오디오
구축년도 : 2022 갱신년월 : 2023-12 조회수 : 7,676 다운로드 : 676 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.1 2023-12-22 데이터 최종 개방
    1.0 2023-07-25 데이터 개방(Beta Version)

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2024-06-13 데이터설명서, 담당자 정보 수정
    2023-12-22 산출물 전체 공개
    2023-12-01 구축업체정보 수정
    2023-11-24 구축업체정보 수정

    소개

    한국어-영어, 한국어-다국어 통번역 훈련 및 평가 등에 활용하기 위한 한국어-영어, 일본어, 스페인어 AI 학습용 데이터 구축

    구축목적

    학술 분야에서 음성인식 및 합성기의 객관적인 성능평가를 위한 한국어 버전 LibriSpeech 표준 데이터셋 구축
  • 데이터 통계    데이터 구축 규모

    데이터 구축 규모
    데이터 종류 규모
    음성 및 전사데이터 4,107시간

                       데이터 분포
                       ○ 주제별 분포

    데이터 분포○ 주제별 분포
    언어 주제 시간 비율
    en 1                      364 8.87%
    2                      232 5.64%
    3                      211 5.13%
    4                      209 5.09%
    소계                  1,016 24.74%
    jp 1                      406 9.88%
    2                      234 5.70%
    3                      200 4.86%
    4                      189 4.60%
    소계                  1,029 25.05%
    es 1                      378 9.20%
    2                      254 6.18%
    3                      224 5.45%
    4                      207 5.03%
    소계                  1,062 25.86%
    ko 1                      405 9.86%
    2                      223 5.43%
    3                      185 4.50%
    4                      188 4.57%
    소계                  1,001 24.36%
                     4,107 100.00%

     

    주제별 분포 차트

  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    모델 학습
    ○ 기계번역
    - Transformer 모델을 활용하여 단일 모델로 한국어-(영어, 스페인어, 일본어) 번역을 수행하는 다국어 기계번역 모델을 학습
    - Transformer 모델은 인코더와 디코더로 구성된 Seq-to-Seq 모델로, 기계번역에서 활용될 때는 입력된 특정 언어에 대한 시퀀스 데이터에 대해 다른 언어로 번역된 시퀀스를 출력함
    - 다국어 기계번역을 위한 단일 모델 개발 시, 사용하는 데이터에 포함된 모든 언어에 대하여 공통된 vocabulary를 생성함

    다국어 번역 모델 구조도

                        [다국어 번역 모델 구조도]

    Transformer 모델 구조도

    [Transformer 모델 구조도]


    - 학습 진행에 따른 BLEU 점수 변화는 아래와 같음 (early stopping 100으로 지정)

    학습 진행에 따른 BLEU 점수

    ○ 일본어 음성인식
    - Wav2Vec2-xls-r 기반의 모델을 활용하여 일본어 음성 인식 학습
    - Wav2vec2은 Transformer 기반의 모델로 자동음성인식에서 높은 성능을 보이고 있어 이를 활용한 연구가 활발히 진행되고 있음. Wav2Vec2.0은 자기지도 학습 (self-supervised learning) 방식으로 별도의 텍스트 없이 음향모델을 훈련하는 사전학습 (pre-training) 과정을 거침.
    - 사전학습된 wav2vec2 음향모델에, 구체적인 과제와 관련된 전사 텍스트 및 추가 신경망으로 파인튜닝(fine-tuning)을 진행하여 모델을 학습. 이 중 xls-r은 다국어 음성으로 사전학습된 모델로, 영어 음성으로만 사전학습된 기존 wav2vec2.0 보다 일본어 음성 인식에 적합.
    - wav2vec2.0 의 학습 알고리즘은 (1)의 사진과 같으며, 여기에 (2)와 같이 전결합층 (fully connected layer)을 하나 추가하여 Connectionist Temporal Classification (CTC) loss 로 일본어 음성 인식 과제를 진행

     

    - (1) 사전학습 알고리즘:
    출처: UNSUPERVISED CROSS-LINGUAL REPRESENTATION LEARNING FOR SPEECH RECOGNITION (Conneau et al., 2020)

    사전학습 알고리즘

     

    (2) 일본어 음성인식에 대한 파인튜닝

    일본어 음성인식에 대한 파인튜닝

     

    ○ 스페인어 음성인식
    - 일본어와 마찬가지로 Wav2Vec2-xls-r 기반의 모델을 활용하여 스페인어 음성 인식 학습
    - Transformer 기반의 Wav2Vec 모델은 현시점 HUBERT 2.0과 함께 비지도학습 음성인식기들 중 SOTA 퍼포먼스를 자랑함. 여러 언어의 음성에 대하여 (약 436k 시간) 대조 텍스트 없이 비지도 학습이 된 다국어 사전학습 모델을 베이스라인으로, 스페인어 텍스트와 음성을 동시에 학습시키는 지도학습 방법의 downstream task를 수행함

    - 채택된 모델은 다양한 xls –r 모델중 300million 파라미터를 가진 xls-r-300m모델로, 수행한 파인튜닝 과정은 아래의 그림으로 요약할 수 있음.
    출처: https://arxiv.org/pdf/2111.09296 

    스페인어 음성인식 모델 구조

    - 사전 학습된 모델의 feature extractor 부분을 제외한 뒷 레이어들을 훈련시킴. feature extractor의 경우 이미 음소와 특징추출의 연계성에 대한 학습이 사전학습 모델 내부에 전제돼있기 때문임.

     

    학습 진행에 따른 WER 및 CER 변화의 예시

    학습 진행에 따른 WER 및 CER 변화의 예시

     

    ○ 음성합성

    VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech)

    [VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech)]


    - GANS, VAE, Normalizing Flow 등의 기술이 집적된 State of the Art end-to-end (encoder & decoder) TTS model
    - 기존의 State of the Art TTS model (Glow-TTS, Tacotron 2)와 비교했을 때 함성음의 음질이 뛰어날 뿐 아니라 합성 음성의 다양성 또한 모델링 할 수 있으며, 2stage가 아니라 encoder와 decoder가 결합되어 있는 end-to-end TTS model로서 합성 속도에도 유의미한 이점이 있음.
     

  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 한국어-영어 기계번역 모델 Machine Translation Transformer BLEU 0.15 0.203099999999999
    2 한국어-스페인어 기계번역 모델 Machine Translation Transformer BLEU 0.15 0.2075
    3 한국어-일본어 기계번역 모델 Machine Translation Transformer BLEU 0.17 0.571
    4 한국어 음성 합성 VITS 모델 Speech Synthesis VITS MOS 3.7 4.12
    5 영어 음성합성 VITS 모델 Speech Synthesis VITS MOS 4.1 4.1
    6 Wav2vec 2.0 기반 일본어 음성인식 모델 Speech Recognition model finetuned from Wav2vec2.0-xls-r-300m, with ctc loss WER 12 % 4.47 %
    7 Wav2vec 2.0 기반 스페인어 음성인식 모델 Speech Recognition model finetuned from Wav2vec2.0-xls-r-300m using huggingface library WER 15 % 5.4 %

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    데이터 포맷   대표도면

                      대표도면


                      JSON 형식               

    데이터 포맷 JSON 형식
    한국어  영어 일본어 스페인어
    { "date": "2023-01-08", { "date": "2022-11-05", { "date": "2022-10-24", { "date": "2022-10-27",
    "typeInfo": { "typeInfo": { "typeInfo": { "typeInfo": {
    "script": { "script": { "script": { "script": {
    "domain": 1, "domain": 1, "domain": 1, "domain": 1,
    "topic": "디즈니 스튜디오", "topic": "디즈니 스튜디오", "topic": "디즈니 스튜디오", "topic": "디즈니 스튜디오",
    "scriptNumber": "100018_1000_1", "scriptNumber": "100019_1000_1", "scriptNumber": "100020_1000_1", "scriptNumber": "100021_1000_1",
    "scriptFileName": "디즈니 스튜디오_ko_00006" "scriptFileName": "디즈니 스튜디오_ko_00006" "scriptFileName": "디즈니 스튜디오_ko_00006" "scriptFileName": "디즈니 스튜디오_ko_00006"
    }, }, }, },
    "language": "ko", "language": "en", "language": "jp", "language": "es",
    "place": "studio", "place": "studio", "place": "studio", "place": "studio",
    "speaker": { "speaker": { "speaker": { "speaker": {
    "speakerId": "100406", "speakerId": "100448", "speakerId": "100217", "speakerId": "100150",
    "gender": "M", "gender": "F", "gender": "F", "gender": "F",
    "age": 47 "age": 29 "age": 50 "age": 29
    } } } }
    }, }, }, },
    "dialogs": { "dialogs": { "dialogs": { "dialogs": {
    "textNumber": "251", "textNumber": "251", "textNumber": "251", "textNumber": "251",
    "speakerId": "100406", "speakerId": "100448", "speakerId": "100217", "speakerId": "100150",
    "text": "그렇기 때문에 그에 따른 여성의 사회적 성 역할 변화와 자아실현 욕구가 작품의 젠더 표상으로 반영된 것이다.", "text": "Therefore, the changes in women's social gender roles and their desire for self-realization are reflected in the gender representation of the work.", "text": "そのため、それに伴う女性の社会的な性役割の変化と自己実現の欲求が作品のジェンダー表象として反映されたのだ。", "text": "Por lo tanto, los cambios en los roles sociales de género de las mujeres y su deseo de autorrealización se reflejan en la representación de género del trabajo.",
    "startTime": 0, "startTime": 0, "startTime": 0, "startTime": 0,
    "endTime": 8.477333068847656 "endTime": 9.11733341217041 "endTime": 9.010666847229004 "endTime": 10.845333099365234
    } } } }
    } } } }

                      
    데이터 구성

    데이터 구성
    데이터 유형 구분 설명
    원천데이터 파일 포맷 WAV
    샘플링 레이트 48Khz sampling rate
    파일 명명규칙 주제-언어-일련번호-성별-나이-일련번호
    라벨링데이터 전사 텍스트 문장단위 음성 전사 텍스트
    기타 메타정보 녹음자 정보, 스크립트 정보 등

     

    어노테이션 포맷

    어노테이션 포맷
    No 항목 타입 필수여부
      한글명 영문명    
    1 데이터 날짜 date string Y
    2 데이터 타입 정보 typeInfo object Y
      2-1 대본 script object Y
      2-1-1 대본 도메인 domain number Y
    2-1-2 대본 주제 topic string Y
    2-1-3 대본 번호 scriptNumber string Y
    2-1-4 대본 파일 이름 scriptFileName string Y
    2-2 언어 language string Y
    2-3 장소 place string Y
    2-4 발화자 speaker object Y
      2-4-1 발화자 아이디 speakerId string Y
    2-4-2 발화자 성별 gender string Y
    2-4-3 발화자 나이 age number Y
    3 대화 dialogs object Y
      3-1 문장번호 textNumber string Y
    3-2 발화자 아이디 speakerId string Y
    3-3 문장 text string Y
    3-4 시작 시간 startTime string Y
    3-5 끝나는 시간 endTime string Y

     

    실제 예시

    실제 예시

     

  • 데이터셋 구축 담당자

    수행기관(주관) : 한국외국어대학교
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    고윤성 02-2173-2493 [email protected] 데이터 설계, 음성 수집, 원천데이터 정제, 검수(한국어, 스페인어)
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    커뮤니케이션북스(주) 원시데이터 수집
    ㈜나라지식정보 음성 수집, 원천데이터 정제, 검수(영어, 일본어)
    서울대학교 AI 학습 모델링
    부산대학교 AI 학습 모델링
    ㈜오피니언라이브 저작도구 개발 및 운영, 품질관리
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    고윤성 02-2173-2493 [email protected]
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.