-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2023-06-28 라벨링데이터 수정 1.0 2022-07-12 데이터 최초 개방 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2022-07-12 콘텐츠 최초 등록 소개
본 데이터는 한자어, 고유어, 외래어 등의 숫자 읽기 다양성을 반영하여 84개의 카테고리로 구성된 10,000시간 이상의 음성데이터로 구성하였음. (스크립트 데이터 포함)
구축목적
다양한 환경의 발화 특성을 반영한 음성 데이터를 구축하여 음성인식 기반 AI서비스의 확대, 발전의 토대를 마련
-
메타데이터 구조표 데이터 영역 한국어 데이터 유형 오디오 , 텍스트 데이터 형식 PCM 데이터 출처 자체구축 라벨링 유형 내용요약(자연어) 라벨링 형식 JSON 데이터 활용 서비스 AICC, AI스피커, 음성인식 서비스 데이터 구축년도/
데이터 구축량2021년/음성데이터: 13,342시간 (묵음제외 11,842시간), 스크립트데이터 : 149,998건 -
1. 데이터 구축 규모
1. 데이터 구축 규모 데이터 구분 세부내역 구축규모 데이터셋 스크립트 세부항목 약 84개의 카테고리로 구성된 스크립트 데이터 구축 149,998건 음성 발화자, 발화 환경에 따른 864가지의 구축 환경을 통한 데이터 가공 13,342시간 (묵음제외 11,842시간)
2. 데이터 분포 : 고유어, 한자어, 외래어 읽기 특성에 따른 84가지 카테고리의 숫자 데이터 구축2. 데이터 분포 읽기 특성 패턴 가짓수 스크립트수 발화시간(초) 한자어 통계/수치 8 17,100 5,233,261 날짜/시간 5 11,300 3,447,005 통화/금액 3 15,400 4,125,304 교통정보 3 6,000 1,415,068 나이/생년월일 2 5,500 1,674,635 신분증번호 4 7,700 2,751,724 주소/구역 5 9,000 2,852,654 사이즈 2 3,600 1,091,626 단위 7 7,500 2,709,001 금융/은행 6 15,800 5,554,667 주문정보 3 5,100 1,520,145 헬스케어 3 3,300 1,218,988 스포츠 5 1,500 512,193 자동생성번호 3 5,400 1,901,728 통신번호 5 8,998 3,205,763 개인고유번호 3 2,700 917,338 사업자번호 1 1,800 741,246 고유어/ 외래어 기수 12 19,900 6,470,781 서수 2 1,200 336,003 사투리 1 200 61,554 외래어 1 1,000 292,196
3. 구축 환경 : 발화자, 녹음환경을 고려한 864가지의 환경을 통해 데이터 구축3. 구축 환경 구축기준 분류기준 구축비율 성별 남성 음성 발화 데이터 40% 여성 음성 발화 데이터 60% 지역 수도권 76% 경상도 6% 전라도 6% 충청도 6% 강원도 5% 제주도 1% 연령대 20대 미만 2% 20대 15% 30대 26% 40대 27% 50대 27% 60대 이상 3% 녹음환경 클린환경 (~ 40dB) 15% 일반환경 (41dB ~ 60dB) 75% 소음환경 (61dB ~) 10% 녹음기기 휴대폰 마이크 72% 유선 이어폰 13% 무선 이어폰 13% AI스피커 2%
<구축 기준별 참조 이미지> -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드1. 개요
- 본 컨소시엄에서 보유하고 있는 BASE 음성인식엔진에 본 과제로 구축된 숫자가 포함된 패턴 발화 데이터를 학습하여 데이터 유효성 검증
(BASE 엔진 : 기보유하고 있는 10,000시간 음성데이터, 10GB의 스크립트 데이터를 통해 학습)
2. 모델 학습 및 검증 환경1. 개요 유효성 검증 모델 학습 및 검증 조건 개발 언어 Python 2.7 프레임워크 Kaldi 학습 알고리즘 Hybrid HMM / DNN - Tri-phone을 사용한 음소 모델과 대응되는 HMM의 각 상태에 대한 확률 값을 DNN을 통해 계산 - DNN 학습 시, 음성 특징 벡터를 입력 데이터로 사용하며, GMM-HMM 음성 인식기를 사용하여 forced-alignment 된 상태 열을 DNN의 출력 레이블 데이터로 사용 - 본 개발에 사용되는 TDNN은, 여러 입력 노드를 묶어 다음 Layer로 전이하는 DNN 모델임 학습 조건 DNN (TDNN + LSTM) 학습 시 - 10 epoch (예정) - batch size : 128 - optimizer : Gradient descent optimizer - loss function : softmax 파일 형식 • 학습 데이터셋: pcm • 평가 데이터셋: pcm 전체 구축 데이터 대비 수집된 숫자음 음성 DB 가운데 Validation DB (10,000 시간의 10%) 모델에 적용되는 비율 ※ 유효성 검증은 구축된 데이터 전체를 적용하며, 변경이 필요한 경우 TTA 담당자와 협의한다. 모델 학습 과정별 - Training Set 80%를 이용하여 숫자음 서비스에 최적화된 음향, 언어모델 적응 학습 데이터 분류 및 비율 정보 수행 - Validation Set 10%를 이용하여 적응학습 모델의 성능 검증
3. 숫자 대화 언어모델 학습
- 본 컨소시엄에서 보유하고 있는 BASE 음성인식엔진에 본 과제로 구축된 숫자가 포함된 패턴 발화 데이터를 학습하여 데이터 유효성 검증
-
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 음성인식 Speech Recognition Hybrid HMM / DNN CER 10 % 3.4 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드1. 데이터 포맷
- 유형별 데이터 포맷
1. 데이터 포맷 데이터 구분 데이터 유형 데이터 포맷 비고 라벨데이터 스크립트 JSON 스크립트 데이터를 전사하여 음성 데이터 구축 원천데이터 스크립트 txt 가공데이터 음성 pcm
2. 데이터 구성
- 라벨링 데이터
라벨링 데이터 분류 순서 속성표기 속성명 속성 설명 데이터 타입 필수 여부 녹음발화정보 1 recordedID 녹음ID 녹음관리번호 String O 2 recordedDate 녹음일시 녹음한 날짜 String O 3 recordedStart 녹음시작시간 녹음 스타트 시간 String O 4 fileName 녹음파일명 녹음 음성파일명 String O 5 filePath 녹음파일위치 녹음 음성파일 위치 String O 6 recordedTime 녹음파일재생시간 녹음음성파일 재생시간(초단위) Numeric O 7 recordQuality 음질 음성파일의 음질 구분 String O 8 recordedDevice 녹음 수집 디바이스 음성파일 녹음된 디바이스 String O 9 redcordedDeviceName 녹음 수집 음성파일 녹음 된 String X 디바이스 디바이스 회사명 회사명 10 recordedEnv 녹음 환경 구축된 데이터의 활용 용처별 구분을 위한 녹음 환경 구분 String O 녹음자정보 11 collectedID 수집방법ID 크라우드소싱등 구분ID String O 12 recorderID 녹음자ID 녹음자ID String O 13 sex 성별 발화자의 성별 String O 14 generation 세대 발화자의 세대 String O 15 residence 거주지역 발화자의 거주지역(광역시, 도별) String O 16 dialect 화자방언여부 발화자 음성의 사투리 여부 String O 17 dialectRegion 화자방언지역 발화자의 음성이 방언인 경우, 방언 지역 String O 18 areaInfomation 발화자의 이전 거주지역 과 부모님의 고향 정보 String O 지역정보 - 원천 데이터
원천 데이터 분류 순서 속성표기 속성명 속성 설명 데이터 타입 필수 여부 녹음대화정보 1 scriptID 스크립트ID 스크립트ID String O 2 scriptITN 음성파일 전사 TEXT(ITN표기) 영문/숫자를 영어와 아라비아 숫자 글자 그대로 표시 String O 3 scriptTN 음성파일 전사 TEXT(TN표기) 영문/숫자를 영어와 아라비아 숫자를 발음방법대로 표시 String O 4 scriptNumberWord 숫자가 포함된 단어 단어별 인식을 위한 추출 String O 5 patternTheme 패턴 주제 숫자포함 패턴 문장, 숫자의 패턴 주제별 다양성 구분 String O
3. 실제 예시
- 라벨링 데이터
- 원천 데이터
- 유형별 데이터 포맷
-
데이터셋 구축 담당자
수행기관(주관) : 주식회사 케이티알파
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 지민호 02-3289-2602 [email protected] · 데이터 품질관리 및 이슈 대응 수행기관(참여)
수행기관(참여) 기관명 담당업무 주식회사 피플앤드테크놀러지 · 패턴발화 스크립트 구축 및 검수
· 스크립트 저작도구 개발주식회사 딥네츄럴 · 음성데이터 구축 및 검수
· 크라우드워커 플랫폼 운영주식회사 셀바스에이아이 · AI응용모델 개발
· 품질 유효성 검증
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.