-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.4 2023-09-20 라벨링데이터 재개방 1.3 2023-09-15 라벨링데이터 수정 1.2 2023-08-25 라벨링데이터 수정 1.1 2022-09-29 라벨링데이터 수정 validation라벨링 재개방 1.0 2022-07-28 데이터 최초 개방 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-06-24 산출물 추가 공개 저작도구 2024-06-21 산출물 추가 등록 저작도구 2023-12-28 저작도구 설명서 수정 2023-12-12 AI 모델 소스코드 및 AI 모델 설명서 등록 2023-08-09 담당자 이메일 변경 2022-10-13 신규 샘플데이터 개방 2022-07-28 콘텐츠 최초 등록 소개
실제 환경, 시사토론, 독서모임, 온라인회의, 방송에서의 자연스러운 환경과 잡음이 결합된 회의 형태의 발성, 발음을 확보하기 위해 실제 환경에서 대화하는 TV, 라디오의 고품질 방송 콘텐츠, 의회 녹취록, UCC 음성 및 주제를 정한 직접 녹음 음성데이터를 wav 파일 형식으로 수집, 정제하여 발화자 말바뀜과 억양구 단위 경제정보를 추가하여 전사하고, 화자, 개인정보 및 차별화 혐오발언을 비식별화와 라벨링한 데이터를 json과 wav 파일을 한 쌍으로 7,000시간, 3인 이상 대화 10개 카테고리의 다양성을 고려하여 학습데이터를 구축하고, 레퍼런스가 검증되고 한글 음성에 적합하게 커스트마이징 한 ESPnet의 컨포머를 적용하여 학습모델을 개발
구축목적
한국어로 된 회의 음성을 인식하여 자동으로 회의록을 작성하고 자막을 생성하여 회의 내용 이해 서비스 제공을 위한 한국어 회의 음성 DB 구축을 목표로 다양한 실제 회의 환경과 방송, UCC의 영상 및 음원 데이터를 활용한 데이터셋 구축
-
메타데이터 구조표 데이터 영역 한국어 데이터 유형 오디오 , 텍스트 데이터 형식 WAV 데이터 출처 의회,팟캐스트,방송사 라벨링 유형 전사(음성) 라벨링 형식 JSON 데이터 활용 서비스 음성인식 및 자연어 처리, 한국어 음성언어연구, 회의록 자동 작성 및 요약 서비스, 대면/비대면 회의 통번역 서비스, 회의 스케줄러 및 비즈니스 관리 서비스 데이터 구축년도/
데이터 구축량2021년/7,000시간 -
1. 데이터 구축 규모
2. 데이터 분포
*매체 분포
*성별 분포
*화자 규모
화자규모 화자규모 분포 화자규모 발화시간(초) 비율 2 11,665,897 32.30% 3 6,296,171 17.44% 4 3,827,172 10.60% 5 3,460,989 9.59% 6 2,359,629 6.54% 7 1,684,662 4.67% 8 1,275,823 3.53% 9 1,087,551 3.01% 10 835,079 2.31% 11 631,698 1.75% 12 530,465 1.47% 13 385,153 1.07% 14 259,552 0.72% 15 251,998 0.70% 16 233,522 0.65% 17 178,911 0.50% 18 177,432 0.49% 19 105,463 0.29% 20 98,118 0.27% 21 140,367 0.39% 22 79,186 0.22% 23 62,847 0.17% 24 60,249 0.17% 25 41,965 0.12% 26 74,184 0.21% 27 43,140 0.12% 28 38,715 0.11% 29 27,269 0.08% 30 96,242 0.27% 31 19,219 0.05% 32 20,889 0.06% 33 4,614 0.01% 34 5,088 0.01% 35 11,557 0.03% 36 4,465 0.01% 37 11,996 0.03% 38 2,555 0.01% 40 2,692 0.01% 45 10,515 0.03% 총 발화시간 36,103,043 1.00 *어절 수 분포
어절수분포 어절 수 분포 어절 수 원문 개수 비율 1 839,744 11.56% 2 469,213 6.46% 3 418,441 5.76% 4 422,443 5.82% 5 411,906 5.67% 6 399,049 5.49% 7 378,784 5.22% 8 359,263 4.95% 9 340,856 4.69% 10 321,218 4.42% 11 302,110 4.16% 12 283,563 3.90% 13 265,765 3.66% 14 248,413 3.42% 15 231,504 3.19% 16 213,885 2.95% 17 196,844 2.71% 18 178,977 2.46% 19 161,494 2.22% 20 144,982 2.00% 21 127,072 1.75% 22 110,398 1.52% 23 94,233 1.30% 24 78,364 1.08% 25 64,129 0.88% 26 51,101 0.70% 27 39,887 0.55% 28 30,317 0.42% 29 23,038 0.32% 30 16,537 0.23% 31 12,001 0.17% 32 8,511 0.12% 33 5,781 0.08% 34 4,133 0.06% 35 2,724 0.04% 36 1,910 0.03% 37 1,263 0.02% 38 830 0.01% 39 581 0.01% 40 398 0.01% 41 251 0.00% 42 157 0.00% 43 135 0.00% 44 87 0.00% 45 74 0.00% 46 58 0.00% 47 53 0.00% 48 41 0.00% 49 36 0.00% 50 17 0.00% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드모델학습
- 잡음 등이 포함된 자연스러운 주요 회의 음성인식 학습을 위해 전체 데이터의 10%인 700시간의 음성데이터를 학습한다.
모델학습 학습 검증 시험 개요 -ESPnet 오픈라이브러리 및 Toolkit의 한글처리 개발
-주관사 인프라 사용-학습 및 모델의 성과 평가 및 비교
-CER, WER 점수-모델 학습 완료
-모델 테스트필요음성 많을수록 좋음 10% 10% 서비스 활용 시나리오
- 구축한 모델은 방송 콘텐츠의 예능 또는 드라마나 시의회 회의와 같이 3인 이상 다수가 발화하여 말이 겹치거나 방송의 BGM(back ground music), 효과음 등의 노이즈가 빈번하게 포함된 환경에서의 자막생성, 카테고리 분류, 화자별 발언 검색에 활용할 수 있음
대표성
- 사용자의 회의 데이터 활용도를 고려하고 선호도가 높은 정치, 경제, 문화 등 10개 카테고리를 선정하여 박수, 말겹침 등 자연스러운 대화를 포함하는 문장들로 원문 구성
독립성
- AI Hub, NIA, 국립국어원 등 기 구축되어진 학습데이터 리스트와 방송국의 타 사업 제공 데이터 사실 확인 후 원시데이터를 수집
-
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 음성인식 Speech Recognition TRANSFORMER Conformer CER 15 % 8.822 % 2 음성인식 Speech Recognition TRANSFORMER Conformer WER 30 % 20.995 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드1. 대표도면
2. 주요 영역별 회의 어노테이션 포맷
*메타데이터
*가공데이터
3. 라벨링데이터 실제 예시
-
데이터셋 구축 담당자
수행기관(주관) : ㈜솔트룩스
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김영혁 02-2193-1682 [email protected] 사업총괄관리, 1세부 총괄, 데이터 수집 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜소리자바 2세부 총괄, 데이터 수집, 2세부 품질 총괄 ㈜디그랩 데이터 정제 ㈜소리자바 데이터 가공 ㈜비투엔 데이터 품질점검 경북대학교산학협력단 전사지침, 혐오표현 검사 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 김영혁 02-2193-1682 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.