AI-Hub

#방송콘텐츠 #대화체 #자막 #통번역 #음성인식

방송 콘텐츠 대화체 음성인식 데이터

분야한국어
유형 오디오 , 텍스트

구축년도 : 2021 갱신년월 : 2022-07 조회수 : 11,606 다운로드 : 607 용량 :

샘플 데이터

※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

소개 파일 목록 (API 다운로드)

※ 내국인만 데이터 신청이 가능합니다.

문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.0	2022-07-12	데이터 최초 개방

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2023-12-12	AI 모델 소스코드 및 AI 모델 설명서 등록
2022-10-13	신규 샘플데이터 개방
2022-07-12	콘텐츠 최초 등록

소개

자연스러우며 실제 잡음 환경이 결합된 다양한 형태의 발성, 발음을 확보하기 위해 실제 환경에서 대화하는 TV, 라디오의 고품질 방송 콘텐츠를 음성데이터를 wav 파일 형식으로 수집, 정제하여 발화자 말바뀜과 억양구 단위 경계정보를 추가하여 전사하고, 화자, 개인정보 및 차별화 혐오발언을 비식별화와 라벨링한 데이터를 json과 wav 파일을 한 쌍으로 10,000시간, 2인 이상 대화 22개 카테고리의 다양성을 고려하여 학습데이터를 구축하고, 레퍼런스가 검증되고 한글 음성에 적합하게 커스트마이징 한 ESPnet의 컨포머를 적용하여 학습모델을 개발

구축목적

특정 도메인에 국한되지 않고 다양성을 확보하며 음성 인식 성능을 높일 수 있도록 다양한 방송 콘텐츠의 음성을 수집하여 구축되는 데이터를 통해 스마트폰 중심의 모바일 환경에 원활한 인터페이스 서비스 제공 및 다양한 분야의 비대면 화해형 AI 서비스 수요와 인공지능을 훈련하기 위한 데이터 셋

메타데이터 구조표
데이터 영역	한국어	데이터 유형	오디오 , 텍스트
데이터 형식	WAV	데이터 출처	방송사
라벨링 유형	전사(음성)	라벨링 형식	JSON
데이터 활용 서비스	방송 자막 자동 생성 및 요약 서비스, 대면/비대면 통번역 서비스, 웹 및 스마트폰 등의 모바일 환경에서 원활한 음성인식 서비스, 금융/보건 등 다양한 산업 분야에서 정확한 음성인식 기술로 비대면 대화형 챗봇	데이터 구축년도/ 데이터 구축량	2021년/10,000시간

1. 데이터 구축 규모

방송 콘텐츠 대화체 음성인식-데이터 통계-데이터 구축 규모

2. 데이터 분포

*카테고리별 분포

방송 콘텐츠 대화체 음성인식-데이터 분포-카테고리별 분포

*매체 제작 분포

방송 콘텐츠 대화체 음성인식-데이터 분포-매체 제작 분포

*성별 분포

방송 콘텐츠 대화체 음성인식-데이터 분포-성별 분포

*화자규모 분포

화자규모
화자규모 분포
화자규모	발화시간(초)	비율
2	11,665,897	32.30%
3	6,296,171	17.44%
4	3,827,172	10.60%
5	3,460,989	9.59%
6	2,359,629	6.54%
7	1,684,662	4.67%
8	1,275,823	3.53%
9	1,087,551	3.01%
10	835,079	2.31%
11	631,698	1.75%
12	530,465	1.47%
13	385,153	1.07%
14	259,552	0.72%
15	251,998	0.70%
16	233,522	0.65%
17	178,911	0.50%
18	177,432	0.49%
19	105,463	0.29%
20	98,118	0.27%
21	140,367	0.39%
22	79,186	0.22%
23	62,847	0.17%
24	60,249	0.17%
25	41,965	0.12%
26	74,184	0.21%
27	43,140	0.12%
28	38,715	0.11%
29	27,269	0.08%
30	96,242	0.27%
31	19,219	0.05%
32	20,889	0.06%
33	4,614	0.01%
34	5,088	0.01%
35	11,557	0.03%
36	4,465	0.01%
37	11,996	0.03%
38	2,555	0.01%
40	2,692	0.01%
45	10,515	0.03%
총 발화시간	36,103,043	1.00

방송 콘텐츠 대화체 음성인식-데이터 분포-화자규모 분포-막대 차트

*어절 수 분포

어절수분포
어절 수 분포
어절 수	원문 개수	비율
1	839,744	11.56%
2	469,213	6.46%
3	418,441	5.76%
4	422,443	5.82%
5	411,906	5.67%
6	399,049	5.49%
7	378,784	5.22%
8	359,263	4.95%
9	340,856	4.69%
10	321,218	4.42%
11	302,110	4.16%
12	283,563	3.90%
13	265,765	3.66%
14	248,413	3.42%
15	231,504	3.19%
16	213,885	2.95%
17	196,844	2.71%
18	178,977	2.46%
19	161,494	2.22%
20	144,982	2.00%
21	127,072	1.75%
22	110,398	1.52%
23	94,233	1.30%
24	78,364	1.08%
25	64,129	0.88%
26	51,101	0.70%
27	39,887	0.55%
28	30,317	0.42%
29	23,038	0.32%
30	16,537	0.23%
31	12,001	0.17%
32	8,511	0.12%
33	5,781	0.08%
34	4,133	0.06%
35	2,724	0.04%
36	1,910	0.03%
37	1,263	0.02%
38	830	0.01%
39	581	0.01%
40	398	0.01%
41	251	0.00%
42	157	0.00%
43	135	0.00%
44	87	0.00%
45	74	0.00%
46	58	0.00%
47	53	0.00%
48	41	0.00%
49	36	0.00%
50	17	0.00%

방송 콘텐츠 대화체 음성인식-데이터 분포-어절 수 분포-막대 차트

저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드

AI 모델 상세 설명서 다운로드

AI 모델 상세 설명서 다운로드 AI 모델 다운로드

모델학습

잡음 등이 포함된 자연스러운 방송 콘텐츠 대화체 음성인식 학습을 위해 전체 데이터의 10%인 1,000시간의 음성데이터를 학습한다.

모델학습
	학습	검증	시험
개요	-ESPnet 오픈라이브러리 및 Toolkit의 한글처리 개발 -주관사 인프라 사용	-학습 및 모델의 성과 평가 및 비교 -CER, WER 점수	-모델 학습 완료 -모델 테스트
필요음성	많을수록 좋음	10%	10%

방송 콘텐츠 대화체 음성인식-모델학습 과정 이미지

서비스 활용 시나리오

구축한 모델은 방송 콘텐츠의 예능 또는 드라마와 같이 BGM(back ground music), 효과음 등의 노이즈가 빈번하게 포함된 환경에서의 자막생성, 카테고리 분류, 화자별 발언 검색에 활용할 수 있음

대표성

사용자의 방송 데이터 활용도를 고려하고 선호도가 높은 경제/시사, 교양 등 20개 카테고리를 선정하여 박수, 배경음악 등 자연스러운 대화를 포함하는 문장들로 원문 구성

독립성

AI Hub, NIA, 국립국어원 등 기 구축되어진 학습데이터 리스트와 방송국의 타 사업 제공 데이터 사실 확인 후 원시데이터를 수집

데이터 성능 점수

측정값 (%)

기준값 (%)

데이터 성능 지표

데이터 성능 지표
번호	측정항목	AI TASK	학습모델	지표명	기준값 점수	측정값 점수
1	음성인식	Speech Recognition	TRANSFORMER Conformer	CER	15 %	8.947 %
2	음성인식	Speech Recognition	TRANSFORMER Conformer	WER	30 %	21.151 %

※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드

1. 대표도면

2. 방송콘텐츠 대화체 어노테이션 포맷

*메타데이터

*가공데이터

3. 라벨링데이터 실제 예시

데이터셋 구축 담당자

수행기관(주관) : ㈜솔트룩스

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
김영혁	02-2193-1682	[email protected]	사업총괄관리, 1세부 총괄, 데이터 수집

수행기관(참여)

수행기관(참여)
기관명	담당업무
㈜소리자바	2세부 총괄, 데이터 수집, 2세부 품질 총괄
㈜디그랩	데이터 정제
㈜소리자바	데이터 가공
㈜비투엔	데이터 품질점검
경북대학교산학협력단	전사지침, 혐오표현 검사

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
김영혁	02-2193-1682	[email protected]

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.

파일 목록

전체 다운로드 AI 허브 Shell 다운로드 AI 허브 오픈 API 이용안내

연관 데이터

자연어 분석 후처리용 과교정 검증 데이터

음성 및 모션 합성 데이터

법률안 검토 보고서 요약 데이터

연령대별 특징적 발화(은어·속어 등) 음성 데이터

다국어 일상대화 실시간 통번역 데이터

감성 및 발화스타일 동시 고려 음성합성 데이터

문학작품 낭송․낭독 음성 데이터(시, 소설, 희곡, 시나리오)

기계번역 품질 검증 데이터

방송 콘텐츠 대화체 음성인식 데이터

데이터 개요

데이터 변경이력

데이터 히스토리

소개

구축목적

메타데이터 구조표

데이터 통계

교육활용 동영상

저작도구

저작도구 설명서 및 저작도구 다운로드

활용 AI 모델 및 코드

AI 모델 상세 설명서 다운로드

데이터 성능 지표

데이터 성능 점수

데이터 성능 지표

어노테이션 포맷 및 데이터 구조

설명서 및 활용가이드 다운로드

구축 업체

데이터셋 구축 담당자

수행기관(주관) : ㈜솔트룩스

수행기관(참여)

데이터 관련 문의처

안심존 소개

안심존 이용절차

안심존사용신청서 및 첨부서류목록

안심존 이용문의

파일 목록

연관 데이터