-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2024-03-12 데이터 최종 개방 1.0 2023-07-31 데이터 개방(Beta Version) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-01-10 산출물 전체 공개 2024-01-05 Sample 파일 공개 2023-11-10 데이터설명서, 구축활용가이드, 교육활용동영상 공개 소개
문맥 이해 및 인식 성능개선을 위해 다양한 연령대별 특징적 발화(은어·속어 등) 음성 데이터를 수집/정제/가공하여 인공지능(AI) 학습용 데이터셋 구축 이때 학습 데이터셋은 녹음한 음성 파일이며, 전사데이터는 txt 기반의 데이터 셋 목록 및 메타 정보로 구성됨.
구축목적
다양한 연령대별 은어, 속어의 음성 인공지능의 성능 개선 및 특징적 단어(은어, 속어 등)의 이해를 통한 음성인식 성능 향상 기술 개발을 목표로 하며, 다양한 산업 분야에서 인공지능 비서, 녹취록 작성, 통역 등 음성 인식이 활용될 수 있는 다양한 분야에서 활용하도록 함
-
메타데이터 구조표 데이터 영역 한국어 데이터 유형 오디오 데이터 형식 *.wav 데이터 출처 자체 수집 라벨링 유형 전사(음성) 라벨링 형식 JSON, SRT 데이터 활용 서비스 구어체 음성 인식서비스, 상담 서비스, 디지털 휴먼 챗본 서비스 데이터 구축년도/
데이터 구축량2022년/3,000시간 이상의 특징적 발화(은어·속어 등) 음성데이터 구축 -
<데이터 구축 규모>
총 3000 시간 구축데이터 구축 규모 클래스 분류 총구축 시간 비율 10대 게임 61.5 20.50% 10% SNS 82.5 27.50% 교육 70.5 23.40% 일상 85.5 28.50% 20대 군대 149.8 12.80% 39% 연애결혼 165 14.10% 직장 105.3 9.00% SNS 200.1 17.10% 음식 131 11.20% 일상 418.9 35.80% 30대 직장 134.2 17.20% 26% 주거 93.6 12.00% 경제 88.1 11.40% 연애결혼 107.6 13.80% 일상 356.5 45.70% 40대 가족 94.6 20.90% 15% 주거 76.5 17.00% 경제 87.3 19.40% 일상 191.6 42.60% 50대이상 여가 122.1 40.70% 10% 일상 177.9 59.30% 합계 3,000 100% <데이터 분포>
특징적 발화 분포 : 은어, 속어 , 유행어, 줄임말데이터 분포 단어유형 비율 은어 27.24% 속어 16.12% 유행어 12.28% 줄임말 44.36% 소계 100% 화자의 지역 분포 : 수도권, 강원 , 충청, 전라, 경상
화자의 지역 분포 지역 비율 수도권 58.64% 강원 8.21% 충청 9.40% 전라 8.11% 경상 15.64% 소계 100% 감정 분포 : 긍정, 부정, 중립
감정 분포 감정 비율 긍정 21.32% 부정 26.76% 중립 51.92% 소계 100% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드<모델학습>
음성인식 모델 및 문장정확도 모델 학습을 위한 데이터는 전체 3000시간에 해당하며 각각 연령대별, 주제별로 분류되어 있으며 단어 150시간(5%), 문장 900시간(30%), 대화 1,950시간(65%)으로 구성하였다. 학습 시 검증용 음성데이터 및 말뭉치와 시험용 음성데이터 및 말뭉치를 모두 전체의 10%로 제시한다.
<서비스 활용 시나리오>
· 구축한 모델은 은어·속어 이해가 필요한 업무에 활용할 수 있다.
- 은어/속어 필터링 챗봇에 활용
- 은어/속어 순화어 변경 서비스에 활용 -
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 문장정확도 Machine Translation mBART BLEU 0.6 점 0.869 점 2 음성인식 Speech Recognition wav2vec 2.0 CER 20 % 13 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드<데이터 설명>
2000명 이상의 성별, 연령대별, 화자 모집으로 다양한 원시데이터로 부터 정제작업 하여 적합 원천 데이터를을 추출하여 저작도구를 활용하여 정제된 원천데이터를 전사(음성)작업 및 메타데이터를 적용한 데이터셋으로, 데이터의 다양성을 추구하며 정제 작업시 음량, 발음의 정확성, 소음 및 잡음, 개인정보, 저작권, 그 밖의 데이터 구축 목적 부합성 등의 요소 문제를 완전히 해결한 데이터
<데이터 포맷>
데이터 포맷 공정구분 파일 종류 파일 설명 비고 수집 *.wav 음성 데이터 파일 원시데이터 *.txt 전사텍스트 파일 환경정보(플랫폼등록) 정제 *.wav 음성 데이터 파일 원천데이터 *.txt 전사텍스트 파일 DB 환경정보파일 가공 *.wav 음성 데이터 파일 가공데이터 *.srt 전사텍스트 파일 *.Json 속성정보파일 학습 *.wav 음성 데이터 파일 학습데이터 *.Json 속성정보파일 <어노테이션 포맷>
어노테이션 포맷 No 항목명 길이 타입 필수 한글명 영문명 여부 1 데이터셋 DataSet 100 String Y 2 데이터셋 버전 Version 3 String Y 3 녹음날짜 Date 8 String Y 4 녹취된 음원의URL MediaUrl 1000 String Y 5 연령대분류 Category 100 String Y 6 주제별 분류 Subcategory 100 String Y 7 발화장소 DialogPlace 100 String Y 8 대화방식 DialogVoiceType 100 String Y 9 화자수 SpeakerNumber 1 String Y 10 녹음장비 RecDevice 100 String Y 11 전체 녹음시간(초) RecLen 600 number Y 12 오디오레졸류션 AudioResolution 2 Object Y 12-1 비트심도 BitDepth 100 String Y 12-2 샘플속도 SampleRate 100 String Y 13 화자 정보
(화자 목록)Speakers Array Y 13-1 화자코드 Speaker 4 String Y 13-2 성별 Gender 4 String Y 13-3 지역 Locate 100 String Y 13-4 화자연령대 Agegroup 10 String Y 14 전사 데이터 목록
(대화 목록)Dialogs Array Y 14-1 화자코드 Speaker 4 String Y 14-2 은어 속어가 포함된 발화문장 Speakertext 65535 String Y 14-3 은어 속어를 풀어쓴 발화문장 TextConvert 65535 String Y 14-4 발화 시작 시간 StartTime 600 number Y 14-5 발화 종료 시간 EndTime 600 number Y 14-6 화자 발화한 발성시간(초) SpeakTime 600 number Y 14-7 특정적단어에 대한 세부정보 WordInfo Array Y 14-7-1 특징적 발화 단어 Word 100 String Y 14-7-2 단어유형분류 WordType 100 String Y 14-7-3 단어구조분류 WordStructure 100 String Y 14-7-4 특정단어의 뜻풀이 WordDefine 65535 String Y 14-7-5 감정의 반응을 표시 WordFell 100 String Y 14-7-6 감정의 세부 항목
(의도 분류)WordMean 100 String Y <어노테이션 예시>
-
데이터셋 구축 담당자
수행기관(주관) : ㈜딥로딩
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 오승묵 이사 02-568-2035 [email protected] 총괄 사업관리/데이터 검수/AI 모델개발 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜인사이트정보 수집/데이터정제/데이터가공/데이터검수 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 오승묵 이사 02-568-2035 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.