-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2023-03-23 원천데이터/라벨링데이터 수정 1.0 2022-07-12 데이터 최초 개방 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2022-11-24 데이터셋 담당자 정보 수정 2022-10-13 신규 샘플데이터 개방 2022-07-12 콘텐츠 최초 등록 소개
전화망 환경을 모두 포함한 실제 상담 환경에서 발생하는 다양한 잡음을 포함한 저음질 전화망 음성 데이터 및 이에 매치되는 전사 텍스트 데이터 (총 6500시간)
구축목적
저음질 전화망, wide band에서 녹음된 음성 데이터를 구축하여 인공지능 고객센터 서비스, 통화 내용 검색 서비스, 통합 신고관리 서비스 등의 활용
-
메타데이터 구조표 데이터 영역 한국어 데이터 유형 오디오 , 텍스트 데이터 형식 wav, txt, json 데이터 출처 메가스터디교육(주), ㈜엑스퍼트컨설팅, 창원시청, 전주시 라벨링 유형 음성데이터-전사텍스트 라벨링 형식 JSON 데이터 활용 서비스 AI 기반 통합 신고관리 플랫폼 데이터 구축년도/
데이터 구축량2021년/6500시간 -
분류 분류 비율 성별 남성 50%, 여성 50% 전화망별 8k 92%, wide band 8% 도메인별 교육 23%, 공공 31%, HR 11%, 전자상거래 35% 상담사, 고객 비율 상담사 3 : 고객 7 인당 발화시간 5시간 이내 도메인 도메인 수집시간 세부도메인 세부도메인 수집시간 교육 1,500 공부방법 100 인강상담 1,000 진로문의 200 기타문의 200 민원 2,000 창원시, 전주시 복지 400 교통/차량등록 200 상하수도 200 환경 250 도시/경제 250 문화/관광 250 일반행정 200 기타민원 250 HR 750 구직자 400 지원자 100 기업교육문의 250 전자상거래 2,250 스마트기기/서비스이용 250 게시판/이벤트 문의 200 배송, 반송 문의 800 결제, 취소, 환불 문의 1,000 합계 6,500 -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드3.6.3.1. 모델 선정
- 인공지능 학습 모델 선정은 librispeech 영어 데이터셋에 대한 음성인식 정확도, 반응시간, 처리량, 모델크기, 기능에 대한 등수를 매겨 선정함
- 본 과제를 통해 수집한 데이터를 활용하여 실제 서비스 산업 분야에서 사용하기 위해서는 모델의 성능 및 추론속도가 중요하므로, 정확도 > 반응시간, 처리량 > 모델크기 순으로 우선순위를 정함
- 또한 서비스 요건에 따라 온라인(실시간) 음성인식과 오프라인(batch 처리) 음성인식이 필요한 경우로 나뉘므로, 모델이 온라인, 오프라인, 온라인/오프라인 기능에 대한 지원여부를 확인함
- 이에 따라 결과 3.6.2에서 제시한 인공지능 학습 모델 중 정확도 가장 높은 Conformer 모델과 반응시간, 처리량에서 가장 좋은 성능을 보인 Jasper 모델을 선정하여 본 과제 수행에 활용하고자 함
- Conformer 모델은 오프라인 음성인식에만 사용 가능하며, Jasper 모델은 온라인/오프라인에 모두 활용 가능함
3.6.3.2. 적용방안
❍ 음성인식 파이프 라인- 전처리 단계에서는 speed perturbation 등의 data augmentation을 진행하고, 학습 효율성 증대를 위한 배치를 생성함
- 음향모델학습 단계에서는 배치 단위로 음원에서 특징벡터를 추출하고, 이를 이용하여 음향 모델을 학습함
- 언어모델학습 단계는 배치 단위로 텍스트를 이용하여 언어 모델을 학습함
- 음향 모델의 결과와 언어모델 결과를 이용하여 최종 음성인식 결과 도출 및 모델 유효성 검증함
-
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 음성인식 Speech Recognition Conformer CER 15 % 9.76 % 2 음성인식 Speech Recognition Jasper WER 38 % 22.71 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드원천 데이터 예시
어노테이션 포맷
구분 구분 메타데이터 항목명 타입 필수여부 설명 범위 비고 dataset object 데이터셋 1 version String Y 데이터셋 버전 3 date String 녹취된 날짜 4 typeInfo Object 음원 데이터 상세 정보 4.1 category String 음원 카테고리 정보 4.2 subcategory String 음원 서브카테고리 4.3 place String 음원 녹취 장소 4.4 speakers Object Y 화자 목록 2004-04-01 id String Y 화자 아이디 2004-04-02 type 화자 타입 고객, 상담사, 구직자, 직원, 학생, 민원인, 기타 2004-04-03 age 나이대 [20대, 30대, 50대(추정), null(알수없음)] 2004-04-04 gender String Y 화자 성별 [남, 여] 2004-04-05 residence 거주지역 null (전북, 경남, 서울/경기, 알수없음) 2004-04-06 telephone -network string Y 전화망 8k wide-band 4.5 inputType String 입력형식 [방송, 유선, 모바일, 인터넷] 5 dialogs Object Y 전사 데이터 목록 묵음 기준으로 나누어진 발화 단위로 생성 5.1 speaker String Y 화자 아이디 1~10 speakers에 등록된 id 5.2 audioPath String Y 발화 단위 RAW 데이터 경로 0~22 데이터 분할 저장 폴더 5.3 duration Float Y 발화 길이 0.5~ 31.209 5.4 text String Y 발화 단위 TEXT 데이터 0~562 분할 저장 텍스트 파일명 실제 예시
{
"dataSet": {
"version": "1.0",
"date": "20210401",
"typeInfo": {
"category": "교육",
"subcategory": "학업상담",
"place": "null",
"speakers": [
{
"id": “1”,
"type": “학생”,
"age": 10대(추정),
"gender": "남",
"residence": null
},
{
"id": “2”,
"type": “상담사”,
"age": 20대,
"gender": "여",
"residence": null
}
],
"inputType": "유선"
},
"dialogs": [
{
"speaker": “1”,
"audioPath": "KLQSpeech/D01/J01/S000001/0001.wav",
“duration”: 3.24,
"text": "안녕하세요 수강생 홍길동입니다.“,
},
{
"speaker": “2”,
"audioPath": "KLQSpeech/D01/J01/S000001/0002.wav",
“duration”: 1.22,
"text": "안녕하세요.",,
},
{
"speaker": “2”,
"audioPath": "KLQSpeech/D01/J01/S000001/0003.wav",
“duration”: 2.28,
"text": "무엇을 도와드릴까요?",
},이하생략 ...
]
}
} -
데이터셋 구축 담당자
수행기관(주관) : (주)티맥스엔터프라이즈
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김진우 031-8018-9399 [email protected] 저음질 음성 데이터 과제 총괄 수행기관(참여)
수행기관(참여) 기관명 담당업무 메가스터디교육(주) 데이터 수집 엑스퍼트컨설팅 데이터 수집 주식회사 세명소프트 데이터 정제 및 가공 (주)인터마인즈 데이터 품질 관리 전주시 데이터 수집 창원시청 데이터 수집 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 김진우 031-8018-9399 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.