-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2022-07-12 데이터 최초 개방 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2022-10-13 신규 샘플데이터 개방 2022-07-12 콘텐츠 최초 등록 소개
화자의 여러 발화 패턴으로부터 발화자를 구분할 수 있는 화자인식 인공지능을 훈련하기 위한 데이터셋
구축목적
발화자 개인화 서비스, 화자의 성별/나이대 기준 맞춤 응대 등 맞춤형 음성대화 서비스를 제공할 수 있는 AI 화자인식 기술 개발
-
메타데이터 구조표 데이터 영역 한국어 데이터 유형 오디오 데이터 형식 wav 데이터 출처 호칭어, 별명, 공통 명령형 문장, 문학과 비문학의 랜덤 문장 라벨링 유형 전사(음성) 라벨링 형식 JSON 데이터 활용 서비스 화자 구분 서비스 데이터 구축년도/
데이터 구축량2021년/7,345,994개 -
1. 데이터 구축 규모
- 3000명의 화자가 호출어 100개, 화자 공통 문장 70개, 랜덤 텍스트 음원 350개, 1개 공통 호출어와 화자 공통 문장이 연속된 발화 70개를 녹음하여 총 7,000시간의 음성 데이터 구축
- 호출어는 5가지 발화 스타일별 3회 반복 녹음
- 수집은 스튜디오 환경, 무소음 환경, 잡음 환경에서 균형있게 진행됨
2. 데이터 분포
1. 데이터 구축 규모 환경 지역 남 여 청년 일반 노년 청년 일반 노년 무소음 서울 / 인천 / 경기 63 284 74 43 215 63 부산 / 대구 / 울산 / 경상 70 124 112 29 164 58 광주 / 전라 / 제주 7 40 10 10 125 7 대전 / 세종 / 충청 / 강원 2 69 0 6 135 6 소음 서울 / 인천 / 경기 30 251 60 36 233 86 부산 / 대구 / 울산 / 경상 35 116 38 8 142 36 광주 / 전라 / 제주 9 53 11 6 97 8 대전 / 세종 / 충청 / 강원 18 70 11 9 111 37 스튜디오 서울 / 인천 / 경기 23 82 24 34 86 47 -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드1. 모델 적합성 검토
- AI 모델 선정 후보 (화자 인식 엔진)
[1] Ding, S., Chen, T., Gong, X., Zha, W., & Wang, Z. (2020). Autospeech: Neural architecture search for speaker recognition. arXiv preprint arXiv:2005.03215.
[2] Ravanelli, M., & Bengio, Y. (2018). Speech and speaker recognition from raw waveform with sincnet. arXiv preprint arXiv:1812.05920.
[3] Snyder, D., Garcia-Romero, D., Sell, G., McCree, A., Povey, D., & Khudanpur, S. (2019, May). Speaker recognition for multi-speaker conversations using x-vectors. In ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 5796-5800). IEEE.
[4] Tripathi, M., Singh, D., & Susan, S. (2020, October). Speaker Recognition using SincNet and X-Vector Fusion. In International Conference on Artificial Intelligence and Soft Computing (pp. 252-260). Springer, Cham.
[5] Shi, Y., Zhou, J., Long, Y., Li, Y., & Mao, H. (2019). Addressing Text-Dependent Speaker Verification Using Singing Speech. Applied Sciences, 9(13), 2636.
[6] https://github.com/VITA-Group/AutoSpeech
[7] https://github.com/mravanelli/SincNet
[8] https://kaldi-asr.org/models/m3
[9] https://paperswithcode.com/task/speaker-recognition
2. 모델 선정 및 적용방안
- 모델 선정
- 선정 모델: X-vectors
- 모델 선정 사유
- 경쟁 알고리즘에 비해 인식 성능이 좋으며, KALDI 툴킷을 활용한 개발 숙련도가 높다는 점을 고려하여, X-Vectors 선택
- 경쟁 알고리즘에 비해 인식 성능이 좋으며, KALDI 툴킷을 활용한 개발 숙련도가 높다는 점을 고려하여, X-Vectors 선택
- X-vectors를 적용한 참여기관의 엔진 보유 기술
- 호출어 인식 엔진 보유
- 참여 기관의 AI 기술 보유 역량(미디어젠)
- 손쉽게 데이터를 증강하여 훈련 데이터를 늘리고 모델의 강인함 개선
- 참여 기관의 AI 기술 보유 역량(미디어젠)
- 호출어 인식 엔진 보유
- AI 모델 선정 후보 (화자 인식 엔진)
-
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 화자 인식률 Speech Recognition X-vector EER 8 % 2.88 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드1. 데이터 구성 대본 부릉아 유형 호출어 발화 스타일 느리게 성별 남 연령대 일반 거주지 서울/경기 언어사용 표준어 녹음환경 차량 녹음 파일 1. 데이터 구성
- 데이터 기본 포맷은 Wave(PCM) 파일과 json 파일이 쌍을 이룸
- Wave(PCM) 데이터 포맷 : 48kHz 또는 16kHz, 16bit, mono
- 실생활 노이즈가 그대로 반영된 학습용 AI 데이터 음성 파일
- json 데이터 포맷 : 일반 json 형식
2. 어노테이션 포맷
2. 어노테이션 포맷 대분류 속성 표기 의미 타입 필수여부 Basic Language 언어 String Y Version 버전 String Y ApplicationCategory 응용 분야 String NumberOfSpeaker 발성화자 수 String Y NumberOfUtterance 발화 수 String Y DataCategory DB종류 String Y RecordingDate 녹음날짜 String Y FillingDate 수정날짜 String RevisionHistory 수정기록 String Distributor 수행기관 String Y Wav SamplingRate 주파수 String Y NumberOfBit 비트 수 String Y ByteOrder 바이트정보 String EncodingLaw 인코딩방식 String Y NumberOfChannel 채널 수 String Y SignalToNoiseRatio SNR String Y Transcription LabelText 텍스트 전사 String Y LabelTextCode String Speaker SpeakerName 화자 이름 String Y Gender 성별 String Y Age 나이 String Y Region 거주지역 String Y Dialect 방언 String Y DomainPreference 도메인선호도 String Y Experience AI 사용 경험 String OwnedProduct AI 장비 보유 String PreferredType AI 유형 선호 String Environment RecordingEnviron 녹음 환경 String Y NoiseEnviron 노이즈 환경 String SignalToNoiseRatio 신호대잡음비 String Y RecordingDevice 녹음 장치 String Y SpeakerStatus 발화자 상태 String Y Mask 마스크 착용 여부 String Y Style 발화스타일 String File FileCategory 파일 종류 String Y FileName 파일 이름 String DirectoryPath 파일 위치 String HeaderSize 헤더 크기 String FileLength 파일 길이 String FileFormat 파일 포맷 String Y NumberOfRepeat 반복 차수 String TimeInterval 호출어 위치 String Distance 녹음 거리 String Other QualityStatus 품질 상태 String Y 3. 라벨링데이터 실제예시
- [json 형식 샘플 – 어노테이션 정보]
- 데이터 기본 포맷은 Wave(PCM) 파일과 json 파일이 쌍을 이룸
-
데이터셋 구축 담당자
수행기관(주관) : 미디어젠㈜
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 윤종성 수석 02-6429-7100 [email protected] · 데이터 구축 · AI 모델링 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜비디 · 공정관리 ㈜메트릭스 · 데이터 구축, 검수 인천대학교 · 데이터 설계 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 윤종성 수석 02-6429-7100 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.