다음색 가이드보컬 데이터
- 분야한국어
- 유형 오디오
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2022-07-12 데이터 최초 개방 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2022-10-20 신규 샘플데이터 개방 2022-07-12 콘텐츠 최초 등록 소개
다양한 보이스 특성으로 구분되는 가창자별 가창 음성을 획득하고, 가창자 발음 구간에 대응되는 가사와 미디(MIDI) 정보가 note 단위로 라벨링 된 데이터
구축목적
다양한 가창자의 음색이 반영된 가창 음성 합성을 위한 인공지능 학습용 데이터셋
-
메타데이터 구조표 데이터 영역 한국어 데이터 유형 오디오 데이터 형식 wav 데이터 출처 자체 수집 라벨링 유형 note(MIDI) 라벨링 형식 JSON 데이터 활용 서비스 음성표현변화, 가창 음성 합성, 가창 음성 채보 등의 인공지능 기술 보컬 가이드, 보컬 트레이닝 등 음악 분야 서비스 데이터 구축년도/
데이터 구축량2021년/4,000곡 -
1. 데이터 구축 규모
연령대, 성별, 음색, 장르에 따른 다양한 보이스 특성으로 16개 그룹에 92명의 가창자로 구
별되는 가창 음성 데이터 4,000건
2. 데이터 분포- 가창자별 데이터 분포
1. 데이터 구축 규모 가창자 코드 연령대 음색 성별 장르 수 시간 수 비율 가창 길이(초) 비율 S01 10대 미만 Normal 남 동요 41 1.03% 4579.28 0.81% S02 10대 미만 Normal 여 동요 41 1.03% 4638.819 0.82% S03 10대 미만 Normal 남 동요 41 1.03% 4521.391 0.80% S04 10대 미만 Normal 여 동요 41 1.03% 4808.324 0.85% S05 10대~20대 Husky 남 댄스 41 1.03% 5217.812 0.92% S06 10대~20대 Husky 여 댄스 45 1.13% 5653.719 1.00% S07 10대~20대 Husky 남 댄스 45 1.13% 5527.619 0.98% S08 10대~20대 Husky 여 발라드 45 1.13% 6237.938 1.10% S09 10대~20대 Husky 남 발라드 41 1.03% 5858.225 1.03% S10 10대~20대 Husky 여 댄스 41 1.03% 5124.626 0.90% S11 10대~20대 Normal 남 댄스 41 1.03% 5094.323 0.90% S12 10대~20대 Clear 여 댄스 45 1.13% 6021.903 1.06% S13 10대~20대 Normal 남 댄스 41 1.03% 4886.48 0.86% S14 10대~20대 Normal 여 댄스 41 1.03% 5062.186 0.89% S15 10대~20대 Normal 남 댄스 41 1.03% 5103.771 0.90% S16 10대~20대 Clear 여 발라드 41 1.03% 5579.523 0.98% S17 10대~20대 Clear 남 발라드 41 1.03% 5745.693 1.01% S18 10대~20대 Clear 여 발라드 41 1.03% 5783.37 1.02% S19 10대~20대 Clear 남 댄스 41 1.03% 5213.45 0.92% S20 10대~20대 Clear 여 댄스 41 1.03% 5275.904 0.93% S21 50대 이상 Normal 남 발라드 41 1.03% 5234.758 0.92% S22 50대 이상 Normal 여 발라드 41 1.03% 5489.066 0.97% S23 50대 이상 Normal 남 발라드 41 1.03% 5168.273 0.91% S24 50대 이상 Normal 여 발라드 41 1.03% 5788.45 1.02% S25 10대 미만 Normal 남 동요 50 1.25% 5841.058 1.03% S26 10대 미만 Normal 여 동요 50 1.25% 5812.908 1.03% S27 10대~20대 Normal 남 댄스 41 1.03% 6140.588 1.08% S28 10대~20대 Clear 남 발라드 50 1.25% 8026.677 1.42% S29 10대~20대 Clear 남 댄스 41 1.03% 5462.331 0.96% S30 10대~20대 Normal 남 발라드 41 1.03% 6090.613 1.07% S31 10대~20대 Husky 남 발라드 50 1.25% 7469.403 1.32% S32 10대~20대 Husky 남 댄스 50 1.25% 6774.8 1.20% S33 10대~20대 Normal 남 발라드 41 1.03% 5436.759 0.96% S34 10대~20대 Normal 남 발라드 50 1.25% 7467.28 1.32% S35 10대~20대 Husky 남 발라드 41 1.03% 5874.965 1.04% S36 10대~20대 Normal 남 발라드 50 1.25% 8020.563 1.42% S37 10대~20대 Clear 남 발라드 41 1.03% 6486.159 1.14% S38 10대~20대 Clear 남 댄스 41 1.03% 6128.402 1.08% S39 10대~20대 Husky 남 발라드 41 1.03% 6063.48 1.07% S40 10대~20대 Husky 여 발라드 41 1.03% 6520.077 1.15% S41 10대~20대 Normal 여 발라드 41 1.03% 6377.738 1.13% S42 10대~20대 Husky 여 발라드 41 1.03% 6041.773 1.07% S43 10대~20대 Normal 여 댄스 41 1.03% 5378.938 0.95% S44 10대~20대 Clear 여 댄스 41 1.03% 5370.882 0.95% S45 10대~20대 Clear 여 발라드 41 1.03% 5465.705 0.96% S46 10대~20대 Normal 여 발라드 41 1.03% 6444.716 1.14% S47 10대~20대 Normal 여 댄스 50 1.25% 7004.555 1.24% S48 10대~20대 Clear 여 발라드 41 1.03% 6250.23 1.10% S49 10대~20대 Normal 여 발라드 41 1.03% 5954.159 1.05% S50 10대~20대 Clear 여 댄스 41 1.03% 6821.562 1.20% S51 10대~20대 Husky 여 댄스 41 1.03% 5531.24 0.98% S52 10대~20대 Normal 여 발라드 41 1.03% 6520.336 1.15% S53 30대~40대 Husky 남 발라드 50 1.25% 7537.979 1.33% S54 30대~40대 Husky 남 댄스 50 1.25% 6709.736 1.18% S55 30대~40대 Clear 남 댄스 50 1.25% 6543.466 1.15% S56 30대~40대 Clear 남 댄스 50 1.25% 6510.295 1.15% S57 30대~40대 Clear 남 발라드 50 1.25% 7418.306 1.31% S58 30대~40대 Normal 남 발라드 41 1.03% 6049.231 1.07% S59 30대~40대 Normal 남 발라드 50 1.25% 7290.473 1.29% S60 30대~40대 Clear 남 발라드 50 1.25% 7307.729 1.29% S61 30대~40대 Normal 남 발라드 50 1.25% 6654.629 1.17% S62 30대~40대 Husky 남 발라드 50 1.25% 7405.038 1.31% S63 30대~40대 Clear 남 발라드 41 1.03% 5671.497 1.00% S64 30대~40대 Normal 남 댄스 41 1.03% 6938.968 1.22% S65 30대~40대 Normal 여 댄스 41 1.03% 6952.054 1.23% S66 30대~40대 Husky 남 댄스 41 1.03% 7056.804 1.25% S67 30대~40대 Husky 남 댄스 50 1.25% 8644.911 1.53% S68 30대~40대 Normal 남 댄스 41 1.03% 6753.77 1.19% S69 30대~40대 Normal 남 댄스 41 1.03% 5720.92 1.01% S70 30대~40대 Clear 남 댄스 41 1.03% 5744.54 1.01% S71 30대~40대 Clear 여 댄스 41 1.03% 6178.942 1.09% S72 30대~40대 Husky 여 댄스 41 1.03% 6338.337 1.12% S73 30대~40대 Husky 남 발라드 41 1.03% 6307.67 1.11% S74 30대~40대 Clear 여 댄스 41 1.03% 6084.311 1.07% S75 30대~40대 Husky 여 발라드 46 1.15% 6948.322 1.23% S76 30대~40대 Husky 여 댄스 50 1.25% 6455.862 1.14% S77 30대~40대 Clear 여 댄스 50 1.25% 6546.444 1.16% S78 30대~40대 Normal 여 댄스 41 1.03% 5315.766 0.94% S79 30대~40대 Clear 여 발라드 50 1.25% 7525.062 1.33% S80 30대~40대 Husky 여 댄스 41 1.03% 5380.536 0.95% S81 30대~40대 Clear 여 발라드 41 1.03% 6117.841 1.08% S82 30대~40대 Husky 여 발라드 50 1.25% 6921.801 1.22% S83 30대~40대 Clear 여 발라드 41 1.03% 5629.838 0.99% S84 30대~40대 Normal 여 발라드 50 1.25% 8196.484 1.45% S85 30대~40대 Normal 여 발라드 41 1.03% 6359.224 1.12% S86 30대~40대 Husky 여 발라드 41 1.03% 6028.183 1.06% S87 30대~40대 Normal 여 댄스 41 1.03% 5290.469 0.93% S88 30대~40대 Normal 여 발라드 41 1.03% 6513.412 1.15% S89 50대 이상 Normal 남 발라드 41 1.03% 6406.619 1.13% S90 50대 이상 Normal 남 발라드 41 1.03% 6364.227 1.12% S91 50대 이상 Normal 여 발라드 41 1.03% 6307.465 1.11% S92 50대 이상 Normal 여 발라드 41 1.03% 6085.793 1.07% 계 4000 100.00% 566605.754 100.00%
- 가창곡 수
- 가창 길이
- 가창자 성별 분포
가창자 성별 분포 가창자 성별 분포 측정 지표 성별 수 비율 비고 비율 남 46 50% 가창곡 수는 남자 2034, 여자 1966 여 46 50% 계 92 100%
- 가창자 연령대 분포
가창자 연령대 분포 가창자 연령대별 분포 측정 지표 연령대 수 비율 비고 비율 10대 미만 6 6.52% 10대~20대 42 45.65% 30대~40대 36 39.13% 50대 이상 8 8.70% 계 92 100.00%
- 가창곡 장르별 분포
가창곡 장르별 분포 가창곡 장르별 분포 측정 지표 수 시간 비고 장르 수 비율 시간(초) 시간(변환) 비율 비율 동요 264 6.60% 30201.78 8시간 23분 21.78초 5.33% 발라드 2094 52.35% 308442.752 85시간 40분 42.752초 54.44% 댄스 1642 41.05% 227961.222 63시간 19분 21.222초 40.23% 계 4000 100.00% 566605.754 157시간 23분 25.754초 100.00%
- 가창곡 음색별 분포
가창곡 음색별 분포 가창곡 음색별 분포 측정 지표 수 시간 비고 음색 수 비율 시간(초) 시간(변환) 비율 비율 Normal 1753 43.83% 246064.836 68시간 21분 4.836초 43.43% Husky 1114 27.85% 159630.856 44시간 20분 30.856초 28.17% Clear 1133 28.33% 160910.062 44시간 41분 50.062초 28.40% 계 4000 100.00% 566605.754 157시간 23분 25.754초 100.00%
- 가창자별 데이터 분포
-
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드본 과제에서 제안하는 SVS(Singing Voice Synthesis)는 Acoustic Model과 Vocoder
Model이 결합한 구조를 가짐
Acoustic Model은 주파수 성분인 Mel-spectrogram을 생성하는 인공지능 모델이며, Vocoder Model은 Mel-spectrogram으로부터 자연스러운 가창 음성을 생성하는 모델 -
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 가창합성(SVS) Speech Synthesis FastSpeech + WaveGlow, FastSpeech + HiFi-GAN MOS 3.4 점 4.31 점
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드1. 대표도면
2. 라벨링 데이터 구성
2. 라벨링 데이터 구성 구분 항목명 타입 필수여부 설명 비고 1 data_info Y 데이터 정보 1.1 wav_filename String Y 가창 음원 파일 1.2 midi_filename String Y 가창 미디 파일 1.3 csv_filename String Y 가창 가사 파일 1.4 wav_duration String Y 가창 음원 길이 1.5 voice_duration String Y 가창 길이 1.6 start_time String Y 첫 노트 시작 시간 1.7 note_count Int Y 노트 수 2 notes Y 노트 정보 2.1 start_time String Y 노트 시작 시간 2.2 end_time String Y 노트 끝 시간 2.3 length String Y 노트 길이 2.4 midi_num Int Y 노트 번호 피치 정보 2.5 note_name String Y 노트 문자 피치 정보 2.6 is_bending Boolean Y 밴딩 유무 2.7 is_vibrt Boolean Y 바이브레이션 유무 2.8 is_breath Boolean Y 호흡 유무 2.9 lyric String Y 가창자 발음 가사 3. 라벨링 데이터 실제 예시
-
데이터셋 구축 담당자
수행기관(주관) : 메타빌드
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김동현 02-6901-3864 [email protected] · 데이터 품질 관리 수행기관(참여)
수행기관(참여) 기관명 담당업무 칠로엔 · 수집, 가공, 검수 한국음악실연자연합회 · 수집
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.