NEW 음성 기반 3D 발화 얼굴 데이터
- 분야영상이미지
- 유형 3D
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2024-10-30 데이터 최종 개방 1.0 2024-10-15 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-11-12 데이터 설명서 수정 2024-06-28 산출물 공개 Beta Version 소개
- 한국어의 음운학적 특성이 고려된 5,000문장에 대한 전문 발화자의 발화 영상을 기반으로 한, 한국어 음성 기반의 3D 발화 얼굴 데이터
구축목적
- 3D 메타휴먼의 한국어 기반 자연스러운 발화 얼굴 영상 생성을 위하여, 수집한 한국어 발화 영상 데이터를 바탕으로 오디오-3D 데이터 구축
-
메타데이터 구조표 데이터 영역 영상이미지 데이터 유형 3D 데이터 형식 원천데이터: WAV, PNG 데이터 출처 자체 수집 라벨링 유형 3D 데이터 합성(얼굴 랜드마크) 라벨링 형식 3D 메쉬: OBJ 메타데이터(랜드마크 포함): JSON 데이터 활용 서비스 한국어 음성을 입력하면 AI를 기반으로 3D 메타휴먼의 발화 얼굴을 생성하는 서비스 데이터 구축년도/
데이터 구축량2023년/오디오 5,000건, 정면 2D 이미지 578,242건, 3D 메쉬 578,242건, 메타데이터 578,242건, 텍스쳐 10건 -
- 데이터 구축 규모
데이터 구축 규모 구분 데이터 종류 총 구축 수량(개) 원천데이터 오디오 5,000 정면 2D 이미지 578,242 라벨링데이터 3D 메쉬 578,242 메타 데이터 578,242 텍스쳐 10 - 데이터 분포
- 발화 모델 분포발화 모델 분포 성별 남 여 연령 20대 2 3 30대 3 2 계 10 - 발화 문장 분포
-
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드- 활용 모델
- CodeTalker
- speech driven 3D facial animation 분야의 SOTA 모델.- 학습
- 사용 모델은 CodeTalker이며, speech driven 3D facial animation 분야의 SOTA 모델임.
- 해당 Task 논문들은 주로 VOCASET과 BIWI 데이터셋을 사용하는데, 이는 모두 영어권 데이터이며, 각각 480문장, 560문장으로 구성됨.
- 본 사업에서는 한국어로 된 문장 총 5,000문장을 구축하므로 최소 검증과 시험을 모두 각 500문장으로 구성할 것을 제안함.AI 모델 구분 모델 정보 Training Validation Test 79.73% 10.10% 10.17% 1 M01 18,443 400문장 2,305 50문장 2,306 50문장 2 M02 56,756 400문장 7,654 50문장 7,555 50문장 3 M03 50,310 400문장 6,687 50문장 6,500 50문장 4 M04 52,401 400문장 7,116 50문장 7,297 50문장 5 M05 56,340 400문장 6,449 50문장 6,551 50문장 6 M06 56,367 400문장 6,711 50문장 6,966 50문장 7 M07 49,641 400문장 6,009 50문장 6,054 50문장 8 M08 43,784 400문장 5,292 50문장 5,495 50문장 9 M09 42,326 400문장 5,802 50문장 5,710 50문장 10 M10 28,923 400문장 3,464 50문장 3,464 50문장 - 서비스 활용 시나리오
- 구축한 모델은 음성 기반 가상인간 얼굴을 생성함으로써 영화나 게임 혹은 가상 비서의 말하는 얼굴 생성에 활용될 수 있으며, 뿐만 아니라, 언어 학습이나 의사소통 기술을 향상시키는데 도움을 줄 수 있음
- 영화나 게임 혹은 가상 비서의 말하는 얼굴 생성
- 고급 특수 효과와 애니메이션에서 실제 인간의 표정을 디지털 캐릭터에게 전달하기 위해 사용될 수 있으며, 음성 인식과 결합되어 사용자와의 상호작용을 보다 인간적이고 자연스러운 방식으로 진행할 수 있음
- 의사소통 기술 향상
- 의사소통 장애가 있는 사람들을 위한 치료 도구로 사용될 수 있음 -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드- 데이터 구성 및 포맷
데이터 구성 및 포맷 구분 데이터 종류 파일 포맷 원천데이터 오디오 WAV 정면 2D 이미지 PNG 라벨링데이터 3D 메쉬 OBJ 메타 데이터 JSON 텍스쳐 PNG - 어노테이션 포맷
어노테이션 포맷 항목 항목 설명 Type 필수 info 데이터셋 정보 Object Y description 데이터셋 설명 String Y video_date 촬영일 String Y contributor 데이터 수집 기관명 String Y subject 모델 정보 Object Y subject_id 모델 ID String Y subject_gender 모델 성별 String Y subject_age 모델 연령 Number Y script 대본 정보 Object Y script_id 대본 문장 번호 Number Y sentence 대본 문장 String Y phoneme 관련 음운 또는 음운현상 Object Y 자음 대본 내 관련 자음 Obejct Y ㄱ 자음 “ㄱ” 관련 음절 Array N ㄴ 자음 “ㄴ” 관련 음절 Array N ... 모음 대본 내 관련 모음 Object N ㅏ 모음 “ㅏ” 관련 음절 Array N ㅑ 모음 “ㅑ” 관련 음절 Array N ... 음운현상 대본 내 관련 음운현상 Object N 받침발음 받침발음 관련 정보 Array N 음의동화 음의동화 관련 정보 Array N 경음화 경음화 관련 정보 Array N 음의첨가 음의첨가 관련 정보 Array N video 카메라 및 촬영 정보 Object Y video_filename 비디오 파일명 String Y video_length 영상 길이(초) Number Y take_num 촬영회차 Number Y cam_info 카메라 모델명 String Y cam_id 카메라 id Number Y frame_rate 영상 프레임레이트 Number Y video_resolution 영상 해상도 String Y sensor 이미지 센서 String Y iso 감도 Number Y iris 조리개 String Y focal_length 초점거리 String Y focus_type 초점 조절방식 String Y shutter_speed 셔터스피드 String Y image 이미지 프레임 정보 Object Y frame_num 이미지 프레임 번호 Number Y image_resolution 이미지 해상도 String Y audio 오디오 정보 Object Y audio_path 오디오 파일 경로 String Y audio_length 오디오 길이(초) Number Y 3d_data 3D 데이터 정보 Object Y mesh_path 3D mesh 파일 경로 String Y texture_path 텍스쳐 파일 경로 String Y vertices_num Vertices 개수 Number Y lip_vertices lip vertex의 좌표 Object Y “0” vertex index 0번의 3D 위지 정보 Array Y ... “4409” vertex index 4409번의 3D 위지 정보 Array Y landmark 리토폴로지시 사용한 얼굴 랜드마크 정보 Object Y “0” 랜드마크 index 0번의 3D 위치 정보 Array Y ... “67” 랜드마크 index 67번의 3D 위치 정보 Array Y - 3D메쉬 데이터 예시
- 메타데이터 예시
-
데이터셋 구축 담당자
수행기관(주관) : 고양시청
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 안동수 031-8075-2570 [email protected] 사업 총괄 수행기관(참여)
수행기관(참여) 기관명 담당업무 고양산업진흥원 홍보 광운대학교 산학협력단 AI 모델 개발, 데이터 검수 ㈜아이웹 응용서비스 개발 ㈜오모션 데이터 수집, 정제, 가공 ㈜엠비씨씨앤아이 홍보 ㈜인사이터 데이터 가공, 데이터 검수 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 이희대 02-302-3535 [email protected] 한규훈 02-302-3535 [email protected] AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 김정우 02-940-8362 [email protected] 이학범 02-940-8362 [email protected] 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 이희대 02-302-3535 [email protected] 한규훈 02-302-3535 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.