콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#3D 메타휴먼 # 3D 메타휴먼 얼굴 제작 데이터 # 3D 메쉬 데이터 # 3D 발화 얼굴 모델 # 생성형 AI

NEW 음성 기반 3D 발화 얼굴 데이터

음성 기반 3D 발화 얼굴 데이터 아이콘 이미지
  • 분야영상이미지
  • 유형 3D
구축년도 : 2023 갱신년월 : 2024-10 조회수 : 2,023 다운로드 : 25 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.1 2024-10-30 데이터 최종 개방
    1.0 2024-10-15 데이터 개방 Beta Version

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2024-11-12 데이터 설명서 수정
    2024-06-28 산출물 공개 Beta Version

    소개

    - 한국어의 음운학적 특성이 고려된 5,000문장에 대한 전문 발화자의 발화 영상을 기반으로 한, 한국어 음성 기반의 3D 발화 얼굴 데이터

    구축목적

    - 3D 메타휴먼의 한국어 기반 자연스러운 발화 얼굴 영상 생성을 위하여, 수집한 한국어 발화 영상 데이터를 바탕으로 오디오-3D 데이터 구축
  • - 데이터 구축 규모

    데이터 구축 규모
    구분 데이터 종류 총 구축 수량(개)
    원천데이터 오디오 5,000
    정면 2D 이미지 578,242
    라벨링데이터 3D 메쉬 578,242
    메타 데이터 578,242
    텍스쳐 10

    - 데이터 분포 
        - 발화 모델 분포

    발화 모델 분포
    성별
    연령
    20대 2 3
    30대 3 2
    10

        - 발화 문장 분포

    발화 문장 분포

  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    - 활용 모델
        - CodeTalker
        - speech driven 3D facial animation 분야의 SOTA 모델.

    - 학습
        - 사용 모델은 CodeTalker이며, speech driven 3D facial animation 분야의 SOTA 모델임.
        - 해당 Task 논문들은 주로 VOCASET과 BIWI 데이터셋을 사용하는데, 이는 모두 영어권 데이터이며, 각각 480문장, 560문장으로 구성됨.
        - 본 사업에서는 한국어로 된 문장 총 5,000문장을 구축하므로 최소 검증과 시험을 모두 각 500문장으로 구성할 것을 제안함.

    AI 모델
    구분 모델 정보 Training Validation Test
    79.73% 10.10% 10.17%
    1 M01 18,443 400문장 2,305 50문장 2,306 50문장
    2 M02 56,756 400문장 7,654 50문장 7,555 50문장
    3 M03 50,310 400문장 6,687 50문장 6,500 50문장
    4 M04 52,401 400문장 7,116 50문장 7,297 50문장
    5 M05 56,340 400문장 6,449 50문장 6,551 50문장
    6 M06 56,367 400문장 6,711 50문장 6,966 50문장
    7 M07 49,641 400문장 6,009 50문장 6,054 50문장
    8 M08 43,784 400문장 5,292 50문장 5,495 50문장
    9 M09 42,326 400문장 5,802 50문장 5,710 50문장
    10 M10 28,923 400문장 3,464 50문장 3,464 50문장

     

    - 서비스 활용 시나리오
        - 구축한 모델은 음성 기반 가상인간 얼굴을 생성함으로써 영화나 게임 혹은 가상 비서의 말하는 얼굴 생성에 활용될 수 있으며, 뿐만 아니라, 언어 학습이나 의사소통 기술을 향상시키는데 도움을 줄 수 있음
        - 영화나 게임 혹은 가상 비서의 말하는 얼굴 생성
        - 고급 특수 효과와 애니메이션에서 실제 인간의 표정을 디지털 캐릭터에게 전달하기 위해 사용될 수 있으며, 음성 인식과 결합되어 사용자와의 상호작용을 보다 인간적이고 자연스러운 방식으로 진행할 수 있음
        - 의사소통 기술 향상
        - 의사소통 장애가 있는 사람들을 위한 치료 도구로 사용될 수 있음

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    - 데이터 구성 및 포맷

    데이터 구성 및 포맷
    구분 데이터 종류 파일 포맷
    원천데이터 오디오 WAV
    정면 2D 이미지 PNG
    라벨링데이터 3D 메쉬 OBJ
    메타 데이터 JSON
    텍스쳐 PNG

     

    - 어노테이션 포맷

    어노테이션 포맷
    항목 항목 설명 Type 필수
    info 데이터셋 정보 Object Y
      description 데이터셋 설명 String Y
    video_date 촬영일 String Y
    contributor 데이터 수집 기관명 String Y
    subject 모델 정보 Object Y
      subject_id  모델 ID String Y
    subject_gender 모델 성별 String Y
    subject_age 모델 연령 Number Y
    script 대본 정보 Object Y
      script_id 대본 문장 번호 Number Y
    sentence 대본 문장 String Y
    phoneme 관련 음운 또는 음운현상 Object Y
      자음 대본 내 관련 자음 Obejct Y
        자음 “ㄱ” 관련 음절  Array N
        자음 “ㄴ” 관련 음절 Array N
        ...      
      모음 대본 내 관련 모음 Object N
        모음 “ㅏ” 관련 음절 Array N
        모음 “ㅑ” 관련 음절 Array N
        ...      
      음운현상 대본 내 관련 음운현상 Object N
        받침발음 받침발음 관련 정보 Array N
        음의동화 음의동화 관련 정보 Array N
        경음화 경음화 관련 정보 Array N
        음의첨가 음의첨가 관련 정보 Array N
    video 카메라 및 촬영 정보 Object Y
      video_filename 비디오 파일명 String Y
    video_length 영상 길이(초) Number Y
    take_num 촬영회차 Number Y
    cam_info 카메라 모델명 String Y
    cam_id  카메라 id Number
    frame_rate 영상 프레임레이트 Number Y
    video_resolution 영상 해상도 String Y
    sensor 이미지 센서 String Y
    iso 감도 Number Y
    iris 조리개 String Y
    focal_length 초점거리 String Y
    focus_type  초점 조절방식 String Y
    shutter_speed 셔터스피드 String Y
    image 이미지 프레임 정보 Object Y
      frame_num 이미지 프레임 번호 Number Y
    image_resolution 이미지 해상도 String Y
    audio 오디오 정보 Object Y
      audio_path 오디오 파일 경로 String Y
    audio_length 오디오 길이(초) Number Y
    3d_data 3D 데이터 정보 Object Y
      mesh_path 3D mesh 파일 경로 String Y
    texture_path 텍스쳐 파일 경로 String Y
    vertices_num Vertices 개수 Number Y
    lip_vertices lip vertex의 좌표 Object Y
      “0” vertex index 0번의 3D 위지 정보 Array Y
      ...      
      “4409” vertex index 4409번의 3D 위지 정보 Array Y
    landmark 리토폴로지시 사용한 얼굴 랜드마크 정보 Object Y
      “0” 랜드마크 index 0번의 3D 위치 정보 Array Y
      ...      
      “67” 랜드마크 index 67번의 3D 위치 정보 Array Y

     

    - 3D메쉬 데이터 예시

    3D메쉬 데이터 예시

     

    - 메타데이터 예시

    메타데이터 예시

  • 데이터셋 구축 담당자

    수행기관(주관) : 고양시청
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    안동수 031-8075-2570 [email protected] 사업 총괄
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    고양산업진흥원 홍보
    광운대학교 산학협력단 AI 모델 개발, 데이터 검수
    ㈜아이웹 응용서비스 개발
    ㈜오모션 데이터 수집, 정제, 가공
    ㈜엠비씨씨앤아이 홍보
    ㈜인사이터 데이터 가공, 데이터 검수
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    이희대 02-302-3535 [email protected]
    한규훈 02-302-3535 [email protected]
    AI모델 관련 문의처
    AI모델 관련 문의처
    담당자명 전화번호 이메일
    김정우 02-940-8362 [email protected]
    이학범 02-940-8362 [email protected]
    저작도구 관련 문의처
    저작도구 관련 문의처
    담당자명 전화번호 이메일
    이희대 02-302-3535 [email protected]
    한규훈 02-302-3535 [email protected]
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.