콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#인터페이스 # 자율주행 # 교통 # 모빌리티/안전

차량 내 인터페이스 개선을 위한 멀티모달 데이터

차량 내 인터페이스 개선을 위한 멀티모달 데이터
  • 분야교통물류
  • 유형 오디오 , 이미지 , 비디오
구축년도 : 2021 갱신년월 : 2023-07 조회수 : 7,141 다운로드 : 107 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.3 2023-07-12 원천데이터 및 라벨링데이터 수정
    1.2 2023-03-14 원천데이터 및 라벨링데이터 수정
    1.1 2023-02-09 원천데이터 및 라벨링데이터 수정
    1.0 2022-07-29 데이터 최초 개방

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2023-03-30 담당자 변경
    2023-03-17 AI모델 및 사용설명서 등록
    2023-03-16 저작도구 등록
    2022-10-13 신규 샘플데이터 개방
    2022-07-29 콘텐츠 최초 등록

    소개

    자율주행/인포테인먼트 AI 서비스의 개발 및 고도화를 위한 차량 내 탑승자 상황 인식 영상 데이터

    구축목적

    •  키포인트 객체 인식(제스처 19종 분류)
    •  음성 인식(음성 93종 분류)
  • 1. 차량 내 인터페이스 개선을 위한 멀티모달 데이터

    • 데이터 구축 규모
      1. 차량 내 인터페이스 개선을 위한 멀티모달 데이터 데이터 구축 규모
      작업 범위 파일 확장자 데이터 구축량
      제스처 영상 데이터 MP4
      (영상 파일)
      500,000건
      제스처 이미지 JPG
      (이미지 파일)
      2,500,000장 
      음성 데이터 WAV
      (음성 파일)
      500,000건
      어노테이션 데이터 JSON
      (메타데이터, 제스처 정보, 음성 정보)
      500,000건
    • 데이터 분포
      1) 연령 분포 : 20대 ~ 30대(45%), 40대 ~ 50대(45%), 60대 이상(10%)
      2) 성별 분포 : 남성 음성 비중(50%), 여성 음성 비중(50%)
      3) 제스처 19종 중 음성까지 중복되지 않는 경우인 93종에 대하여 녹화를 진행
      4) 음성데이터 97종 중 중복을 제외하고 총 93종의 음성데이터를 기준으로 녹음하여 각 음성 당 5,377건의 데이터 구축
       
      데이터 분포
      연령대 녹음 건수 남(50%) 여(50%)
      20대 ~30대 (45%) 2,420건 1,210건 1,210건
      40대 ~50대 (45%) 2,420건 1,210건 1,210건
      60대 이상 (10%) 538건 269건 268건
      음성 당 건수 5,377건 2,689건 2,688건
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    1. 활용 모델

    • 차량 내 인터페이스 개선을 위한 멀티 모달 센서 데이터
       1) 모델 학습

      1. 활용 모델1) 모델 학습
      모델 목적 AI 모델 지표 성능 목표 입력 출력
      손모양 인식 TSM(ResNetTSM) FI-Score 0.7 이상 이미지,
      인터페이스 클래스
      인터페이스 클래스
      음성 인식 Deepspeech2 CER 30% 이하 wav, 음성전사 text 음성 인식 결과 text

        가) 손 모양 인식모델 TSM(ResNetTSM)
         (1) 데이터 활용 모델 개발을 위해서는 손 모양 인식모델의 선정 방식은 다음과 같은 표를 참고하여 점수 합산을 통해 후보 베이스 모델 선정
         

      가) 손 모양 인식모델 TSM(ResNetTSM)
      모델 이름 / 항목 V2V-PoseNet TSM (ResNetTSM) AWR Pose-REN
      모델 성능 80% 이상(필수)
      빠른 반응 시간(필수)
      2D, 3D 추정 방식 지원  
      모델 아키텍처의 간결함  
      점수 합계 8 8 7 7
      [손 모양 인식 모델 선정]

         (2) 프레임 인코더는 ResNet 아키텍처를 프레임별 모델로 사용하여 비디오의 각 프레임에 대한 임베딩을 생성
         (3) 각 프레임의 임베딩을 비디오의 다른 모든 프레임과 비교하여 TSM을 계산하고 후속 모듈에서 반복 계산을 쉽게 분석할 수 있는 매트릭스 반환
         (4) 각 프레임에 대해 트랜스포머(Transformers)를 사용하여 TSM의 유사성 시퀀스에서 반복 기간 및 주기성을 직접 예측
         차량 내 인터페이스 개선을 위한 멀티모달 데이터-활용모델_1_손 모양 인식모델 TSM(ResNetTSM)

       2) 손 포즈인식 모델 프로세스
        가) 데이터 전처리 단계에서 모델 학습을 위한 손의 손바닥, 관절에 관련된 특징 벡터들을 추출
        나) skeleton 추정 모델 학습 단계에서는 추출된 특징 벡터를 이용하여 이미지, 영상 내 손 포즈 인식을 위해 모델 학습을 수행
        다) skeleton 추정 모델 학습 과정을 통해 손의 포즈를 추정하고 학습된 모델의 Average 3D Error 지표와 처리량 및 모델 크기를 참고하여 성능 및 유효성을 검증
        라) 모델 학습 검증, 평가에 사용되는 데이터는 중복 항목이 없도록 처리, 각종 논문 등을 참고하여 학습용, 검증용, 평가용 데이터를 8:1:1 비율로 분할 하여 수행
        차량 내 인터페이스 개선을 위한 멀티모달 데이터-활용모델_2_손 포즈인식 모델 프로세스

       3) 음성 인식모델 
         (1) 데이터 활용 모델 개발을 위해서는 음성인식 모델의 선정 방식은 다음과 같은 표를 참고하여 점수 합산을 통해 후보 베이스 모델 선정
         

      3) 음성 인식모델
      모델 이름 / 항목 wav2vec 2.0 DeepSpeech2 Transformer Conformer
      모델 성능 15% 이하
      모델 적용 알고리즘
      처리 속도    
      데이터 영향도      
      점수 합계 7 8 6 6
      [음성 인식 모델 선정]

         (2) DeepSpeech2는 2015년 12월에 제안된 end-to-end 음성 인식 모델
         (3) 수작업으로 엔지니어링된 구성 요소의 전체 파이프라인을 신경망으로 대체
         (4) 종단 간 학습을 통해 시끄러운 환경, 억양 및 다른 언어를 포함한 다양한 음성을 처리
         (5) HPC 기술을 적용하여 이전 시스템보다 7배 빠른 속도를 제공
         (6) 오디오 신호가 입력되면 특징을 추출하고 특징들이 모델과 CTC 알고리즘을 통과하면서 텍스트로 출력
         (7) STT를 구현하기 위해 필요한 음성데이터를 AI hub Kspon의 한국어 음성 데이터와 이를 전사해 놓은 Label을 가져와 3가지 방식으로 전처리를 제공
         (8) Raw audio를 통째로 input으로 넣어주는 것이 특징
         차량 내 인터페이스 개선을 위한 멀티모달 데이터-활용모델_3_음성 인식 모델
       4) 음성 인식모델 프로세스
        가) 음성인식 모델의 학습 단계에서는 정제된 데이터를 이용하여 차랑 내 인터페이스 조작을 위한 음성인식 모델의 학습 수행 
        나) 음성을 인식하고 학습된 모델의 성능 지표인 WER를 측정하여 성능 및 유효성을 검증 
        다) 모델 학습 검증, 평가에 사용되는 데이터는 중복 항목이 없도록 처리, 각종 논문 등을 참고하여 학습용, 검증용, 평가용 데이터를 8:1:1 비율로 분할하여 수행
        차량 내 인터페이스 개선을 위한 멀티모달 데이터-활용모델_4_음성인식 모델 프로세스

     

    2. 서비스 활용 시나리오

    • 차량 내 인터페이스 개선을 위한 멀티 모달 센서 데이터
       1) 손인식 모델을 활용한 AI 인포테이먼트 서비스
        가) 운전자가 차량 내부 기능을 조작할 때 조작을 위해서 전방으로 유지해야 할 시선이 이탈되거나 주의 집중력이 분산 되는 경우 발생
        나) 경찰청은 운전 중 영상 장치 시청 및 조작 금지에 대한 도로 교통법 개정안 마련(‘12.2)
        다) 차량 내 인터페이스 개선을 위한 멀티모달 데이터 셋을 이용하여 가벼운 손짓만으로 차량 조작이 가능한 AI 인포테이먼트 서비스 개발

       2) 음성 인식 모델을 활용한 차량 내 인터페이스 서비스
        가) 차량 내 음성인식 탑재율은 지속적으로 상승하며 탑재 시장은 꾸준히 성장 예측
        나) 차량 내 음성인식의 사용 분야는 제한적으로 직접 눌러서 사용하는 인터페이스 방식이 많이 사용되는 상황 
        다) 현재 한정적인 분야에서 사용되는 것과는 다르게 더 많은 분야에서 적용이 가능하다고 판단되어 관련된 연구는 활발히 진행 중
        라) 이러한 배경으로 차량 내 다양한 변수 환경에서 음성인식의 정확도를 향상시키는 성능 개선을 통해 차량 내 인터페이스 조작 서비스 개발데이터 제공

    3. 기타 정보

    • 독립성
        1) 개인정보 처리 및 개인정보 유출
         가) 개인정보 비식별 조치 가이드라인을 준수하여 비식별화 기술 적용
         나) Distinguish ability, Inference Attack 등 ISO/IEC 20889 표준 문서에서 규정하는 개인정보 재식별 공격에 대비하여 비식별화 조치 수행
         다) 수집 및 구축된 전체 데이터에서 표본추출 및 통계처리를 통해 개인정보 탐지 알고리즘 개발
         라) 개인정보의 형태 및 종류에 따라 결정성 암호화, 순서보존 암호화, 형식보존 암호화, 동형 암호화, 동형 비밀분산 기법을 적용하여 데이터 암호화
         마) 개인정보의 형태 및 종류에 따라 마스킹, 로컬삭제, 레코드 삭제와 같은 다양한 삭제 기법 적용
         바) 개인정보의 형태 및 종류에 따라 라운딩, 상하단코딩, 속성집합을 단일 속성값으로 결합, 로컬 일반화와 같은 일반화 기술 적용
         사) 개인정보의 형태 및 종류에 따라 잡음추가, 순열, 미세집합과 같은 무작위화 기술 적용
         아) 전문 인력으로 구성된 내부 그룹을 활용하여 개인정보 탐지 알고리즘에 탐지 되지 않은 개인정보들에 대한 암호화 진행
         자) 공개된 데이터 셋에 대해 개인정보 삭제에 대한 요청이 있을 시 즉시 삭제 처리하며 필요 시 운영기관과 적정성 판단을 위한 논의 수행 예정
        2) 지식재산권
         가) 데이터 수집에 참가한 사람들과의 계약에 지식재산권과 초상권에 대한 항목을 추가하여 데이터셋에 대한 지식재산권과 초상권 확보
  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 음성 인식 Speech Recognition wav2vec 2.0 CER 30 % 0.78 %
    2 제스처 분류 Image Classification TSM F1-Score 0.7 0.9932

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    1. 데이터 포맷

    • 차량 내 인터페이스 개선을 위한 멀티 모달 센서 데이터
      • 원천 데이터 포맷
        가) 차량 내에서 인터페이스 조작을 위한 제스처 촬영 영상 데이터 (*.mp4)
        나) 영상 데이터에서 추출한 프레임 이미지 데이터 (*.jpg)
        다) 영상 데이터에서 추출한 음성 데이터 (*.wav)
      • AI 학습용 데이터 포맷
        가) 원천데이터를 AI 학습에 활용할 수 있도록 가공한 데이터 (*.json)
    1. 데이터 포맷
    AI 학습용 데이터
    형태 JSON
    정보 메타 정보 : 데이터셋 이름, 파일 고유 번호, 데이터셋 구축자, 데이터셋 제공자
    장면 정보 : 장면 고유번호, 인터페이스 고유번호, 인터페이스 종류
    탑승장 정보 : 탑승자 id, 연령, 성별, 위치
    학습용 데이터 클립 정보 : 메타 정보(이미지 고유이름, 제스처 의미, 제스처 키포인트 정보), 전사 정보(전사 내용, 음성파일명)

     

    [차량 내 인터페이스 개선을 위한 멀티모달 데이터 구조]
    데이터 분류 데이터 예시 JSON 형식
    video
    data
    차량 내 인터페이스 개선을 위한 멀티모달 데이터-차량 내 인터페이스 개선을 위한 멀티모달 데이터 구조_1_video data 예시 차량 내 인터페이스 개선을 위한 멀티모달 데이터-차량 내 인터페이스 개선을 위한 멀티모달 데이터 구조_2_JSON 형식
    image
    data
    차량 내 인터페이스 개선을 위한 멀티모달 데이터-차량 내 인터페이스 개선을 위한 멀티모달 데이터 구조_3_image data 예시
    wave
    data
    차량 내 인터페이스 개선을 위한 멀티모달 데이터-차량 내 인터페이스 개선을 위한 멀티모달 데이터 구조_4_wave data 예시

    [차량 내 인터페이스 개선을 위한 멀티모달 데이터 구조]

     

    2. 데이터 구성

    • 차량 내 인터페이스 개선을 위한 멀티 모달 센서 데이터
      2. 데이터 구성 차량 내 인터페이스 개선을 위한 멀티 모달 센서 데이터
      Key Description Type
      description 데이터셋 이름 String
      video_id 파일 고유번호 String
      creator 데이터셋 구축자 String
      distributor 데이터셋 제공자 String
      date 촬영날짜 String
      scene_info 장면정보 Object
      scene_id 장면 고유번호 String
      interface_id 인터페이스 고유번호 String
      interface_name 인터페이스 종류 String
      occupant_info 탑승자정보 Object
      occupant_id 탑승자 id String
      occupant_age 탑승자 연령 String
      occupant_sex 탑승자 성별 String
      occupant_position 탑승자 위치 String
      scene 학습용 데이터 클립정보 Object
      data 학습용 데이터 메타정보 Array
      img_name 이미지 고유 이름 String
      gesture 제스처 의미 String
      gesture_keypoint 제스처 키포인트 정보 Array
      x 키포인트 X좌표 정보 Number
      y 키포인트 Y좌표 정보 Number
      utterance_info   Object
      content 전사 내용 String
      wav_name 음성파일명 String

    3. 어노테이션 포맷

    • 차량 내 인터페이스 개선을 위한 멀티 모달 센서 데이터
      3. 어노테이션 포맷 차량 내 인터페이스 개선을 위한 멀티 모달 센서 데이터
      구분 항목명 타입 필수여부 비고
          한글명 영문명      
      1 metadata 학습용 데이터 메타정보 Object    
        1–1 데이터셋 이름 description String Y [monitoring_data, interface_data]
      1–2 파일 고유번호 video_id String Y  
      1–3 데이터셋 구축자 creator String N [광주인공지능센터, 디투리소스, 으뜸정보기술, 파파모빌리티]
      1–4 데이터셋 제공자 distributor String N [광주인공지능센터, 디투리소스, 으뜸정보기술, 파파모빌리티]
      1–5 촬영날짜 date String N yyyyMMdd
      2 장면정보 scene_info Object   -
        2–1 장면 고유번호 scene_id String Y max_length : 15
      2–2 인터페이스 고유번호 interface_id String Y [I001, I002, I003, I004, I005]
      2–3 인터페이스 종류 interface_name String Y [소리(음악), 자율주행, 차량제어, 네비게이션, 블랙박스]
      3 탑승자정보 occupant_info Object   -
        3–1 탑승자 id occupant_id String Y max_length : 9
      3–2 탑승자 연령 occupant_age String Y [20대, 30대, 40대, 50대, 60대_이상]
      3–3 탑승자 성별 occupant_sex String Y [M, F]
      3–4 탑승자 위치 occupant_position String N [front, back]
      4 학습용 데이터 클립정보 scene Object   -
        4–1 학습용 데이터 메타정보 data Array    
        4–1–1 이미지 고유 이름 img_name String Y  
      4–1–2 제스처 의미 gesture String Y [손바닥보이기, 소지펴기, 주먹바닥보이기, 엄지왼쪽, 엄지오른쪽, 검지흔들기, 엄지위, 엄지아래, 피스포즈, 검지중지펴기, 손바닥좁혔다펴기, 손바닥좁히기, 엄지소지펴기, 반짝반짝흔들기, 엄지검지펴기, 검지손바닥보이기, 손등보이기, 검지손등보이기, 오케이]
      4–1–3 제스처 키포인트 정보 gesture_keypoint Array Y max_length : 21
        4–1–3–1 키포인트 X좌표 정보 x Number Y  
      4–1–3–2 키포인트 Y좌표 정보 y Number Y  
      4–2   utterance_info Object    
        4–2–1 전사 내용 content String Y [시작, 제스처, 입력, 소리, 음악, 정지, 멈춰, 재생, 플레이, 이전곡으로, 이전, 다음곡으로, 다음, 랜덤플레이, 랜덤, 소리키워줘, 키워줘, 업, 소리줄여줘, 줄여줘, 다운, 자율주행, 반자동, 속도설정, 설정, 속도올려줘, 속도업, 속도줄여줘, 속도다운, 차간거리벌려줘, 멀리, 멀게, 차간거리좁혀줘, 좁게, 좁혀줘, 자율주행종료, 종료, 수동운전, 차량제어, 차량, 제어, 창문열어줘, 창문열어, 창문닫아줘, 창문닫아, 비상등켜줘, 비상등, 비상등꺼줘, 트렁크열어줘, 트렁크열어, 트렁크닫아줘, 트렁크닫아, 문잠궈줘, 문잠궈, 문열어줘, 문열어, 네비게이션, 네비, 지도, 지도확대해줘, 지도확대, 확대, 지도축소해줘, 지도축소, 축소, 경로검색해줘, 경로검색, 경로, 경로취소해줘, 경로취소, 취소, 경로재검색해줘, 경로재검색, 재검색, 안내음성작게해줘, 음성작게, 작게, 안내음성크게해줘, 음성크게, 크게, 안내음성꺼줘, 음성꺼줘, 꺼줘, 블랙박스, 블박, 음성녹음시작해줘, 음성녹음시작, 음성녹음중지해줘, 음성녹음중지, 중지, 최근영상저장해줘, 영상저장, 저장]
        4–2–2 음성파일명 wav_name String Y  

    4. 실제 예시

    4. 실제 예시
    운전자 및 탑승자 상태 및 이상행동 모니터링을 위한 센서 데이터 차량 내 인터페이스 개선을 위한 멀티 모달 센서 데이터
    차량 내 인터페이스 개선을 위한 멀티모달 데이터-실제 예시_1_운전자 및 탑승자 상태 및 이상행동 모니터링을 위한 센서 데이터 차량 내 인터페이스 개선을 위한 멀티모달 데이터-실제 예시_2_차량 내 인터페이스 개선을 위한 멀티 모달 센서 데이터
  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜티디엘
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    김유신 062-971-2684 [email protected] · 사업총괄 및 사업관리 · 1세부 책임 · 데이터 가공 · 1·2차 검수 · 데이터 품질 관리
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    ㈜웨이브에이아이 · 데이터 수집 및 전처리
    · 데이터 정제 및 가공
    ㈜블루인테리전스 · 데이터 수집 및 전처리
    · 데이터 정제 및 가공
    ㈜지엔아이씨티 · 저작도구 개발
    · AI 학습모델 개발
    · 데이터 가공
    · 1차 검수
    ㈜광주인공지능센터 · 2세부 책임
    · 저작도구 개발
    · AI 학습모델 개발
    · 데이터 정제 및 가공
    · 1차 검수
    ㈜파파모빌리티 · 데이터 수집 및 전처리
    · 데이터 정제 및 가공
    · IRB 승인
    · 데이터 정제 및 가공
    · 1차 검수
    ㈜디투리소스 · 데이터 가공
    · 1차 검수
    · 데이터 품질 관리
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    정성효 062-223-1335 [email protected]
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.