콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#일상생활 # 라이프로그 # 데이터 구축 # AI # VR/AR 기반기술 # 한국인 # 생애주기

일상생활 영상 데이터

일상생활 영상 데이터
  • 분야영상이미지
  • 유형 비디오
구축년도 : 2021 갱신년월 : 2023-05 조회수 : 16,285 다운로드 : 709 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.3 2023-05-26 메타데이터 추가 개방
    1.2 2022-11-04 원천데이터 수정 카테고리 비교군 파일 추가
    1.1 2022-09-22 원천데이터 수정
    1.0 2022-07-28 데이터 최초 개방

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2022-10-18 데이터셋 담당자 정보 변경
    2022-10-13 신규 샘플데이터 개방
    2022-07-28 콘텐츠 최초 등록

    소개

    ‘한국인 생애주기 일상생활 영상 데이터’는 개인의 일상생활을 시간유형(필수, 여가, 의무) 및 인구통계학적 속성(성별, 연령 등)에 따라 100가지로 분류한 영상 데이터

    구축목적

    • 개인맞춤형 VR/AR/MR서비스 제공
    • 궁극적으로는 실효적인 생활 개선에 기여할 수 있는 AI학습용 데이터 구축
  • 1. 데이터 통계

    • 1.1 데이터 구축 규모
      • 영상(20,517건), 이미지(61,551건), 텍스트(20,517건)

    [표] 데이터 구축 규모

    1. 데이터 통계[표] 데이터 구축 규모
    데이터 종류 데이터 규모 데이터 크기 데이터 형태
    일상생활 행위 영상 20,517건(7,000시간) 55TB mp4
    주요 객체 이미지 61,551건(=20,517건X3객체) 184.7GB jpg
    일상생활 행위 텍스트 20,517건 120MB CSV
    학습용 데이터 20,517세트 20.5GB json

     

    • 1.2 데이터 분포
      • 한국인의 일상생활 행위는 ①통계청 생활시간조사의 177가지 행위 ②유사 선행연구를 활용한 행위체계 분석 ③전문가 자문 ④연령구간별 파일럿 조사 결과 등에 기반하여 확정
        – 일상생활 행위 건수는 실제 한국인이 많이 수행하는 것들 중심으로 자연적으로 편성
        – 지역, 성별, 연령, 시점 다양성[균형성] 지표는 달성

    [표] 행위별 분포표

    1.2 데이터 분포[표] 행위별 분포표
    N 행위 건수 N 행위 건수
    1 음식을 먹는다 124 54 아이와 산책을 하다 61
    2 음료를 마신다 132 55 아이에게 밥을 먹인다 77
    3 약을 먹는다 123 56 아이에게 옷을 입힌다 69
    4 담배를 핀다 31 57 장난감을 정리하다 262
    5 술을 마신다 118 58 책이나 서류를 정리하다 308
    6 얼굴을 씻는다 130 59 옷을 정리하다 274
    7 이를 닦는다 127 60 그릇을 정리하다 284
    8 면도를 하다 91 61 TV를 본다 214
    9 손을 씻는다 280 62 책(서류)를 본다 206
    10 발을 씻는다 265 63 신문을 본다 300
    11 손빨래를 하다 306 64 그림을 본다 290
    12 자동차를 닦는다(세차한다) 191 65 동물을 관찰하다 108
    13 식기를 닦는다 260 66 식물을 관찰하다 271
    14 거울을 닦는다 305 67 곤충을 관찰하다 157
    15 창문을 닦는다 299 68 전화통화를 하다 266
    16 승용차를 탄다 259 69 사람과 대화를 하다 255
    17 걷는다 132 70 노래를 부른다 284
    18 바닥을 기다 116 71 컴퓨터를 한다 274
    19 위아래로 점프하다 114 72 휴대폰을 조작한다 287
    20 달리다  110 73 노트북을 조작한다 299
    21 물건 등을 던지다 140 74 태블릿pc를 조작하다 273
    22 (움직이는)물체 등을 받다 117 75 게임기를 조작하다 234
    23 화장하다 113 76 세탁을 하다 264
    24 눈화장을 하다 103 77 청소를 하다 308
    25 립스틱을 바르다 113 78 다림질 하다 259
    26 마사지하다(머리 또는 얼굴) 151 79 바느질 하다 356
    27 팩하다 127 80 운전하다 121
    28 머리를 손질하다 147 81 피아노를 친다 240
    29 머리를 말리다 135 82 기타를 친다 210
    30 머리를 자르다 75 83 바이올린을 켜다 161
    31 매니큐어를 바른다 280 84 드럼을 치다 132
    32 옷을 입는다 253 85 반려동물 목욕을 시킨다 80
    33 모자를 쓴다 152 86 반려동물에게 밥을 준다 142
    34 장신구를 착용하다 149 87 반려동물 미용하다 65
    35 신발을 신는다 284 88 반려동물과 논다 153
    36 재활용 쓰레기를 분리한다 291 89 반려동물과 산책하다 75
    37 의류를 버린다 102 90 식물에 물을 준다 274
    38 쓰레기를 버린다 308 91 줄넘기를 한다 239
    39 재료를 씻는다 296 92 훌라후프를 하다 221
    40 재료를 자른다 306 93 푸쉬업을 하다 88
    41 조리한다 289 94 스쿼트를 하다 125
    42 빵(쿠키)를 굽는다 240 95 복싱하다 137
    43 반죽하다 306 96 공놀이를 하다 332
    44 반죽을 위로 던지다 243 97 테니스를 하다 118
    45 식탁에 상을 차린다 252 98 요가를 하다 118
    46 그림을 그린다 254 99 춤을 춘다 103
    47 글씨를 쓴다 258 100 풍선을 불다 129
    48 배달음식을 전해받는다 125 101 촛불을끄다 310
    49 카드게임을 하다 319 102 피규어(프라모델)을 조립하다 238
    50 택배를 전해받는다 210 103 액세서리를 만든다 250
    51 아이와 논다 79 104 망치질하다 239
    52 아이를 씻긴다 63 105 뜨개질을 하다 186
    53 아이의 머리를 묶는다 79  
    • 1.3 기타 정보
      • 동영상 수집 시 ①행위 적합성 ②주요 객체 포함 여부 ③메타정보 기입 여부 ④개인정보보호 동의를 받지 않은 제3자 등 정제가 필요한 항목 확인 ⑤일상생활 로그 기록 점검을 중점 검토하여 산출물 도출
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    1. 활용 모형 및 출처, 구현 원리

    • 본 과업에서는 행동영상분류 인공지능 모델로 R(2+1)D 모델을 사용함
    • 영상은 시간과 이미지로 총 3차원 데이터로 기존에는 3차원 Matrix를 이용한 3D CNN을 사용하여 영상 분류를 진행 
    • 2018 cvpr은 [1] ‘A Closer Look at Spatio temporal Convolutions for Action Recognition’ 에서 3D CNN을 각 공간(Spatial) 2D와 시간(Temporal) 1D 로 나눈 R(2+1)D 모델을 소개
    • 다음 그림은 기존에 사용한 3D CNN과 (2+1)D 의 차이를 보여줌

    일상생활 영상 데이터-활용 모형 및 출처, 구현 원리_1_R3D (a, d) 와 R(2+1)D (b, e) 모델의 차이점

    [그림] R3D (a, d) 와 R(2+1)D (b, e) 모델의 차이점

    • 다음 그림은 논문[1]에서 발췌한 것으로 R(2+1)D 모델의 성능이 가장 높은 것을 확인
      – Kinetics dataset 기준으로 각 데이터를 학습했을 때의 정확도를 숫자로 나타낸 것임
      – R(2+1)D 모델이 다른 모델에 비해서 가장 높은 수치를 보이는 것을 확인할 수 있음

    일상생활 영상 데이터-활용 모형 및 출처, 구현 원리_2_행동인식모델 성능 비교
    출처: Tran, D., Wang, H., Torresani, L., Ray, J., Lecun, Y., & Paluri, M. (2018)
    [그림] 행동인식모델 성능 비교

    • 학습된 모델에 이미지를 입력하면 네트워크를 거쳐 각 행위별 일치도가 결과로 출력이 됨
    • 일치도가 높은 상위 k개의 행위 중 실제 행위와 일치할 정확도를 계산한 것이 Top k Accuracy임
      예) [행위1: 14.33%, 행위2: 11.22%, 행위3: 40.33% ... ]
       

    2. 일상생활 영상 데이터 접목 이유

    • [2] ‘Late Temporal Modeling in 3D CNN Architectures with BERT for Action Recognition’문헌은 행동분류 인공지능 모델의 SOTA로 R(2+1)D 모델을 소개한 바 있음
    • 기 문헌은 UCF101 데이터셋을 활용하여 약 98%의 정확성을 달성
    • UCF101이 일상생활 영상데이터와 가장 유사한 데이터 셋임을 고려할 때 위 모형의 접목이 가장 적합할 것이라고 기대함

    일상생활 영상 데이터-일상생활 영상 데이터 접목 이유_1_모델 적합 결과
    출처: Kalfaoglu, M. E., Kalkan, S., & Alatan, A. A. (2020).
    [그림] 모델 적합 결과

  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 1인칭 행동 분류 Estimation R(2+1D) 34 layer 모델 AccuracyTop-1 85 % 85.51 %
    2 1인칭 행동 분류 Estimation R(2+1D) 34 layer 모델 AccuracyTop-3 90 % 95.36 %
    3 3인칭 행동 분류 Estimation R(2+1D) 34 layer 모델 AccuracyTop-1 85 % 85.99 %
    4 3인칭 행동 분류 Estimation R(2+1D) 34 layer 모델 AccuracyTop-3 90 % 93.74 %

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    1. 데이터 포맷

    1. 데이터 포맷
    N 통계 정보 라벨
    항목명 타입 필수여부 비고
    1 성별 분포 video.meta.gender String Y 남자 : male
    여자 : female
    2 연령 분포 video.meta.age String Y age1: 10~19세
    age2: 20~39세
    age3: 40~65세
    age4: 65세 이상
    3 지역 분포 video.meta.region String Y 서울, 부산, 대구, 인천, 광주, 대전, 울산, 세종, 경기, 강원, 충북, 충남, 전북, 전남, 경북, 경남, 제주
    4 촬영 시점 분포 video.meta.viewpoint Number Y 1인칭 : v1
    3인칭 : v3
    5 행동 분포 video.meta.category_id String Y 1, ..., 112
    video.meta.viewpoint Number Y 1인칭 : v1
    3인칭 : v3
    6 하이라이트  timeline.start Number Y 하이라이트 구간 시작 시간
    구간 분포 timeline.end  Number Y 하이라이트 구간 종료 시간

     

    2. 데이터 구성

    • 인구통계학적 속성(성별, 연령, 지역)
    • 촬영 시점(1인칭, 3인칭)
    • 행동 분포(105가지 행위)
    • 하이라이트 구간 분포(시작, 끝)

    [표] 일상생활 영상 데이터셋 구성

    2. 데이터 구성[표] 일상생활 영상 데이터셋 구성
    촬영시점 행동분류 연령 성별 비디오ID
    viewpoint_1 Category001 age1 female 1
    viewpoint_2 Category002 age2 male 2
    - ... age3 - ...
    - Category122 age4 - 20517

     

    일상생활 영상 데이터-데이터 구성_1_일상생활 영상 데이터셋 구조도
    [그림] 일상생활 영상 데이터셋 구조도

     

    3. 어노테이션 포맷

    3. 어노테이션 포맷
    구분 항목명 타입 필수여부 설명 범위
    1 info Object   데이터셋정보  
      1-1 info.description String Y 데이터셋상세설명  
    1-2 info.year Number Y 데이터셋 구축년도 2021
    1-3 info.video_resolution String Y 데이터 해상도 정보 Full HD
    1-4 info.camera_info String Y 데이터 촬영장비 정보 gopro
    2 categories Object   데이터 카테고리  
      2-1 categories[].id Number Y 카테고리 식별자 [1~112]
    2-2 categories[].name String Y 카테고리명  
    3 images Object   데이터 카테고리  
      3-1 images[].id String Y 이미지 식별자  
    3-2 images[].file_name String Y 이미지 파일명  
    3-3 width Number Y 이미지 넓이 1920
    3-4 height Number Y 이미지 높이 1080
    4 video.meta Object   데이터 메타정보  
      4-1 video.meta.video_id Number Y 비디오 식별자 [1~21000]
    4-2 video.meta.category_id Number Y 행동분류 식별자 [1~112]
    4-3 video.meta.actor_id Number Y 촬영자 식별자 [1~200]
    4-4 video.meta.viewpoint Number Y 촬영 시점 [1, 3]
    4-5 video.meta.gender String Y 촬영자 성별 [male, female]
    4-6 video.meta.height Number Y 촬영자 신장  
    4-7 video.meta.age String Y 촬영자 연령대 [age1, age2, age3, age4]
    4-8 video.meta.family_number Number Y 촬영자 동거인 수  
    4-9 video.meta.job String Y 촬영자 직업  
    4-10 video.meta.region String Y 촬영 지역  
    4-11 video.meta.place String Y 촬영 장소  
    4-12 video.meta. interact_person String Y 등장인물 상호작용 여부 [alone, partner]
    4-13 video.meta.interact_ICT String Y ICT 기기 활용 여부 [use, unuse]
    4-14 video.meta.explan String Y 영상설명  
    4-15 video.meta.video_date String Y 촬영일 YYYY-MM-DD
    4-16 video.meta.video_time String Y 촬영시 MM:SS
    4-17 video.meta.video_length Number Y 비디오 총시간  
    5 timeline Object   하이라이트 구간  
      5-1 timeline.id Number Y 하이라이트 구간 식별자 1
    5-2 timeline.start Number Y 하이라이트 구간 시작시간  
    5-3 timeline.end  Number Y 하이라이트 구간 종료 시간  
    6 annotation Object   라벨링정보  
      6-1 annotation[].id Number Y 라벨링식별자 [1~3]
    6-2 annotation[].image_id String Y 연관이미지식별자  
    6-3 annotation[].bbox Number Y 바운딩 박스 좌표 (x1, y1), (x2, y2), (x3, y3), (x4, y4)
    6-4 annotation[].obj_name String Y 라벨링텍스트  

     

    4. 실제 예시
     

    일상생활 영상 데이터-실제 예시_1
    일상생활 영상 데이터-실제 예시_2
    일상생활 영상 데이터-실제 예시_3

  • 데이터셋 구축 담당자

    수행기관(주관) : 메트릭스
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    채미현 02-6244-0768 [email protected] · 주관 · 수집/정제
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    ㈜더바이럴 · 수집/정제
    ㈜딥네츄럴 · 가공
    울산과학기술원 · 모델링
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    채미현 02-6244-0768 [email protected]
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.