-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2021-06-25 데이터 최초 개방 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2022-10-12 신규 샘플데이터 개방 소개
(대전시 유성구)국내 환경에 맞는 다양한 VQA 기반 AI서비스 개발을 위한 생활 및 거주환경 VQA AI데이터
구축목적
어린이, 노인, 개인의 일상생활을 촬영한 이미지에 대하여 시각정보에 대한 객관적인 상황이나 추론 가능한 질문에 대해 스스로 답변이 가능한 인공지능을 훈련하기 위한 데이터 셋
-
메타데이터 구조표 데이터 영역 한국어 데이터 유형 텍스트 , 이미지 데이터 형식 데이터 출처 라벨링 유형 라벨링 형식 데이터 활용 서비스 데이터 구축년도/
데이터 구축량2020년/719만 -
구축 내용 및 제공 데이터량
- 일상생활 속 이미지 1,063,340장(일반 촬영 961,068장 / 3D 공간 스캔 기반 추출 이미지 102,272장)
- 이미지별 질의응답 텍스트 총 7,119,756건(이미지당 평균 7건)
구축 내용 및 제공 데이터량 표 어린이 생활 거주환경 개인 생활환경 노인 생활 거주환경 실내 가전 및 가구배치 슈퍼헤더 수집이미지 슈퍼헤더 수집이미지 슈퍼헤더 수집이미지 슈퍼헤더 수집이미지 3D이미지 슈퍼헤더별
수량번화가 8,902 번화가 11,272 번화가 23,936 사무공간 693 16,141 골목 11,912 골목 26,993 골목 15,437 개인공간 8,876 차량 16,946 차량 19,127 차량 20,657 휴게공간 7,663 야외 16,977 야외 43,868 야외 23,002 가전 9,741 가전(가구) 7,591 가전(가구) 7,817 가전(가구) 16,918 가구 34,822 공공장소 42,997 공공장소 34,169 공공장소 31,994 공공장소 8,475 여가공간 7,995 여가공간 7,507 여가공간 7,541 여가공간 23,967 음식 6,893 음식 8,253 음식 7,518 음식 7,501 실내 43,576 실내 22,503 실내 23,825 실내 913 44,131 생활 39,922 생활 20,931 생활 21,271 생활 45,635 물건 15,864 물건 23,693 물건 21,506 물건 1,622 42,000 매장 38,258 매장 33,897 매장 37,134 매장 42,558 합계 257,833 합계 260,030 합계 250,739 합계 192,466 102,272
-
-
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 질의응답 (YSE/NO 유형) Question Answering BERT + ResNet50 EM 51.13 % 54.69 % 2 질의응답 (Number 유형) Question Answering BERT + ResNet50 EM 28.26 % 54.01 % 3 질의응답 (Other 유형) Question Answering BERT + ResNet50 EM 37.69 % 50.11 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2021.06.25 데이터 최초 개방 구축 목적
- 어린이, 노인, 개인의 일상생활을 촬영한 이미지에 대하여 시각정보에 대한 객관적인 상황이나 추론 가능한 질문에 대해 스스로 답변이 가능한 인공지능을 훈련하기 위한 데이터 셋
활용 분야
- 시각 정보에 대한 인공지능 자유 묘사, 이미지를 통한 상황 유추 등이 가능한 한국형 AI 시각지능 모델 개발
소개
- 한국인의 실생활 속에서 다양한 이미지를 촬영하고, 연관된 질의응답 데이터를 생성하여 인공지능이 생활환경 속 물체나 위험요소 등에 대하여 답변할 수 있도록 훈련할 수 있는 데이터셋. 이미지에 대한 비식별화 및 정제 처리 후 가공, 검증을 진행하여 촬영된 사진에서 개인정보 침해 문제를 해결하고 가공을 수행하였음
< 데이터 유효성 검증 및 피드백 >
구축 내용 및 제공 데이터량
- 일상생활 속 이미지 1,063,340장(일반 촬영 961,068장 / 3D 공간 스캔 기반 추출 이미지 102,272장)
- 이미지별 질의응답 텍스트 총 7,119,756건(이미지당 평균 7건)
구축 내용 및 제공 데이터량 표 어린이 생활 거주환경 개인 생활환경 노인 생활 거주환경 실내 가전 및 가구배치 슈퍼헤더 수집이미지 슈퍼헤더 수집이미지 슈퍼헤더 수집이미지 슈퍼헤더 수집이미지 3D이미지 슈퍼헤더별
수량번화가 8,902 번화가 11,272 번화가 23,936 사무공간 693 16,141 골목 11,912 골목 26,993 골목 15,437 개인공간 8,876 차량 16,946 차량 19,127 차량 20,657 휴게공간 7,663 야외 16,977 야외 43,868 야외 23,002 가전 9,741 가전(가구) 7,591 가전(가구) 7,817 가전(가구) 16,918 가구 34,822 공공장소 42,997 공공장소 34,169 공공장소 31,994 공공장소 8,475 여가공간 7,995 여가공간 7,507 여가공간 7,541 여가공간 23,967 음식 6,893 음식 8,253 음식 7,518 음식 7,501 실내 43,576 실내 22,503 실내 23,825 실내 913 44,131 생활 39,922 생활 20,931 생활 21,271 생활 45,635 물건 15,864 물건 23,693 물건 21,506 물건 1,622 42,000 매장 38,258 매장 33,897 매장 37,134 매장 42,558 합계 257,833 합계 260,030 합계 250,739 합계 192,466 102,272
대표도면
필요성
- 해외에서 활발하게 연구되고 있는 영어 기반의 시각정보 질의응답 데이터와 달리 한국형 데이터는 학습용 데이터가 거의 전무한 상황
- 해외에서는 영어를 기반으로 시각정보 질의응답 데이터를 공개하고 매년 모델링 대회를 개최하고 있음. 영어로 된 데이터를 활용한 세계 대회에서 국내 기업이 선두를 달리고 있는 상황에도 한국형 질의응답 학습용 데이터는 거의 전무한 상황임
- 기존 20년도 사업에서 시각정보 질의응답 데이터셋을 구축한 바가 있으나, 대부분의 원천 데이터를 해외 공개이미지로 사용하였기에 국내 환경에 맞지 않는 요소가 있었음
- 이에 한국적인 사물과 상황을 이해하여 질문과 답변을 제시하며 새로운 가치를 창출할 수 있는 시각정보 질의응답 AI 기술개발을 위하여 검증된 학습용 데이터를 구축하고자 함
데이터 구조
- 1. 데이터 구성
데이터 구성 분류 세분류 데이터 타입 한글설명 info object year int 연도 version str 버전 description str 상세설명 contributor str 기여자 url str 주소 date_created datetime 생성일자 data_type str 이미지 소스 data_subtype str 데이터 하위 유형 images object 이미지 정보 image_id int 이미지 식별키 image string 슈퍼 헤더 카테고리 category string 이미지 식별키 weather string 날씨 - 2. 어노테이션 포맷
어노테이션 포맷 분류 세분류 데이터 타입 한글설명 question object 질의응답 정보 question_id int 질문 식별키 image_id int 이미지 식별키 description str 상세설명 question string 질문 텍스트 answer string 답변 텍스트 answer_type string 답변 판별 -
데이터셋 구축 담당자
수행기관(주관) : 유클리드소프트
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 나현우 042-488-6589 [email protected] · 데이터구축 총괄 · 원천데이터 수집, 정제 · 질의응답 생성, 가공 · AI VQA 모델개발 수행기관(참여) 수행기관(참여)
수행기관(참여) 기관명 담당업무 심스리얼리티 · 3D 공간 스캔 및 이미지 추출
· 3D 기반 실내 가전 및 가구 가상 배치 서비스 개발공주대학교 · 결과물 검수 및 검증 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 나현우(유클리드소프트) 042-488-6589 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.