-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2022-12-06 원천데이터, 라벨링데이터 수정 1.0 2022-07-14 데이터 최초 개방 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2022-10-13 신규 샘플데이터 개방 2022-07-14 콘텐츠 최초 등록 소개
– 한국인 가상인물 이미지(1만여장), 가상인물 육안 관찰 인물 스케치(1만여장), 설명문 기반 몽타주 스케치(3만여장) 등 한국인 몽타주 데이터셋(8만여장) 구축·개방
구축목적
– 한국인의 안면 특성이 드러나 있는 한국인 중심의 몽타주 데이터 구축을 통하여 안면 인식, 안면 추정, 가상 얼굴 생성, 범죄자 검거, 실종자 찾기 등 전반적인 얼굴 인식 및 재구축 기술 개발에 활용되기 위함
-
메타데이터 구조표 데이터 영역 영상이미지 데이터 유형 이미지 데이터 형식 jpg 데이터 출처 자체 수집 라벨링 유형 바운딩박스(이미지), 텍스트(자연어) 라벨링 형식 json 데이터 활용 서비스 몽타주 기반 유사인물 검색서비스 데이터 구축년도/
데이터 구축량2021년/몽타주이미지 : 10,088 -
몽타주이미지
1. 데이터 구축 규모
2. 데이터 분포
-
-
해당 영상은 '페르소나 기반의 가상 인물 몽타주 데이터'를 활용하여 말하는대로 범인의 몽타주를 그려주는 AI를 개발해보는 영상입니다.
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드페르소나 기반의 가상 인물 몽타주
- 예제 코드
- 몽타주 기반 신원인식 모델 활용 방안 (데이터 준비 및 전처리)
- 가상인물 이미지 – 인물스케치 쌍으로 이루어진 데이터 준비
- 가상인물 이미지와 인물스케치 각각에 대해 원본 이미지 크기 540x720에 대해 폭 540픽셀이 200픽셀이 되도록 크기 조절
- 크기 조절 후 각 이미지에 대해 가운데 112x112영역에 대해 center crop 진행
- 예제 코드
- 데이터 학습 방법
- 가상인물 이미지 – 인물스케치 쌍으로 이루어진 데이터에 대해 동일 인물로 모델 학습
- 가상인물마다 신원 ID 와 가상인물 이미지, 인물스케치로 이루어진 pair를 생성하는 dataset 구축
- 동일 인물의 가상인물 이미지와 인물스케치 데이터 tensor들을 concatenate하고 각각 해당하는 신원 ID를 label로 부여한 후 동일 batch 내에서 학습
- 학습 조건:
√ 20 epoch
√ 96 batch
√ SGD optimizer
√ Cross entropy loss - 예제 코드
- 모델 학습 결과 확인 방법
- 가상인물 이미지 – 인물스케치 쌍으로 이루어진 데이터에 대해 동일 인물로 모델 학습
- 신원 인식 모델 학습 알고리즘과 테스트 이미지 파일이 포함된 도커이미지를 활용하여 데이터 학습 및 테스트 진행 (CUDA 11 version 필요)
- 도커 파일 로드
- 도커 실행 및 신원 인식 모델 테스트
- 몽타주 기반 신원인식 모델 유효성 검증
- 구축되는 가상인물 몽타주 데이터의 유효성을 검증하기 위하여 신원 인식 정확도를 활용할 수 있다. 개발된 신원 인식 알고리즘을 통해 본 데이터셋을 검증하도록 할 수 있으며, 성능 지표로 Rank 5 accuracy를 활용할 수 있다.
- Rank 5 accuracy 측정 산식
- 모델 유효성 검증 결과
- 신원인식 정확도 Rank 5 accuracy: 81.9%
- 결과 로그
- 본 사업에서 진행한 유효성 평가의 시험 환경 구성 및 상세정보는 아래와 같음
- 예제 코드
-
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 신원 인식 정확도 Face Recognition ArcFace AccuracyTop-5 70 % 81.9 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드몽타주이미지
1. 데이터 포맷
2. 어노테이션 포맷
2. 어노테이션 포맷 구분 항목명 타입 필수여부 설명 범위 비고 1 info Object 가상인물 이미지 1-1 info[].org_id int Y 가상인물 ID 1-2 info[].org_img_name String Y 이미지명 1-3 info[].org_path String Y 경로 1-4 info[].org_img_size int Y 사이즈 1-5 info[].org_img_pix String Y 해상도 1-6 info[].age int Y 나이 1-7 info[].gender String Y 성별 1-8 info[].job String 직업 1-9 info[].level int Y 수준 1:하,단순
2:중,중간
3:상,상세2 description Object 설명문 2-1 description[].org_id int Y 가상인물 ID 2-2 description[].face Object 얼굴 2-2-1 face[].type String Y 유형 2-2-2 face[].size String Y 크기 2-2-3 face[].foreheadType String Y 이마유형 2-2-4 face[].foreheadSize String 이마크기 2-2-5 face[].chinType String 턱유형 2-2-6 face[].chinSize String 턱크기 2-2-7 face[].cheek String 볼 2-2-8 face[].description String Y 얼굴 서술 2-3 hairstyle Object 헤어 2-3-1 hairstyle[].type String Y 유형 2-3-2 hairstyle[].topLength String Y 앞머리길이 2-3-3 hairstyle[].sizeLength String Y 옆머리길이 2-3-4 hairstyle[].part String 가르마 2-3-5 hairstyle[].description String Y 헤어 서술 2-4 eyebrows Object 눈썹 2-4-1 eyebrows[].type String Y 유형 2-4-2 eyebrows[].deep String Y 짙음 정도 2-4-3 eyebrows[].length String 길이 2-4-4 eyebrows[].thick String 두께 2-4-5 eyebrows[].glabella String 미간넓이 2-4-6 eyebrows[].description String Y 눈썹 서술 2-5 eyes Object 눈 2-5-1 eyes[].size String Y 크기 2-5-2 eyes[].type String Y 유형 2-5-3 eyes[].distance String 눈 사이거리 2-5-4 eyes[].slant String 눈꼬리 2-5-5 eyes[].shape String 모양 2-5-6 eyes[].eyelids String 눈썹사이거리(눈두덩) 2-5-7 eyes[].bottom String 눈 밑(애교살) 2-5-8 eyes[].description String Y 눈 서술 2-6 nose Object 코 2-6-1 nose[].size String Y 크기 2-6-2 nose[].length String Y 길이 2-6-3 nose[].height String 콧대 2-6-4 nose[].top String 코끝모양(콧망울) 2-6-5 nose[].nostrils String 콧볼넓이(콧날개) 2-6-6 nose[].philtrum String 코밑길이(인중길이) 2-6-7 nose[].description String Y 코 서술 2-7 mouth Object 입 2-7-1 mouth[].type String Y 유형 2-7-2 mouth[].size String Y 크기 2-7-3 mouth[].shape String 입술모양 2-7-4 mouth[].thick String 입술두께 2-7-5 mouth[].ratio String 입술비율 2-7-6 mouth[].side String 입꼬리 2-7-7 mouth[].line String 인중선 2-7-8 mouth[].description String Y 입 서술 2-8 neck Object 목 2-8-1 neck[].description String Y 목서술 2-9 wrinkle Object 주름 2-9-1 wrinkle[].forehead String 이마주름 2-9-2 wrinkle[].glabella String 미간주름 2-9-3 wrinkle[].eyes String 눈주름 2-9-4 wrinkle[].mouth String 팔자주름 2-9-5 wrinkle[].cheek String 광대주름 2-9-6 wrinkle[].lib String 입술주름 2-9-7 wrinkle[].neck String 목주름 2-9-8 wrinkle[].description String Y 주름 서술 2-10 feature Object 특징 2-10-1 feature[].mustache String Y 수염(턱수염, 콧수염) 2-10-2 feature[].sideburns String Y 구렛나룻 2-10-3 feature[].dimple String 보조개 2-10-4 feature[].scar String 흉터 2-10-5 feature[].mole String 점 2-10-6 feature[].frekles String 주근깨 2-10-7 feature[].spots String 잡티 2-10-8 feature[].tatoo String 문신 2-10-9 feature[].makeup String 화장 2-10-10 feature[].description String 특징서술 2-11 impression Object 인상 2-11-1 impression[].type String 인상 분류 2-11-2 impression[].description String 인상서술 3 sketch_info Object 몽타주 스케치 정보 3-1 sketch_info[].org_id int Y 가상인물 ID 3-2 sketch_info[].sketch_id int Y 스케치 ID 3-3 sketch_info[].img_name String Y 몽타주스케치이미지명 3-4 sketch_info[].img_path String Y 이미지 경로 3-5 sketch_info[].img_size int Y 사이즈 3-6 sketch_info[].img_pix String Y 해상도 4 org_sketch Object 인물 스케치 4-1 org_sketch[].org_id int Y 가상인물 ID 4-2 org_sketch[].org_sketch_id int Y 인물 스케치ID 4-3 org_sketch[].img_name String Y 인물 스케치 명 4-4 org_sketch[].img_path String Y 이미지 경로 4-5 org_sketch[].img_size int Y 사이즈 4-6 org_sketch[].img_pix String Y 해상도 -
데이터셋 구축 담당자
수행기관(주관) : 한국디자인진흥원
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 장성욱 031-780-2264 [email protected] · 데이터 구축 총괄 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜스위트케이 · 추상이미지데이터 가공 툴 제공
· 몽타주데이터 가공 및 검증㈜휴먼아이씨티 · 몽타주데이터 설계, 수집 및 정제 한국과학기술연구원 · 몽타주데이터 AI 모델 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 장성욱 031-780-2264 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.