차량 외관 영상 데이터
- 분야교통물류
- 유형 이미지
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2022-07-28 데이터 최초 개방 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2023-03-02 AI모델 소스코드 수정 2022-11-29 데이터설명서 및 라벨링데이터 항목 수정 2022-10-21 신규 샘플데이터 개방 2022-07-28 콘텐츠 최초 등록 소개
차량 외관(차종, 연식, 색상, 트림)과 14개 파트(프론트범퍼, 리어범퍼, 타이어, A필러, C필러, 사이드미러, 앞도어, 뒷도어, 라디에이터그릴, 헤드램프, 리어램프, 보닛, 트렁크, 루프)를 식별할 수 있는 AI 학습용 데이터셋.
구축목적
교통관제, 차량 동선 분석, 도난 차량 및 범죄 차량 식별 등에 활용 가능한 차량 외관 데이터 구축
-
메타데이터 구조표 데이터 영역 교통물류 데이터 유형 이미지 데이터 형식 JPG 데이터 출처 직접 촬영 라벨링 유형 바운딩박스(이미지) 라벨링 형식 JSON 데이터 활용 서비스 차량 동시 분석 트랙킹 시스템 활용/ 차량 외관 파손 모니터링 시스템 활용/ 차량의 차종, 컬러, 차량 외관의 파손 여부를 범죄 사용 차량 파악/ 자율주행 차량 인식 데이터셋 활용 데이터 구축년도/
데이터 구축량2021년/322,664건 -
1. 데이터 구축 규모
- 차종 100종 3,099대 수집, 차량 외관 학습데이터 322,664장 구축
- 차량 외관 분류 2D Bounding Box 110,285장 구축
- 차량 외관 파트 인식 2D Bounding Box 213,569장 구축
2. 데이터 분포
- 구축 데이터 분포
1. 데이터 구축 규모 중분류 소분류ID 소분류 수집량(ea) 데이터셋 BMW 2 3시리즈 28 2,909 4 5시리즈 58 6,037 5 7시리즈 8 847 38 X3 7 733 39 X5 13 1,342 닛산 71 알티마 7 732 랜드로버 45 디스커버리 21 2,194 46 레인지로버 18 1,875 렉서스 16 ES 11 1,158 르노 81 캡처 1 104 90 클리오 12 1,261 미니 12 Countryman 6 613 89 클럽맨 5 507 벤츠 8 A-Class 5 524 9 C-Class 28 2,845 10 CLA-Class 7 734 11 CLS-Class 23 2,415 14 E-Class 87 8,707 21 GLA-Class 8 841 22 GLC-Class 22 2,305 23 GLE-Class 6 628 33 S-Class 38 3,985 볼보 1 S90 5 530 95 XC60 6 630 아우디 6 A4 8 808 7 A6 24 2,519 13 Q5 5 527 30 Q7 2 211 82 A7 3 302 지프 87 랭글러 4 344 토요타 80 캠리 4 423 100 프리우스 6 614 포드 76 익스플로러 42 4,440 폭스바겐 70 아테온 2 210 75 골프 10 963 78 파사트 2 211 96 티구안 22 2,259 혼다 3 CR-V 4 418 72 어코드 3 318 기아 26 K3 82 8,657 27 K5 87 9,186 28 K7 89 9,352 29 K9 56 5,913 43 니로 52 5,431 47 레이 80 8,314 51 모닝 97 10,097 52 모하비 33 3,484 56 봉고3 35 3,015 57 셀토스 29 3,047 59 스토닉 49 5,095 60 스팅어 60 6,274 62 스포티지 78 8,241 65 쏘렌토 90 9,497 66 쏘울 8 821 79 카니발 87 9,140 르노삼성 31 QM3 19 1,995 32 QM6 63 6,632 34 SM3 22 2,309 35 SM5 18 1,896 36 SM6 51 5,345 37 SM7 14 1,478 40 XM3 7 729 쉐보레 49 말리부 38 3,998 55 볼트EV 4 409 61 스파크 81 8,284 68 아베오 4 411 74 올란도 18 1,893 77 임팔라 7 741 88 크루즈 21 2,216 92 트래버스 6 635 93 트랙스 18 1,877 94 트레일블레이저 8 830 쌍용 17 G4렉스턴 38 4,002 48 렉스턴스포츠 41 4,221 84 코란도 15 1,567 85 코란도투리스모 10 1,043 86 코란도C 16 1,577 97 티볼리 75 7,905 제네시스 15 EQ900 33 3,486 18 G70 57 6,021 19 G80 86 9,032 20 G90 18 1,900 24 GV80 8 798 현대 25 i30 19 1,969 41 그랜저 86 9,065 42 넥쏘 2 204 50 맥스크루즈 13 1,349 53 베뉴 19 1,990 54 벨로스터 18 1,867 58 스타렉스 50 5,239 63 싼타페 81 8,536 64 쏘나타 88 9,270 67 아반떼 90 9,481 69 아이오닉 27 2,728 73 엑센트 22 2,320 83 코나 65 6,816 91 투싼 56 5,897 98 팰리세이드 35 3,660 99 포터2 39 3,408 한국지엠 44 다마스 10 1,048 합 계 3,099 322,664 - 대분류별 구축 수량
대분류별 구축 수량 구분 경차 소형차 중형차 대형차 합계 수집량 268 438 1,374 1,019 3,099 데이터셋 27,743 45,835 143,778 105,308 322,664 - 중분류별 구축 수량
중분류별 구축 수량 브랜드 BMW 기아 닛산 랜드로버 렉서스 르노 르노삼성 수집량 114 1012 7 39 11 13 194 데이터셋 11,868 105,564 732 4,069 1,158 1,365 20,384 브랜드 미니 벤츠 볼보 쉐보레 쌍용 아우디 제네시스 수집량 11 224 11 205 195 42 202 데이터셋 1,120 22,984 1,160 21,294 20,315 4,367 21,237 브랜드 지프 토요타 포드 폭스바겐 한국지엠 현대 혼다 수집량 4 10 42 36 10 710 7 데이터셋 344 1,037 4,440 3,643 1,048 73,799 736
-
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드AI모델 다운로드시 venv을 먼저 설치하고, venv-2.을 설치하시기 바랍니다.
1. 모델 학습
- 차량 종류 구분
- 학습모델 구조: 머신러닝의 전형적인 지도학습(supervised learning) 설정을 따름
- 입력: 1장의 차량 사진
- 출력: 해당 차종에 대한 label 정보
- 이미지 분류 모델 학습을 위해 다양한 딥러닝 알고리즘 적용 가능
- 컨벌루션 신경망(CNN) 기반: VGGNet, GoogLeNet, ResNet, EfficientNet, DenseNet 등
- 트랜스포머(Transformer) 기반: Vision Transformer (ViT), Data-efficient Image Transformer (DeiT), TransFG 등.
- 선택한 알고리즘에 데이터를 적용하여 모델 학습 :
데이터는 취득된 데이터를 다음과 같이 세 그룹으로 구분하여 활용하며, 데이터 구분 시 각 그룹에 포함된 차량 종류 비율이 모두 유사해야 함(stratified 요건)1. 모델 학습 학습(Training) 검증(Validation) 시험(Test) 개요 – 모델 성능 지표를 올리기 위해 입력한 사진과 이에 해당하는 정답 출력값으로 구성된 데이터를 반복적으로 학습하는 과정
– 일반적으로 데이터를 2의 제곱 단위로 조금씩 묶어서(mini batch, 단위는 4,8,16, 32, ...) 학습에 적용하며, 학습에 사용하는 계산 자원이 클수록 큰 단위를 적용
– 반복 학습을 통해 성능 개선
– 딥러닝 모델은 일반적으로 데이터가 많을수록 성능이 개선됨– 학습 도중 모델 성과 평가 및 비교
– 모델의 성과 지표는 알고리즘별로 설정된 학습 가이드 함수(loss function)과 실제 응용에서 고려할 평가 척도를 함께 살펴본다
– 모델의 학습이 더 필요한지(과소적합), 너무 학습을 많이 하였는지(과적합)를 성과 지표들을 통해 확인
– 일반적으로 과적합이 시작되는 시점 또는 성과 지표가 수렴하기 시작하는 시점의 모델을 선택– 학습 완료된 모델 성능 시험
– 학습에 사용하지 않은 별개 데이터 적용
– 검증 단계에서 확인한 모델의 성과 지표뿐만 아니라, 실제 응용 단계에서 고려할 다양한 특성을 만족하는지 확인필요
데이터– 취득 데이터의 80% – 취득 데이터의 10%
– 차량 종류의 비율이 학습 데이터와 유사해야 함– 취득 데이터 10%
– 차량 종류 비율이 학습 데이터와 유사해야 함
- 학습모델 구조: 머신러닝의 전형적인 지도학습(supervised learning) 설정을 따름
- 차량 외관 구성요소 탐지
- 학습모델 구조
- 입력 : 1장의 차량 사진 포함
- 출력 : 차량 전체 경계상자 1건과, 사전에 지정된 13개 외관 구성요소에 대한 가각의 경계상자
- 모델 학습을 위해 사물 탐지 알고리즘 적용 가능
- 사물 탐지(object detection) 알고리즘: Yolo 계열 알고리즘(Yolo v3, v5 등), SSD 계열 알로리즘, Faster R-CNN 계열 알고리즘, 트랜스포머 계열(DETR) 알고리즘 등 다양한 선택지 존재
- 선택한 알고리즘에 데이터 적용하여 모델 학습 :
데이터는 취득된 데이터를 다음과 같이 세 그룹으로 구분하여 활용하며, 데이터 구분 시 각 그룹에 포함된 차량 종류 비율이 모두 유사해야 함(stratified 요건)1. 모델 학습 학습(Training) 검증(Validation) 시험(Test) 개요 – 모델 성능 지표를 올리기 위해 입력한 사진과 이에 해당하는 정답 출력값으로 구성된 데이터를 반복적으로 학습하는 과정
– 일반적으로 데이터를 2의 제곱 단위로 조금씩 묶어서(mini batch, 단위는 4,8,16, 32, ...) 학습에 적용하며, 학습에 사용하는 계산 자원이 클수록 큰 단위를 적용
– 반복 학습을 통해 성능 개선
– 딥러닝 모델은 일6반적으로 데이터가 많을수록 성능이 개선됨– 학습 도중 모델 성과 평가 및 비교
– 모델의 성과 지표는 알고리즘별로 설정된 학습 가이드 함수(loss function)과 실제 응용에서 고려할 평가 척도를 함께 살펴본다
– 모델의 학습이 더 필요한지(과소적합), 너무 학습을 많이 하였는지(과적합)를 성과 지표들을 통해 확인
– 일반적으로 과적합이 시작되는 시점 또는 성과 지표가 수렴하기 시작하는 시점의 모델을 선택– 학습 완료된 모델 성능 시험
– 학습에 사용하지 않은 별개 데이터 적용
– 검증 단계에서 확인한 모델의 성과 지표뿐만 아니라, 실제 응용 단계에서 고려할 다양한 특성을 만족하는지 확인필요
데이터– 취득 데이터의 80% – 취득 데이터의 10%
– 차량 종류의 비율이 학습 데이터와 유사해야 함– 취득 데이터 10%
– 차량 종류 비율이 학습 데이터와 유사해야 함
- 학습모델 구조
2. 서비스 활용 시나리오
- 자율 주행 차량을 위한 전용 모델
- 도로 주행하는 승용차량 차종 구분을 위한 전용 프로그램에 활용
- 자율 주행 차량에 연계된 도로 위 사물 인식 시스템의 한 모듈로서 포함됨
- CCTV 연동 전용 모델
- 도로를 주행하는 승용차량 차종 구분을 위한 전용 프로그램에 활용
- 자동차 주행 도로에 설치된 CCTV와 연계된 도로 위 사물 인식 시스템의 한 모듈로서 포함된
- 자동차 견적 및 수리 App 구성 모듈
- 자동차 사용자가 직접 촬영한 자동차 사진에서 차종 및 외관 구성 요소를 구분해내고, 각 구성 요소별 이상 탐지를 하는 별도의 모듈과 연계하여 견적 또는 소리에 대한 정량적 지표 출력 가능
- 자동차 사용자가 직접 촬영한 자동차 사진에서 차종 및 외관 구성 요소를 구분해내고, 각 구성 요소별 이상 탐지를 하는 별도의 모듈과 연계하여 견적 또는 소리에 대한 정량적 지표 출력 가능
- 차량 종류 구분
-
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 차종 분류 Image Classification TransFG F1-Score 0.97 점 0.9908 점 2 바운딩박스 객체 인식(차량 파트) Object Detection YOLO v5 mAP 81 % 96.1 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드1. 데이터 소개
- 차량 외관(차종, 연식, 색상, 트림)과 14개 파트(프론트범퍼, 리어범퍼, 타이어, A필러, C필러, 사이드미러, 앞도어, 뒷도어, 라디에이터그릴, 헤드램프, 리어램프, 보닛, 트렁크, 루프)를 식별할 수 있는 AI 학습용 데이터셋. 차량 외관과 색상 그리고 번호판 인식만 가능했던 기존 데이터셋을 보완하여 다양한 차종과 트림, 색상, 파트 등 세세한 속성을 정의한 데이터
2. 대표도면
1. 데이터 소개 구분 원천데이터 라벨링데이터 유형 형식 jpg json - 원천데이터: 차량 외관 360도를 촬영한 원시데이터(mp4)에서 추출한 이미지(jpg) 데이터
- 라벨링데이터: 원천데이터(jpg)에 차량 외관 전체에 대한 Bounding Box 처리와 14개 파트에 대해 Bounding Box 처리한 데이터(json)
3. 라벨링 데이터 구성
3. 라벨링 데이터 구성 구분 항목명 타입 필수여부 설명 범위 비고 1 rawDataInfo Object 원시데이터 정보 1-1 rawDataID string Y 영상 파일명 [별첨 1-2] 1-2 copyrighter string Y 저작권자 “㈜미디어그룹사람과숲” 1-3 resolution string Y 해상도 “1920*1080” 1-4 date string Y 촬영일자 yyyy-mm-dd 1-5 StartTime string Y 촬영 시작시간 hh:mm:ss 1-6 EndTime string Y 촬영 종료시간 hh:mm:ss 1-7 length Integer Y 영상길이 초(sec) [0, 9999] 1-8 local string Y 촬영장소 “분당”, “시화”, “용인”, “강서”, “인천”, “부산” 1-9 season string Y 계절 [Spring, Summer, Autumn, Winter] 1-10 weather string Y 날씨 [Sunny, Cloudy, Rainy, Foggy, Snowy] 1-11 precip Integer Y 강수량 [0, 1000] 1-12 temp Integer Y 기온 [-30, 50] 1-13 fps Integer Y 초당프레임수 [1, 60] 1-14 fStop string Y 조리개 수치 [F/1 ~ F/32] 1-15 exposureTime string Y 노출시간 [1/30 ~1 0/600] 1-16 ISO Integer Y 감도 [100, 6400] 1-17 LargeCategoryId string Y 차종 별 구분 [별첨 2] 1-18 MediumCategoryId string Y 브랜드 별 구분 [별첨 2] 1-19 SmallCategoryId string Y 명칭별 별 구분 [별첨 2] 1-20 yearID Integer Y 5년 이내 연식 [별첨 2] 1-21 colorID string Y 차량 색상 [별첨 2] 1-22 trimID string Y 트림 별 종류 [별첨 2] 1-23 fileExtension string Y 동영상 확장자 “mp4” 2 sourceDataInfo Object 원천데이터 정보 2-1 sourceDataID string Y 이미지 파일명 [별첨 1-2] 2-2 fileExtension string Y 이미지 확장자 “jpg” 2-3 filename string N 파일명·확장자 3 learningDataInfo Object 학습데이터 정보 3-1 path string Y 이미지 폴더명 null 허용 3-2 LearningDataId string Y Json 파일명 [별첨 1-2] 3-3 fileExtension string Y 결과물 확장자 “json” 3-4 Objects object Y 어노테이션 오프젝트 3-4-1 classId string Y 파트이름 [별첨 2 코드정의서 class(파트)] 3-4-2 annotaion string Y 어노테이션 타입 bbox 3-4-3 coords object Y bbox 값 3-4-3-1 tl object Y bbox 값(좌측상단) 3-4-3-1-1 x float Y x좌표값 [0, 1920] 3-4-3-1-2 y float Y y좌표값 [0, 1080] 3-4-3-2 tr object Y bbox 값(우측상단) 3-4-3-2-1 x float Y x좌표값 [0, 1920] 3-4-3-2-2 y float Y y좌표값 [0, 1080] 3-4-3-3 br object Y bbox 값(좌측하단) 3-4-3-3-1 x float Y x좌표값 [0, 1920] 3-4-3-3-2 y float Y y좌표값 [0, 1080] 3-4-3-4 bl object Y bbox 값(우측하단) 3-4-3-4-1 x float Y x좌표값 [0, 1920] 3-4-3-4-2 y float Y y좌표값 [0, 1080] 3-4-4 left float N bbox x 좌표값 (좌측) [0,1920] 3-4-5 top float N bbox y 좌표값 (상단) [0,1080] 3-4-6 width float N bbox 너비 [0,1920] 3-4-7 height float N bbox 높이 [0,1080] 3-4-8 angle float N 각도 [0, 360] 4. 라벨링 데이터 예시
- "rawDataInfo": {
"rawDataID": "C_211111_GE_019_21_BK_A_P_01",
"copyrighter": "㈜미디어그룹사람과숲",
"resolution": "1920*1080",
"date": "2021-11-11",
"StartTime": "17:15:00",
"EndTime": "17:30:00",
"length": 156,
"Local": "분당",
"season": "Autumn",
"weather": "Cloudy",
"precip": 11,
"temp": 10,
"fps": 30,
"fStop": "F/13",
"exposureTime": "10/600",
"ISO": 200,
"LargeCategoryId": "대형차",
"MediumCategoryId": "제네시스",
"SmallCategoryId": "G80",
"yearId": 2021,
"colorId": "검정",
"trimId": "A",
"fileExtension": "mp4"
},
"sourceDataInfo": {
"sourceDataID": "C_211111_GE_019_21_BK_A_P_01_001",
"fileExtension": "jpg"
},
"learningDataInfo": {
"path": null,
"LearningDataId": "C_211111_GE_019_21_BK_A_P_01_001",
"fileExtension": "json",
"objects": [
{
"classId": "P01.프론트범퍼",
"annotation": "bbox",
"coords": {
"tl": {
"x": 414.58999999999986,
"y": 464.82000000000005
},
"tr": {
"x": 1232.9865949055586,
"y": 464.82000000000005
},
"bl": {
"x": 414.58999999999986,
"y": 806.09
},
"br": {
"x": 1232.9865949055586,
"y": 806.09
}
},
"left": 414.58999999999986,
"top": 464.82000000000005,
"width": 818.3965949055588,
"height": 341.27,
"angle": 0
},
{
"classId": "P03.타이어(휠)",
"annotation": "bbox",
"coords": {
"tl": {
"x": 51.299999999999955,
"y": 371.3899999999998
},
"tr": {
"x": 541.54,
"y": 371.3899999999998
},
"bl": {
"x": 51.299999999999955,
"y": 911.3246449527423
},
"br": {
"x": 541.54,
"y": 911.3246449527423
}
},
"left": 51.299999999999955,
"top": 371.3899999999998,
"width": 490.24,
"height": 539.9346449527426,
"angle": 0
},
{
"classId": "P09.라디에이터그릴",
"annotation": "bbox",
"coords": {
"tl": {
"x": 979.1500000000001,
"y": 229.7799999999999
},
"tr": {
"x": 1231.9023910233404,
"y": 229.7799999999999
},
"bl": {
"x": 979.1500000000001,
"y": 559.7199999999999
},
"br": {
"x": 1231.9023910233404,
"y": 559.7199999999999
}
},
"left": 979.1500000000001,
"top": 229.77999999999992,
"width": 252.75239102334044,
"height": 329.94,
"angle": 0
},
{
"classId": "P10.헤드램프",
"annotation": "bbox",
"coords": {
"tl": {
"x": 401.4600000000004,
"y": 334.89
},
"tr": {
"x": 954.4300000000004,
"y": 334.89
},
"bl": {
"x": 401.4600000000004,
"y": 465.9338243921933
},
"br": {
"x": 954.4300000000004,
"y": 465.9338243921933
}
},
"left": 401.4600000000003,
"top": 334.89,
"width": 552.97,
"height": 131.04382439219333,
"angle": 0
}
]
}
}
-
데이터셋 구축 담당자
수행기관(주관) : ㈜미디어그룹사람과숲
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 성낙춘 02-830-8583 [email protected] · 데이터 구축 총괄 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜넥스터 (구 센스비젼) · 데이터 수집 ㈜미디어그룹사람과숲 · 데이터 정제 ㈜크라우드웍스 · 데이터 가공 지티원㈜ · 품질 검증 ㈜써로마인드 · AI 모델 개발
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.