-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.2 2022-01-17 데이터 품질 보완 1.1 2021-12-06 데이터 품질 보완, 추가 개방 1.0 2021-06-25 데이터 최초 개방 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-06-17 AI모델, AI모델 사용설명서 개방 2022-10-12 신규 샘플데이터 개방 소개
도로 주행 중 시간, 날씨 등 다양한 환경에서 객체를 인식하기 위한 2D-3D 융합 이미지 데이터
구축목적
자율주행 레벨4, 5 의 개발을 위해서는 이미지 뿐 아니라 LiDAR 센서 데이터의 학습도 필수적인 요소로 대두되고 있음 특히 전국 범위의 도로환경에서의 융합형 데이터는 부족한 상황이라, 선제적인 데이터 구축을 통해 자율주행 개발의 동력을 확보함을 주요 목적으로 함
-
메타데이터 구조표 데이터 영역 교통물류 데이터 유형 센서 , 이미지 , 3D 데이터 형식 데이터 출처 라벨링 유형 라벨링 형식 데이터 활용 서비스 데이터 구축년도/
데이터 구축량2020년/45만 -
구축 내용 및 제공 데이터량
- 11,375,400 set 의 융합형 데이터 셋
- 11,375,400 개의 주행 이미지 (.jpg)
- 11,375,400 개의 3D 데이터 (.pcd)
- 450,000개의 가공 데이터
: 이동형 객체의 2D/3D 가공
: 차선, 연석의 polygon 가공 결과 - 데이터 셋 구성 상세사항
1. 지역 & 날씨 별 구축 현황
구축 내용 및 제공 데이터량 표 지역 맑음 흐림 역광 눈 비 안개 Total 인천 322,200 1,200 181,200 - - - 504,600 대전 441,000 16,200 106,200 - - - 563,400 대구 254,400 - 159,000 - - - 414,000 광주 1,128,600 79,200 525,600 - 386,400 31,800 2,151,600 부산 46,200 - 33,600 - - - 79,800 서울 1,237,200 369,000 1,120,800 - 73,800 - 2,800,800 창원 112,800 50,400 155,400 - - - 318,600 진천 24,600 41,400 71,400 - - 13,800 151,200 전주 96,000 75,000 62,400 - - - 233,400 순천 9,600 105,600 153,600 21,000 28,800 - 318,600 광주
(광주과학기술원)1,348,800 462,600 1,871,400 - 156,600 - 3,839,400 Total 5,021,400 1,200,600 4,441,200 21,000 645,600 45,600 11,375,400 2. 추가적인 조건에 따른 구축 현황
구축 내용 및 제공 데이터량 표-추가1 시간대 수량 일출 393,600 낮 7,496,400 밤 2,763,000 일몰 1,110,600 구축 내용 및 제공 데이터량 표-추가2 시간대 수량 국도 9,602,400 고속도로 2,242,800 구축 내용 및 제공 데이터량 표-추가3 시간대 수량 터널 202,800 램프 117,600 교차로 577,800 고가도로 1,410,600 일반도로 9,535,200 -
-
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 Depth Completion Object Detection Sparse-to-Dense Bad pixel ratio 40 % 99.5 % 2 Depth Completion Object Detection U-net Bad pixel ratio 40 % 98.5 % 3 Depth Completion Object Detection CSPN Bad pixel ratio 40 % 98.5 % 4 Depth Completion Object Detection MSG-CHN Bad pixel ratio 40 % 99.5 % 5 3D object Detection Object Detection PointPillars mAP 40 % 55.8 % 6 3D object Detection Object Detection PointRCNN mAP 40 % 60 % 7 3D object Detection Object Detection PV-RCNN mAP 40 % 61.8 % 8 3D object Detection Object Detection second mAP 40 % 56.1 % 9 3D object Detection Object Detection RTM3D mAP 40 % 42.6 % 10 3D object Detection Object Detection Frustum-Convnet mAP 40 % 60.7 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.2 2022.01.17 데이터 품질 보완 1.1 2021.12.06 데이터 품질 보완, 추가 개방 1.0 2021.06.25 데이터 최초 개방 구축 목적
- 자율주행 레벨4, 5 의 개발을 위해서는 이미지 뿐 아니라 LiDAR 센서 데이터의 학습도 필수적인 요소로 대두되고 있음 특히 전국 범위의 도로환경에서의 융합형 데이터는 부족한 상황이라, 선제적인 데이터 구축을 통해 자율주행 개발의 동력을 확보함을 주요 목적으로 함
활용 분야
- 자율주행 시스템 개발, 3D 객체 인식 기술 개발, 2D 이미지 기반의 객체 크기/위치 추적 시스템 개발 등
소개
- 서울, 인천, 대전, 대구, 부산, 광주, 창원, 진천, 전주, 순천 10개 도시의 주변도로에서 수집한 주행영상으로 총 300시간의 영상으로 구축되어 있음. 주행영상은 동기화된 2D/3D 데이터 셋으로 구축되어 있고, 맑음/흐림/역광/눈/비/안개 등의 다양한 날씨 환경에 대해 구축되어 있음 위치, 지역조건, 기상조건, 취득시간, 도로종료, 도로형태의 값이 메타에 포함되어 있어, 필요로 하는 조건의 데이터를 선별적으로 유용하게 활용할 수 있도록 구성되어 있음 300시간의 수집 데이터는 10 Hz 의 기준으로 동기화 진행하였으며, 총 1,000만개 이상의 동기화 된 세트로 구성되어 있으며, 그 중 450,000 세트는 이동객체, 차선, 연석에 대한 가공이 되어 있어 서비스 개발을 위해 즉시 사용할 수 있도록 구축 되어 있음 직접 수집을 통해 구축된 데이터이므로 저작권 문제없이 자유롭게 활용이 가능함
구축 내용 및 제공 데이터량
- 11,375,400 set 의 융합형 데이터 셋
- 11,375,400 개의 주행 이미지 (.jpg)
- 11,375,400 개의 3D 데이터 (.pcd)
- 450,000개의 가공 데이터
: 이동형 객체의 2D/3D 가공
: 차선, 연석의 polygon 가공 결과 - 데이터 셋 구성 상세사항
1. 지역 & 날씨 별 구축 현황
구축 내용 및 제공 데이터량 표 지역 맑음 흐림 역광 눈 비 안개 Total 인천 322,200 1,200 181,200 - - - 504,600 대전 441,000 16,200 106,200 - - - 563,400 대구 254,400 - 159,000 - - - 414,000 광주 1,128,600 79,200 525,600 - 386,400 31,800 2,151,600 부산 46,200 - 33,600 - - - 79,800 서울 1,237,200 369,000 1,120,800 - 73,800 - 2,800,800 창원 112,800 50,400 155,400 - - - 318,600 진천 24,600 41,400 71,400 - - 13,800 151,200 전주 96,000 75,000 62,400 - - - 233,400 순천 9,600 105,600 153,600 21,000 28,800 - 318,600 광주
(광주과학기술원)1,348,800 462,600 1,871,400 - 156,600 - 3,839,400 Total 5,021,400 1,200,600 4,441,200 21,000 645,600 45,600 11,375,400 2. 추가적인 조건에 따른 구축 현황
구축 내용 및 제공 데이터량 표-추가1 시간대 수량 일출 393,600 낮 7,496,400 밤 2,763,000 일몰 1,110,600 구축 내용 및 제공 데이터량 표-추가2 시간대 수량 국도 9,602,400 고속도로 2,242,800 구축 내용 및 제공 데이터량 표-추가3 시간대 수량 터널 202,800 램프 117,600 교차로 577,800 고가도로 1,410,600 일반도로 9,535,200 대표도면
< 2D/3D 융합형 화면 >
<3D pcd 가공 화면>
<3D 가공의 상단/전면/옆면 화면>
<2D 화면에서 Cuboid 매칭 화면>
필요성
- 자율주행 레벨 4, 5단계의 개발을 위해서는 카메라 이미지를 통한 학습만으로는 한계가 있음
- LiDAR를 통해 수집된 3D 데이터, pcd 데이터를 활용한 학습이 필수적인 요건으로 대두되고 있음
- LiDAR 장비는 아직 높은 비용으로 형성되어 있어서 대기업을 제외한 중소기업, 벤처, Start-up 에서는 3D 데이터 확보에 많은 어려움을 가지고 있음
- 소량의 차량을 확보한다고 하더라도, 시간적/인력적 제약에 의해 전국의 다양한 도로에서 데이터를 수집하는 것은 더욱 어려운 조건임
- 데이터 개방 사업을 통해, 전국 단위의 3D 데이터를 구축/제공함으로써, 자율주행을 연구하고 개발하는 중소기업, 벤처, Start-up 기업에게 큰 도움을 줄 수 있음
- 특히 전국 단위의 데이터, 다양한 환경조건에서의 데이터 구축 및 제공을 통해 연구기관, 연구단체에게 많은 도움일 될 수 있음
데이터 구조
- 1. 데이터 구성
- 주행 경로 별 각각의 폴더로 구성되어 있음
- 주행 경로 폴더 하위에 이미지, LiDAR, Meta, calibration 파일로 구성되어 있음
- 2. 어노테이션 포맷
어노테이션 포맷 표 Key Value Description Type IMAGE_INFO 이미지 정보 { CAMERA_NAME 카메라 정보 String IMAGE_WIDTH 이미지 가로 Integer IMAGE_HEIGHT 이미지 높이 Integer IMAGE_PATH 이미지 경로 String } ENVIORNMENT_INFO { Latitude 촬영지역 위도 정보 Float Longitude 촬영지역 경도 정보 Float Location 촬영지역 지역명 String Weather 날씨 String Time 시간대 String Load 도로 종류 String Load_type 도로 구분 String } OBJECT_LIST 객체 리스트 Array [ { 2D_LIST 2D 리스트 Array [ { POLYGON 차선 정보 Array [ x1,y1,x2,y2,x3,y3,...,xn,yn Point 좌표 Array ] CLASS 객체의 클래스 String } 3D_LIST 이동객체 [ { BOX 이동객체 2D Box 정보 [ x1,y1,x2,y2 이동객체 2D point 정보 Array ] CLASS 객체 클래스 String TYPE 객체 타입 String ACCELERATION 가속 여부 String DIMENSTION [ a,b,c 객체 크기 (Width, Height) Array ] DISTANCE 객체 거리 Float INSTANCE_ID 객체 ID Integer LOCATION [ x,y,z 객체 위치 (x,y,z 좌표) Array ] YAW 회전값 Float } ] } ] }
-
데이터셋 구축 담당자
수행기관(주관) : 솔트룩스
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 안준형 02-2193-1600 [email protected] · 2D 융합 데이터 가공 · 데이터구축 총괄 수행기관(참여)
수행기관(참여) 기관명 담당업무 인피닉 · 2D, 3D 융합형 데이터 가공
· 가공 데이터 검수모빌테크 · 전국 도로의 주행영상 수집
· 2D, 3D 데이터 동기화 진행
· 이미지 정제GIST · AI 모델 개발
· AI 모델 유효성 검증
· AI 모델을 활용한 응용서비스 개발티디엘 · 구축 데이터 품질 검수 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 방재준(솔트룩스) 02-2193-1682 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.