-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2023-11-03 데이터 최종 개방 1.0 2023-07-31 데이터 개방(Beta Version) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-04-01 산출물 전체 공개 소개
ㅇ 전국 다양한 자전거 도로 환경에서의 데이터 수집, 자전거 도로 유형별 분류 및 이동주체 정의 ㅇ 자전거 주행 중 마주칠 수 있는 다양한 물리적 장애요소 및 편의시설 요소를 직접 촬영한 이미지 구축
구축목적
ㅇ 자전거도로 노면 노후·파손 및 불법 주정차, 장애물 등으로 인한 안전사고 예방 및 사업 진행을 통한 고퀄리티 일자리 신규 창출 확대와 지속적 고용 기회 창출 ㅇ 자전거도로에 존재하는 다양한 이동객체에 대해 객체 탐지 인식 모델을 개발하여 다양한 도로에서의 활용 가능성 확대
-
메타데이터 구조표 데이터 영역 교통물류 데이터 유형 이미지 데이터 형식 jpg 데이터 출처 촬영 라벨링 유형 바운딩박스, 세그멘테이션 라벨링 형식 JSON 데이터 활용 서비스 동영상추천서비스 데이터 구축년도/
데이터 구축량2022년/1,074,179장 -
자전거도로 유형별 바운딩박스/폴리곤 수량 분포 자전거도로 유형별 바운딩박스/폴리곤 수량 분포 bike_lane drawing COUNT 비율 비고 R01 bbox 301,291 5.80% 자전거 전용도로 polygon 789,519 15.20% R02 bbox 2,366,340 45.55% 자전거 보행자 겸용도로 polygon 1,413,241 27.20% R03 bbox 45,043 0.87% 자전거 전용차로 polygon 70,287 1.35% R04 bbox 81,755 1.57% 자전거 우선도로 polygon 127,352 2.45% 합계 5,194,828 100.00% 자전거도로 유형별 분포
자전거도로 유형별 분포 bike_lane COUNT 결과 구성비 목표 구성비 비고 R01 321,715 29.95% 18.00% 자전거 전용도로 R02 673,225 62.67% 73.00% 자전거 보행자 겸용도로 R03 32,015 2.98% 3.00% 자전거 전용차로 R04 47,224 4.40% 6.00% 자전거 우선도로 합계 1,074,179 100% 100% 지역별 분포
지역별 분포 place COUNT 결과 구성비 목표 구성비 강원 69,994 6.52% 7.00% 경기 574,638 53.50% 55.00% 낙동강유역 28,002 2.61% 4.00% 서울 268,608 25.01% 20.00% 인천 26,993 2.51% 4.00% 충남 63,589 5.92% 5.00% 충북 42,355 3.94% 5.00% 합계 1,074,179 100% 100% Level1 Class 항목별 분포Level1 Class 항목별 분포 Level1 Class 항목별 분포 Level1 결과수량 결과 구성비 목표 구성비 bbox 도로시설 742,761 26.58% 31.01% 이동주체 1,832,962 65.59% 62.02% 주변환경 218,706 7.83% 6.98% 합계 2,794,429 100% 100.00% polygon 도로결함 574,696 23.94% 36.27% 도로시설 570,581 23.77% 11.92% 도로재질 1,255,122 52.29% 51.81% 합계 2,400,399 100% 100% 촬영날짜 및 시간 분포
촬영날짜 및 시간 분포 file_path daynight count 결과 구성비 목표 구성비 주말오전 오전 219,448 20.43% 25.00% 주말오후 오후 211,810 19.72% 25.00% 평일오전 오전 318,667 29.67% 25.00% 평일오후 오후 324,254 30.19% 25.00% 합계 1,074,179 100.00% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드활용모델: YOLO v5 (바운딩박스 객체탐지) & Mask R-CNN (폴리곤 객체탐지)
○ 학습, 평가, 검증 데이터셋 생성
- 전체 구축 데이터 1,074,179장을 Training 80%, Validation 10%, Test 10%으로 분할
- YOLO v5의 경우, 바운딩박스 객체를 포함하는 데이터 511,403장을 사용하여 Training Set 409,122장, Validation Set 51,140장, Test Set 51,141장으로 분할
- Mask R-CNN의 경우, 모든 데이터를 사용
⦁ Training Set: 기존 883,529장에서 859,343장으로 24,186장 감소
⦁ Validation Set: 기존 110,441장에서 107,418장으로 3,023장 감소
⦁ Test Set: 기존 110,484장에서 107,418장으로 3,066장 감소
○ 학습 모델 학습
- 다중 GPU 지원 인스턴스를 2개를 동시에 할당받아 객체탐지 모델(YOLO v5)과
폴리곤탐지 모델(Mask R-CNN)의 학습 환경 마련○ 학습된 모델의 Validation Set 검증 결과
- YOLO v5 모델의 경우에는 mAP가 약 79%, Mask R-CNN 모델의 경우에는 mAP가 약 57%
- Class ID별 학습 결과는 다음과 같음 (좌: YOLO v5, 우: Mask R-CNN)학습된 모델의 Validation Set 검증 결과 학습된 모델의 Validation Set 검증 결과(좌: YOLO) Class ID AP mAP bollad_normal 0.937 0.791 bollad_damaged 0.575 tubelarmarker_normal 0.947 tubelarmarker_damaged 0.67 sign_nomal 0.932 sign_damaged 0.394 animal 0.668 pedestrian 0.958 bike 0.901 car 0.966 bicycle 0.895 kickboard 0.877 wheelchair 0.62 stroller 0.732 학습된 모델의 Validation Set 검증 결과(우: Mask R-CNN) Class ID AP mAP damage 0.209 0.566 seperation 0.104 repaired 0.55 sinking 0.152 crack 0.42 guardrail_normal 0.91 guardrail_damaged 0.448 deck 0.941 sidewalkblock 0.942 paveroad 0.98 - 학습된 모델이 Validation에서 충분한 성능을 보여 유효성 검증 모델로 사용
○ 유효성 검증 모델을 통한 Test Set 검증
- 유효성 검증 모델을 통한 추론은 학습과 달리 필요한 자원이 적기 때문에 한 장의 NVIDIA
A100 GPU를 사용하도록 검증 환경을 변경
- TTA에 앞서 Test Set에 대해서 시험 수행을 진행
- YOLO v5 모델의 경우에는 mAP가 약 79%, Mask R-CNN 모델의 경우에는 mAP가 약 55%
- Class ID별 검증 결과는 다음과 같음 (좌: YOLO v5, 우: Mask R-CNN)유효성 검증 모델을 통한 Test Set 검증 Class ID AP mAP category AP category AP category AP bollad_normal 0.937 0.791 damage 0.088 seperation 0.035 repaired 0.36 bollad_damaged 0.575 sinking 0.052 crack 0.155 guardrail_normal 0.68 tubelarmarker_normal 0.947 guardrail_damaged 0.248 deck 0.878 sidewalkblock 0.788 tubelarmarker_damaged 0.67 paveroad 0.912 none none none none sign_nomal 0.932 sign_damaged 0.394 animal 0.668 pedestrian 0.958 bike 0.901 car 0.966 bicycle 0.895 kickboard 0.877 wheelchair 0.62 stroller 0.732 -
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 YOLOv4 기반의 객체 탐지 Object Detection YOLO v5 mAP@IoU 0.5 70 % 79.1 % 2 Mask R-CNN 기반의 객체 탐지 및 결함 여부 판단 Object Detection Mask R-CNN mAP@IoU 0.5 55 % 55.3 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드데이터 구성
데이터 구성 공정구분 파일 종류 파일 설명 데이터구분 수집 *.jpg (이미지)데이터 파일, 원시데이터 *.gpx 자전거 주행기록 데이터 정제 *.jpg (이미지)데이터 파일 원천데이터 가공 *.jpg (이미지)데이터 파일 가공데이터 *.json 속성정보파일 데이터 구조 및 파일명 정의] 데이터 구조 파일명 정의 [데이터 구조 및 파일명 정의]
어노테이션 포맷
어노테이션 포맷 구분 항목명 타입 필수여부 설명 범위 비고 Image 1-1 ID Number Y 파일 고유키 1-2 FILE_NAME String Y 파일명 1-3 HEIGHT Number Y 이미지 높이 1920 1-4 WIDTH Number Y 이미지 너비 1080 1-5 DATE_CAPTURED String Y 촬영날짜 및 시간 YYYY. MM. DD hh:mm:ss 1-6 FILE_SIZE String Y 파일크기 1-7 COLLECTION_METHOD String Y 촬영방식구분 스마트폰 1-8 DAYNIGHT String Y 오전/오후 ‘오전’은 자정부터 낮 열두 시까지의 시간을 뜻하고, ‘오후’는 정오부터 밤 열두 시까지 1-9 PLACE String Y 촬영지역명 서울특별시, 인천광역시, 경기도, 강원도,충청북도,충정남도, 낙동강자전거길 1-10 COURSE String Y 촬영 코스 C01 1-11 GPS String Y 촬영위치 위경도 1-12 SPEED String Y 순간속도 20km 라벨링 대상 이미지 해상도 1-13 ALTITUDE String Y 고도 14.14 1-14 ID_CODE String Y 촬영자 코드 P01 1-15 WEATHER String Y 기상정보 맑음, 흐림, 우천, 강설 1-16 MAKE String Y 카메라제조사 카메라 제조업체명 1-17 MODEL_NAME String Y 카메라 모델명 카메라 모델명 1-18 BIKE_LANE String Y 자전거도로 종류 자전거전용도로, 자전거전용차로, 자전거보행자겸용도로, 자전거우선도로 1-19 BOUNDINGCOUNT Number Y 라벨링 Object 개수 복수 라벨링 지정 시 라벨링 갯수 ANNOTATIONS (Array) 2-1 DRAWING String Y 라벨링구분 Box, Polygon 2-2 SEGMENTATION Array N 라벨 좌표 포인트 X, Y 좌표 배열 (라벨링구분및형태에따라좌표갯수상이) [X1,Y1,X2,Y2,X3,Y3...] 2-3 BBOX Array Y 바운딩 박스 좌표 [ X, Y, Width, Height ] 2-4 CATEGORY_ID String Y 항목 고유키 [카테고리 코드표 참조] 2-5 CATEGORY_NAME String Y 항목 명 [항목 범위 표 참조] 2-6 SUB_CATEGORY_NAME String Y 범위 명 [항목 범위 표 참조] 2-7 STATE_NAME String N 상태 명 [항목 범위 표 참조] CATEGORY_NAME이 도로결함, 도로시설의 경우에만 입력하는 선택항목 -
데이터셋 구축 담당자
수행기관(주관) : ㈜에스디엠이앤씨
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김지태 02-6959-9588 [email protected] 데이터 수집 및 정제 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜위스마트 데이터 가공 ㈜네오레브 데이터 검수 및 Tool 개발 디비디스커버코리아(주) AI 학습 모델 개발 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 김지태 02-6959-9588 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.