-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2022-09-14 전체 최종 데이터 업로드 완료 1.0 2022-07-29 데이터 최초 개방 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2022-10-20 신규 샘플데이터 개방 2022-07-29 콘텐츠 최초 등록 소개
코로나19 확진자 동선 추적 등에 활용될 수 있는 멀티센서(네트워크로 연결된 CCTV) 환경에서의 특정 대상(사람)의 동선을 추적하는 인공지능 학습모델 개발 및 데이터셋 구축
구축목적
• CCTV를 활용하여 동선을 추적하는 방식은 영상을 모니터링 요원이 육안으로 검사하기 때문에 시간이 많이 소요될 뿐 아니라, 지하철, 버스 환승센터 등 공공 밀집 시설에서는 특정인의 동선 추적이 어려움 • 특정 1인에 대한 특징들을 미리 추출한 뒤 추적하는 기술이 있지만, 다중 카메라에서 특정 1인에 대한 추적이므로 감염병 확산을 방지하기 위한 다중 추적은 어려움 • 매우 중대한 사회문제인 코로나19 확진자 동선 추적 등의 사회 문제 해결을 위해 멀티센서를 활용한 동선추적 인공지능 모델 개발과 학습용 데이터셋이 필요
-
메타데이터 구조표 데이터 영역 교통물류 데이터 유형 비디오 데이터 형식 MP4 데이터 출처 MP4 : 직접 활영 라벨링 유형 바운딩박스(동영상) 라벨링 형식 JSON 데이터 활용 서비스 멀티센서(네트워크로 연결된 다중 CCTV) 환경에서 촬영된 사람의 동선 추적 데이터 구축년도/
데이터 구축량2021년/총 2,941,120 파일(JSON) -
1. 데이터 구축 규모 및 학습모델 성과 목표
1. 데이터 구축 규모 및 학습모델 성과 목표 구분 성과목표 구축실적 달성율 멀티센서 동선 추적
데이터셋원시데이터(수집) 총 2,800분 총 3,519분 125.60% 원천데이터(정제) 총 2,400분 총 2,472분 103% 학습데이터(가공) 총 2,700,000 파일
(JSON)총 2,941,120 파일
(JSON)108.90% 학습모델 평가지표(Re-ID F1-Score) 30% 35.20% 100% 평가지표(bbox mAP) 80% 85.70% 100% 2. 데이터 분포
- 시나리오별 클래스 수량 분포
- 다양성 분포
2. 데이터 분포 다양성 분포 항목 지표 구분 결과(수량) 결과(비율) 시간 분포 비율 오전 235,584장 8.02% 오후 2,703,667장 91.98% 날씨 분포 비율 맑음 2,585,875장 87.98% 흐림 353,376장 12.02% 성별 분포 비율 남성 199명 44.72% 여성 177명 39.78% Unknown 69명 15.51% 온도 분포 비율 여름 1,407,955장 47.90% 가을 1,531,296장 52.10%
- 시나리오별 클래스 수량 분포
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드1. 학습 모델 개요
- Multi-target Multi-Camera Tracking을 위해, Multi-target Single-Camera Tracking 기술과 Multi-Camera Tracklet Association 기술은 아래의 모식도처럼 융합
2. 학습 모델 개발 상세 방안
- 여러 대의 time snyc가 맞는 카메라가 있을 때 각각의 비디오 정보를 인풋으로 이용
- Multi-target Single-Camera Tracking 기술은 각각의 비디오 정보에 등장하는 객체의 tracjectorty들을 아웃풋으로 만듬
- 각 비디오의 객체 tracjectory를 카메라간 이어주기위해 Multi-Camera Tracklet Association 기술을 이용하여 연결
3. 사용 기술
- Multi-target Single-Camera Tracking 기술에는 QDTrack을 사용함.
4. 학습 모델 개발 조건
- Multi-Camera Tracklet Association(MTA) 기술은 다음의 세가지 실질적인 제약조건을 고려함.
- single-camera time constraint: 객체는 동시간, 동일 카메라에 여러 번 나타날 수 없음.
- multi-camera time constraint: 객체는 view overlap 이 없는 서로 다른 카메라에 같은 시간대에 존재 할 수 없음.
- homography constraint: view overlap 이 있는 카메라간의 homography를 이여 warping 했을 때 서로 겹치는 trajectory 는 동일 객체일 확률이 높음.
- Multi-target Multi-Camera Tracking을 위해, Multi-target Single-Camera Tracking 기술과 Multi-Camera Tracklet Association 기술은 아래의 모식도처럼 융합
-
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 바운딩박스 객체 추적 Re-Identification QDTrack IDF1 30 % 30.5 % 2 바운딩박스 객체 인식 Object Detection Faster R-CNN mAP 80 % 91.6 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드데이터 예시
1. 원천 데이터: MP4
2. 가공 데이터: JSON
- 가공 유형: 바운딩 박스
3. 데이터 구성
- 라벨은 다음과 같이 구성되며, 항목별 타입과 필수여부 및 값 범위를 정의한다.
3. 데이터 구성 구분 항목명 타입 필수여부 설명 범위 비고 1 info object 데이터셋정보 1–1 info[].mode string Y 데이터셋가공방식 interpolation 1–2 info[].video_name string Y 데이터셋영상이름 1–3 info[].video_width number Y 영상너비 1920 1–4 info[].video_height number Y 영상높이 1080 2 frames object 프레임정보 2–1 frames[].frame_id string Y 프레임식별자 “(\d{4})” 3 objects object 바운딩박스 좌표정보 3–1 objects[].label string Y 라벨링이름 [person, void,
blackout]3–2 objects[].type string 라벨링종류 box 3–3 objects[].track_id string 객체추적식별자 “(\d{3})” 3–4 objects[].occluded string 객체 가림 [0,1] 0:온전함
1:가림3–5 objects[].truncated number 이미지 영역 바깥으로 객체 잘림 [0-1] 이미지 내 객체 영역이 보이는 비율 3–6 objects[].position[] object 바운딩박스 좌표정보 3–6–1 objects[].outside[].x number 바운딩박스 좌상단 x좌표 3–6–2 objects[].outside[].y number 바운딩박스 좌상단 y좌표 3–6–3 objects[].outside[].width number 바운딩박스 너비 3–6–4 objects[].outside[].height number 바운딩박스 높이 3–7 objects[].attributes[] object 객체 속성 정보 3–7–1 objects[].attributes[].pid string 객체식별자 “(\d{3})” 3–7–2 objects[].attributes[].gender string 객체성별 [male, female, unknown]
※ 동일한 데이터 셋에 다수 개 스키마를 적용한 경우, 스키마 별로 라벨 구성요소를 작성한다.
4. json
-
데이터셋 구축 담당자
수행기관(주관) : ㈜테스트웍스
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 조한진 02) 422 - 5178 [email protected] · 사업 총괄 수행기관(참여)
수행기관(참여) 기관명 담당업무 한국과학기술원(우상현 / [email protected]) · 인공지능 개발 ㈜미루시스템즈([email protected]) · 데이터 수집, 수집 장비(CCTV) 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 조한진 02) 422 - 5178 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.