-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2024-01-24 데이터 최종 개방 1.0 2023-07-26 데이터 개방(Beta Version) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-01-24 산출물 전체 공개 소개
모바일 센서 데이터, 대중교통 카드 원시데이터 등 5종의 교통수단별 데이터와 교통수단, 환승형태 등의 교통수단 판별과 동선 예측을 위한 경로 학습용 데이터 구축
구축목적
통 혼잡의 사회 비용 감소에 기여를 목표로 대중교통 혼잡지점 예측을 통한 교통체증 문제를 해결하고 이용자의 교통수단 종류 판별 및 이동 동선 예측을 위한 다양한 교통수단 경로 학습용 데이터 구축
-
메타데이터 구조표 데이터 영역 교통물류 데이터 유형 텍스트 데이터 형식 CSV 데이터 출처 자체수집 / (이동통신사 LITMUS, 대중교통카드 이용내역, PM 서비스 이용내역, 버스 노선별 정류소 공공데이터, 서울 도시철도 목적지 경로정보) 라벨링 유형 타임 시리즈 세그먼트 라벨링 형식 CSV, JSON 데이터 활용 서비스 교통수단 판별 서비스, 교통 수요 예측 서비스, 위치 보정 서비스 데이터 구축년도/
데이터 구축량2022년/684,534개 / 456.9GB -
■ 데이터 디렉토리 구성 및 검증 수량 정보
1) 원천 데이터
원천 데이터 1차 경로 2차 경로 3차 경로 4차 경로 파일 포맷 제출 수량 사전 최종 01. 교통수단판별 원천데이터 1. AP 01. WALK .csv 957 18,645 02. BIKE 1,221 4,345 03. CAR 6,381 38,530 04. BUS 2,143 24,855 05. SUBWAY 2,287 33,560 06. ETC 443 4,345 원천데이터 2. BTS 01. WALK .csv 957 18,645 02. BIKE 1,221 4,345 03. CAR 6,381 38,530 04. BUS 2,143 24,855 05. SUBWAY 2,287 33,560 06. ETC 443 4,345 원천데이터 3. GPS 01. WALK .csv 957 18,645 02. BIKE 1,221 4,345 03. CAR 6,381 38,530 04. BUS 2,143 24,855 05. SUBWAY 2,287 33,560 06. ETC 443 4,345 원천데이터 4. IMU 01. WALK .csv 957 18,645 02. BIKE 1,221 4,345 03. CAR 6,381 38,530 04. BUS 2,143 24,855 05. SUBWAY 2,287 33,560 06. ETC 443 4,345 02. OD(종단간) 궤적 원천데이터 .csv 16,372 187,414 총 수량 70,100 684,534 2) 라벨링 데이터
2) 라벨링 데이터 1차 경로 2차 경로 3차 경로 파일 포맷 제출 수량 사전 최종 01. 교통수단판별 라벨링데이터 01. WALK .csv 957 18,645 02. BIKE 1,221 4,345 03. CAR 6,381 38,530 04. BUS 2,143 24,855 05. SUBWAY 2,287 33,560 06. ETC 443 4,345 02. OD(종단간) 궤적 라벨링데이터 .json 16,372 187,414 총 수량 29,804 311,694 3) 연계 데이터
3) 연계 데이터 1차 경로 2차 경로 3차 경로 파일 포맷 제출 수량(파일 제출 수) 사전 최종 03. 연계데이터 001. 대중교통카드 .csv 1 16 002. PM데이터 .csv 110,000 1,015,290 003. 차량이동궤적 .csv 310,000 3,153,035 004. 대중교통궤적 .csv 1 1,051,114 005. 이동통신데이터 유입인구 .csv 14 175 유출인구 171 총 수량 420,016 5,219,801 4) 메타 데이터
메타 데이터 1차 경로 파일 포맷 제출 수량 사전 최종 3. Document .csv 1 1 총 수량 1 1 5) 데이터 구성 및 구분 정보
데이터 구성 및 구분 정보 경로 구분 정보 구분자 정보 1차 경로 데이터 종류 구분 01. 교통수단판별
02. OD(종단간)통행궤적
03. 연계데이터2차 경로 (01.교통수단판별,
02.OD(종단간)통행궤적만 해당)
원천데이터, 라벨링데이터 구분라벨링데이터
원천데이터(03.연계데이터만 해당)
연계데이터 세부 구분001. 대중교통카드
002. PM데이터
003. 차량이동궤적
004. 대중교통궤적
005. 이동통신데이터3차 경로 (01.교통수단판별만 해당)
원천데이터 세부 구분1. GPS
2. BTS
3. IMU
4. AP(03.연계데이터 중
005.이동통신데이터만 해당)
유입인구, 유출인구 구분유입인구
유출인구4차 경로 (01.교통수단판별만 해당)
세부 원천데이터의
교통수단별 구분01. WALK
02. BIKE
03. CAR
04. BUS
05. SUBWAY
06. ETC6) 파일명/폴더명 구분 정보
파일명/폴더명 구분 정보 구분 예시 세부 구성 설명 교통수단판별 TMC-AP-0000046C-631aeffcbbcbd82a
60589718-67eee7bd70b54c88a8e0dc0
4101d0031-Dataset.csvTMC-$ TYPE -$ UID -$ TID -$ SID -Datas
et.csvTMC-LABEL-00000460-631ca17834d6
6d572dc82ed5-0d602bd3995e45e4be7
f37b3dc473864-Label.csvTMC-LABEL-$ UID -$ TID -$ SID -Label.c
svOD(종단간)
통행궤적UT-00000033-00000033_1662334456-
Dataset.csvUT-$ UID -$ ODID -Dataset.csv UT-00000033-00000033_1662334456-
Label.jsonUT-$ UID -$ ODID -Label.json -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드■ 학습용 데이터 수집 시 활용한 AI 모델
1) 교통수단 판별 AI 모델
● 개인 교통수단 이용 데이터를 활용한 교통상황 예측을 위한 기본 모델로서 구성● AI 기능과 관련하여 Convolutional Neural Network(CNN) 모델에 대한 검수 수행
2) 이동궤적 예측 AI 모델
● 교통수단 판별을 통한 지능형 교통체계 구축에 활용할 수 있는 초석 모델로 구성
● 실시간 차량, 대중교통, PM 등의 교통량 흐름 예측의 초석 모델로서 활용 가능● Neural ODE 계열의 LightMove 모델을 사용하여 기존 이동궤적 예측 모델들과 달리 Spars하거나 오차가 있는 데이터에도 정상적으로 예측 가능하며, 위치, 시간, 유저에 대한 정보를 효과적으로 Embedding하여 정확도 높은 학습 결과를 제공
-
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 이동궤적 다음 위치 예측 성능 Prediction Lightmove(Neural ODE 기반 모델) AccuracyTop-10 60 % 61.6 % 2 교통수단 판별 성능 Text Classification DenseNet F1-Score(macro) 0.75 점 0.785 점
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드■ 교통수단 판별 원천데이터 분류 정의
● 원천데이터 1: 교통수단 판별 데이터
- 파일명 형식: (TMC-GPS-${UID}-${TID}-${SID}-Dataset.csv)
- 한 가지 교통수단과 관련한 교통수단 판별 데이터원천데이터 데이터 항목 타입 내용 timestamp timestamp 궤적에 따른 시간 accuracy double GPS 정확도 latitude double GPS로 측정한 위도 longitude double GPS로 측정한 경도 altitude double GPS로 측정한 고도 ● 원천데이터 2: 교통수단 판별 데이터
- 파일명 형식: (TMC-BTS-${UID}-${TID}-${SID}-Dataset.csv)원천데이터 데이터 항목 타입 내용 timestamp timestamp 궤적에 따른 시간 cellulartype string 기지국 타입 (‘LTE’, ‘NR’) isregistered int status of the connection of the phone to this cell,
1=connected, 0=not connectedci string 기지국 식별자 (cell identity) mcc int 3-digit Mobile Country Code mnc int 2 or 3-digit Mobile Network Code pci int 물리적인 셀 식별자 (physical cell id) tac int 16-bit Tracking Area Code asulevel int 신호 세기를 asu 단위로 표현 dbm int 신호 세기를 dbm 단위로 표현 level int 신호 세기를 0-4로 표현 ● 원천데이터 3: 교통수단 판별 데이터
- 파일명 형식: (TMC-IMU-${UID}-${TID}-${SID}-Dataset.csv)
원천데이터 데이터 항목 타입 내용 timestamp int 궤적에 따른 시간 seq_num int 동일 시간(초)에 수집된 순서 gyro.x double IMU 자이로스코프 x축 값 ( 각속도 계산 ) gyro.y double IMU 자이로스코프 y축 값 ( 각속도 계산 ) gyro.z double IMU 자이로스코프 z축 값 ( 각속도 계산 ) accel.x double IMU 가속도계 x축 값 ( 가속도 계산 ) accel.y double IMU 가속도계 y축 값 ( 가속도 계산 ) accel.z double IMU 가속도계 z축 값 ( 가속도 계산 ) mag.y double IMU 자력계 y축 값 ( 방향 계산 ) mag.z double IMU 자력계 z축 값 ( 방향 계산 ) rot.w double w축의 회전 벡터 rot.x double x축의 회전 벡터 rot.y double y축의 회전 벡터 rot.z double z축의 회전 벡터 pressure.x double 압력 센서 값 gravity.x double 중력 x축 값 gravity.y double 중력 y축 값 gravity.z double 중력 z축 값 linear_accel.x double 선형 가속도 x축 값 linear_accel.y double 선형 가속도 y축 값 linear_accel.z double 선형 가속도 z축 값 ● 원천데이터 4: 교통수단 판별 WiFi AP 리스트데이터
- 파일명 형식: (TMC-AP-${UID}-${TID}-${SID}-Dataset.csv)원천데이터 데이터 항목 타입 내용 timestamp timestamp 궤적에 따른 시간 wifibssid string 와이파이 AP의 MAC 주소 wifissid string 와이파이 AP의 네트워크 이름 wifirssi int 와이파이 AP의 신호세기 wififrequency int 와이파이 채널 주파수 wificapacities string 와이파이 Capability 문자열 ■ OD(종단간) 통행 궤적 원천데이터 분류 정의
● 원천 데이터셋: 출발지에서 도착지까지의 통행 궤적 전체
- 파일명 형식: (UT-${UID}-${ODID}-Dataset.csv)
- 한 가지 이상의 교통수단과 연계될 수 있음원천 데이터셋 데이터 항목 타입 내용 timestamp timestamp 궤적에 따른 시간 latitude double GPS 후 보정한 위도 longitude double GPS 후 보정한 경도 지하철은 GPS 정보를 제공하지 않음
■ 데이터 분류 정의
데이터 분류 정의 라벨링 대상 라벨링 범위 클래스 분류 기준 교통수단 11가지 이동 수단
(걷기, 달리기, 자전거, 차량, 버스, 기차/KTX, 지하철, 오토바이, 전기자전거, 킥보드, 택시)교통수단에 따른 분류 통행 궤적 데이터 모바일 앱을 통해 수집한 각 센서 데이터의 길이에 따름 데이터 수집자의 이동 경로 정보 ■ 데이터 라벨링 및 어노테이션 구조
● 교통수단 판별 라벨 데이터
- 파일명 형식: TMC-Label-${UID}-${TID}-${SID}-Label.csv
교통수단 판별 라벨 데이터 데이터 항목 타입 내용 timestamp timestamp 궤적에 따른 시간 transportation int 교통수단 입력 라벨
( NULL=0, 정지=1, 걷기=2, 달리기=3, 자전거=4, 차량=5, 버스=6, KTX/기차=7, 지하철=8, 오토바이=9, 전기자전거=10, 전동 킥보드=11, 택시=12 기타 사용자 입력에 따른 추가 수단 )● 교통수단 판별 라벨 데이터 어노테이션 구조
어노테이션 구조 구분 속성명 타입 필수여부 설명 범위 비고 1 timestamp int Y 궤적에 따른 시간 Unixtime 2 label int Y 교통수단 입력 라벨 0~3, 0 : 도보 5,6 1 : 자전거 2 : 차량 3 : 버스 5 : 지하철 6 : 킥보드 및 기타 3 detail_label int Y 교통수단 세분류 입력 라벨 2~6, 2 : 걷기 8~12 3 : 달리기 4 : 자전거 5 : 차량 6 : 버스 8 : 지하철 9 : 오토바이 10 : 전기자전거11 : 전동킥보드12 : 택시 ● OD(종단간) 통행 궤적 라벨 데이터
- 파일명 형식: 파일 형식 : UT-${UID}-${ODID}-Label.jso라벨 데이터 데이터 항목 타입 내용 move_purpose string 이동목적 (사용자가 입력한 승하차, 대여, 대기 상황 위치, 이동 목적(출퇴근=0, 등하교=1, 업무=2, 쇼핑=3, 여가=4, 학원=5 기타=6)) gender int 성별 (남:0, 여:1) age int 연령대 stime array ODID, $i, 시작시점 etime array ODID, $i, 종료시점 trspt array ODID, $i, 교통수단 - $i : 1~n까지 추가하면서 점진적 증가함 따라서, n개의 교통수단 궤적으로 구성됨
- 다음은 json으로 표현된 예시를 나타냄라벨 데이터 통행궤적 라벨링 데이터 예시 {
"move_purpose": 2,
"gender": 0,
"age": 30,
"stime": [
{
"odid": "0000000D_1662517537",
"tid": 1,
"value": 1662517538000
},
{
"odid": "0000000D_1662517537",
"tid": 2,
"value": 1662517663000
},
{
"odid": "0000000D_1662517537",
"tid": 3,
"value": 1662518334000
}
],
"etime": [
{
"odid": "0000000D_1662517537",
"tid": 1,
"value": 1662517662000
},
{
"odid": "0000000D_1662517537",
"tid": 2,
"value": 1662518333000
},
{
"odid": "0000000D_1662517537",
"tid": 3,
"value": 1662518869000
}
],
"trspt": [
{
"odid": "0000000D_1662517537",
"tid": 1,
"value": 2
},
{
"odid": "0000000D_1662517537",
"tid": 2,
"value": 6
},
{
"odid": "0000000D_1662517537",
"tid": 3,
"value": 2
}
]
}● OD(종단간) 통행 궤적 라벨 데이터 어노테이션 구조
라벨 데이터 어노테이션 구조 구분 속성명 타입 필수여부 설명 범위 비고 1 move_purpose int Y 이동 목적 0~6 0 : 출퇴근 1 : 등하교 2 : 업무 3 : 쇼핑 4 : 여가 5 : 학원 6 : 기타 2 gender int Y 성별 0,1 0 : 남자 1 : 여자 3 age int Y 연령대 10,20,30,40,50,60,70,80 4 stime array Y 교통수단 시작 교통수단 시작, 종료, 번호는 순서대로 한쌍이며, 최소 1개 이상의 쌍으로 이루어져 있음 4-1 odid string Y 궤적 ID 4-2 tid string Y 교통수단 순서 1~ 4-3 value int Y 시작 시간 Unixtime 5 etime array Y 교통수단 종료 5-1 odid string Y 궤적 ID 5-2 tid string Y 교통수단 순서 1~ 5-3 value int Y 종료 시간 Unixtime 6 trspt array Y 교통수단 번호 6-1 odid string Y 궤적 ID 6-2 tid string Y 교통수단 순서 1~ 6-3 value int Y 교통수단 번호 0~3,5,6 0 : 도보 1 : 자전거 2 : 차량 3 : 버스 5 : 지하철 6 : 킥보드 및 기타 ● 대중교통 카드 내역
대중교통 카드 내역 데이터 항목 타입 내용 운행일자 str 운행일자 USER NO str 유저 고유 아이디 수단 str 이용한 수단 승차시간 str 승차시간 승차역ID str 승차(정류장)역 고유 ID 승차정류장명 str 승차 정류장(역)명 승차노선 str 승차 노선 정보 하차시간 str 하차시간 하차역ID str 하차(정류장)역 고유 ID 하차정류장명 str 하차 정류장(역)명 하차노선 str 하차 노선 정보 ● 대중교통 궤적
대중교통 궤적 데이터 항목 타입 내용 timestamp timestamp 시간 station_id str 정류장 고유 아이디 station_latitude double 정류장 위도 station_longitude double 정류장 경도 station_name str 정류장 이름 station_line str 노선 번호 ● PM 데이터
- 파일명 형식: (PM-${UID}-${ODID}-Dataset.cPM 데이터 데이터 항목 타입 내용 timestamp timestamp 궤적에 따른 시간 latitude double GPS 위도 longitude double GPS 경도
● 차량 이동 궤적
- 파일명 형식: (TX-${UID}-${ODID}-Dataset.csv)차량 이동 궤적 데이터 항목 타입 내용 timestamp timestamp 궤적에 따른 시간 latitude double GPS 위도 longitude double GPS 경도 ● SKT 리트머스 이동통신 데이터
- 유입인구SKT 리트머스 이동통신 데이터 데이터 항목 타입 내용 base 셀 id (pk) str 기준 위치 식별 번호 base_cell_id str 기준 지역 cell ID base_bdong_cd str 기준 지역 법정동 코드 base_dong_name double 기준 지역 법정동 이름 base_hdong_cd double 기준 지역 행정동 코드 base_hdong_nm str 기준 지역 행정동 이름 base_lat str 기준 지역 중심 위도 base_lon str 기준 지역 중심 경도 base_date str 연월일 단위 시간 데이터 base_time str 시분 단위의 교통이용 시작 시간 데이터 incoming_cell_id str 유입된 지역 cell ID incoming_bdong_cd str 유입된 지역 법정동 코드 incoming_bdong_nm str 유입된 지역 법정동 이름 incoming_hdong_cd str 유입된 지역 행정동 코드 incoming_hdong_nm str 유입된 지역 행정동 이름 base_dong_name str 유입된 지역 법정동 이름 incoming_lat double 유입된 지역 중심 위치 위도 incoming_lon double 유입된 지역 중심 위치 경도 incoming_rank int 지역별 유입수 비교를 통한 순위 incoming_cnt int 유입된 인원 - 유출인구
유출인구 데이터 항목 타입 내용 base 셀 id (pk) str 기준 위치 식별 번호 base_cell_id str 기준 지역 cell ID base_bdong_cd str 기준 지역 법정동 코드 base_dong_name double 기준 지역 법정동 이름 base_hdong_cd double 기준 지역 행정동 코드 base_hdong_nm str 기준 지역 행정동 이름 base_lat str 기준 지역 중심 위도 base_lon str 기준 지역 중심 경도 base_date str 연월일 단위 시간 데이터 base_time str 시분 단위의 교통이용 시작 시간 데이터 incoming_cell_id str 유출된 지역 cell ID incoming_bdong_cd str 유출된 지역 법정동 코드 incoming_bdong_nm str 유출된 지역 법정동 이름 incoming_hdong_cd str 유출된 지역 행정동 코드 incoming_hdong_nm str 유출된 지역 행정동 이름 base_dong_name str 유출된 지역 법정동 이름 incoming_lat double 유출된 지역 중심 위치 위도 incoming_lon double 유출된 지역 중심 위치 경도 incoming_rank int 지역별 유출수 비교를 통한 순위 incoming_cnt int 유출된 인원 -
데이터셋 구축 담당자
수행기관(주관) : ㈜모토브
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김성훈 1644-4437 [email protected] 사업총괄, 데이터 수집, 정제, 가공, 활용AI 모델 유효성 검증 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜비투엔 데이터 품질검증 ㈜에스엔피랩 크라우드워커 모집 및 운영 ㈜한국능률협회컨설팅 데이터 정제, 검수, 홍보 및 교육영상 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 김성훈 1644-4437 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.