-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2022-07-14 데이터 최초 개방 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2022-12-16 교육동영상 업데이트 2022-10-20 신규 샘플데이터 개방 2022-07-14 콘텐츠 최초 등록 소개
공룡발자국화석을 식별하고 공룡발자국 유형(수각류, 조각류, 용각류)을 분류할 수 있는 서비스 및 시스템을 개발하기 위하여 카메라와 드론을 활용한 사진 촬영을 실시하고 공룡발자국 테두리에 대한 라벨링과 발견지형, 지층/암석명, 지질시대, 지질고환경 등 메타정보를 입력하여 인공지능 학습용 공룡발자국화석 이미지 데이터를 구축함
구축목적
공룡발자국화석 분포 검색 서비스, 공룡발자국화석 탐지 및 분류 서비스, 지질문화재 관리 시스템 등 공룡발자국화석 관련 서비스 및 시스템 개발에 활용할 수 있는 인공지능 학습용 공룡발자국화석 이미지 데이터 구축
-
메타데이터 구조표 데이터 영역 영상이미지 데이터 유형 이미지 데이터 형식 JPG 데이터 출처 비전 분야/이미지 라벨링 유형 세크멘테이션(이미지) 라벨링 형식 JSON 데이터 활용 서비스 공룡발자국화석 유형(수각류/조각류/용각류) 분류 서비스 데이터 구축년도/
데이터 구축량2021년/141,327건 -
데이터 구축 규모
데이터 구축 규모 유형 카메라이미지 드론이미지 3D가공이미지 합계 (장) (장) (장) (장) 수각류 20,471 16,218 294 36,983 조각류 20,436 18,262 369 39,067 용각류 20,001 17,410 303 37,714 유사지형 15,280 12,020 263 27,563 합계 76,188 63,910 1,229 141,327 데이터 분포
- 획득장비별 구축량
- 유형별 구축량
-
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드공룡발자국화석 유형 분류 학습모델 개발
- 공룡발자국화석 유형 분류는 이미지로부터 공룡발자국 위치 및 형태를 검출하고 유형을 분류하는 2-phase 방식의 AI 학습모델로 구축함
- 초기 모델로 CNN, YOLO v4, Mask R-CNN을 개발하여 테스트를 진행하였으며, 검증 결과 성능이 우수한 Mask R-CNN을 채택하여 개발을 진행
- Mask R-CNN은 2단계 검출기 모델인 R-CNN에 분할 마스크를 출력하는 구조가 추가되어 검출과 분할 모두 수행 가능함
- 모델학습은 파이썬 코드를 작성하고 데이터셋을 준비한 다음 데이터를 훈련하여 가중치 확인하는 단계로 이루어지며, Jupyter notebook Tool을 활용하여 테스트 결과 및 코드 진행상황을 확인함
- 응용서비스는 객체인식, 분류 기능을 구현하고 웹 서비스 형식으로 개발함
- 응용서비스는 사이트에서 판독을 원하는 사진을 입력하면 서버로 파일이 업로드되고 AI 판독을 진행하며, 사진에 공룡발자국이 있는 경우 폴리곤 형태로 ROI를 표시하고 분류를 통해 해당 발자국 이미지와 유형 판독 결과를 표시함
-
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 테두리 예측 정확도 Object Detection YOLO v4 F1-Score 0.85 점 0.9077 점 2 분류 예측 정확도 Image Classification Mask R-CNN F1-Score 0.85 점 0.9437 점
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드1. 데이터 소개
- 공룡발자국화석 이미지는 수각류, 조각류, 용각류의 3개 유형으로 구분함
- 수각류(Theropod)는 2족 보행 육식공룡으로 길고 가는 3개 발가락 흔적 보임
- 조각류(Ornithopod)는 주로 2족 보행 초식공룡으로 짧고 뭉툭한 3개 발가락 흔적 보임
- 용각류(Sauropod)는 4족 보행 초식공룡으로 반달 모양 앞발과 원형 뒷발이 짝을 이룸
- 공룡발자국화석 유형별 이미지는 카메라 및 드론 촬영을 통하여 획득
- 3D가공이미지는 드론 이미지로부터 작성한 음영기복도임
- 라벨은 공룡발자국 테두리를 따라 폴리곤(Segmentation)으로 작성함
- 좌표, 주소, 발견지형, 지층/암석명, 지질시대, 지질고환경 등 메타정보를 추가함
2. 데이터 구성
1. 데이터 소개 Key Description Type name 데이터셋명(ex : 공룡발자국화석 이미지 데이터) String description 데이터셋상세설명 String date_created 데이터셋생성일자yyyy-mm-dd String file_name 이미지파일명(ex : C_TP_53_00123456.jpg) String width 이미지너비 Number height 이미지높이 Number device 이미지획득장비(ex : camera, drone, 3D) String license 이미지라이선스 String date_created 이미지촬영일자yyyy-mm-dd String image_id 연관이미지식별자 String category_id 클래스식별자(ex : 1, 2, 3, 4) Number category_name 클래스명(ex : 수각류, 조각류, 용각류) String label_type 라벨유형(ex : Image_Segmentation) String polygon 폴리곤정보 Array coordinates 좌표(ex : 129.1234, 35.1234) String address 주소(ex : 경남 고성군 하이면 덕명리) String place 발견지형(ex : 해안가, 산지, 평지) String geology 지층/암석명(ex : 고성층/이암) String geoperiod 지질시대(ex : 중생대 백악기) String paleoenvironment 지질고환경(ex : 호수가, 충적층, 하천, 범람원) String footsize 발자국크기(ex : 53cm) String foot 발구분(ex : 앞발, 뒷발) String information 안내문(ex : 천연기념물 411호) String reference 참고문헌(ex : 공달용/2018/경남 고성...) String 3. 어노테이션 포멧
3. 어노테이션 포멧 No 항목 타입 필수여부 비고 한글명 영문명 1 데이터셋정보 info Object 1–1 데이터셋명 name String Y 공룡발자국화석 이미지 데이터 1–2 데이터셋상세설명 description String 1–3 데이터셋URL url String 1–4 데이터셋생성일자 date_created String 2 이미지정보 images Object 2–1 이미지식별자 id String 2–2 이미지파일명 file_name String Y C_TP_53_00123456.jpg 2–3 이미지너비 width Number Y [0~10000] 2–4 이미지높이 height Number Y [0~10000] 2–5 이미지획득장비 device String Y [camera, drone, 3D] 2–6 이미지라이선스 license String 2–7 이미지촬영일자 date_created String 2021-08-19 3 라벨링정보 annotations Object 3–1 라벨링식별자 id String 3–2 연관이미지식별자 image_id String 3–3 클래스식별자 category_id Number Y [1,2, 3, 4] 3–4 클래스명 category_name String Y [수각류, 조각류, 용각류, 유사지형] 3–5 라벨유형 label_type String Y [Image_Segmentation] 3–6 폴리곤정보 polygon Array Y 3–7 좌표 coordinates String 129.1234, 35.1234 3–8 주소 address String Y 경남 고성군 하이면 덕명리 3–9 발견지형 place String Y [해안가, 산지, 평지] 3–10 지층/암석명 geology String Y 경상층군 고성층/이암 3–11 지질시대 geoperiod String Y 중생대 백악기 3–12 지질고환경 paleoenvironment String Y [호수가, 충적층, 하천, 범람원] 3–13 발자국크기 footsize String 53 cm 3–14 발구분 foot String Y [앞발, 뒷발] 3–15 안내문 information String 천연기념물 411호. 덕명리 해안 일대… 3–16 참고문헌 reference String 공달용 등, 2018, 경남 고성 덕명리 … 4 라이선스 licenses Object 4–1 라이선스명 name String 4–2 라이선스URL url String 4.실제 예시
-
데이터셋 구축 담당자
수행기관(주관) : 지마텍(주)
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 백승균 051-623-6229 [email protected] · 사업총괄 · 데이터 수집/정제/가공 감독 · 크라우드워커 교육/감독 · 데이터 품질관리 · 홍보 수행기관(참여)
수행기관(참여) 기관명 담당업무 에스큐엔지니어링(주) · 데이터 수집/가공 감독
· 크라우드워커 교육/감독
· 데이터 품질관리
· 라벨링데이터 병합/검증㈜헥사콘 · AI 학습 모델 개발/검증
· AI 응용서비스 개발
· 저작도구 유지관리
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.