-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2024-10-30 데이터 최종 개방 1.0 2024-10-07 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-10-29 산출물 수정 데이터 설명서, 구축활용가이드라인 2024-06-28 산출물 공개 Beta Version 소개
- 해조류 및 저서물질 31종(기타류 포함)을 대상으로 초분광 이미지 데이터를 구축함. 원천데이터 90만장 이상을 구축하는 것을 목표로 하며, 복사휘도 및 반사도 이미지 비율은 50:50 임.
구축목적
- 원격탐사 플랫폼(위성, 항공기, 드론)을 이용하여 해조류 서식지 모니터링, 연안지역 환경 관리, 바다숲 복원 사업 관리 등에 활용하기 위한 해조류 및 저서물질의 초분광 이미지 데이터 구축 필요
-
메타데이터 구조표 데이터 영역 농축수산 데이터 유형 이미지 데이터 형식 tiff 데이터 출처 직접 수집 라벨링 유형 세그멘테이션 (이미지) 라벨링 형식 json 데이터 활용 서비스 원격탐사 및 해양자원 관리 데이터 구축년도/
데이터 구축량2023년/이미지(PNG) : 35,059 ( tiff : 1,160,636장, json : 1,160,636장 ) / 개방 데이터 = 원천데이터(tiff : 1,160,636장 ) + 원시데이터(PNG : 35,059장 ) -
- 데이터 구축 규모
- 구축데이터량 : 1,160,636장
- 개방데이터 1,195,695장 = 원천데이터 총 1,160,636장 + 원시데이터 PNG 총 35,059장)
- 데이터 분포 통계
데이터 분포 통계 데이터 분포 통계 녹조류 갈파래류 30,180 47,380 4.1% 청각류 9,440 대마디말류 7,760 갈조류 그물바탕말류 3,740 261,220 22.5% 모자반류 121,350 나래미역류 39,880 감태류 55,570 유절산호말류 40,680 홍조류 무절산호말류 47,010 117,240 10.1% 우뭇가사리류 38,510 도박류 10,920 돌가사리류 8,400 새우말류 12,400 해산식물 거머리말류 27,140 37,310 3.2% 성게류 10,170 저서물질
(생물)불가사리류 11,660 379,560 32.7% 소라류 137,160 군소, 전복류 67,120 해면류 6,320 담치류 25,590 따개비류 11,120 고둥류 56,000 군부류 21,320 조개류 21,910 연성, 경성 산호류 21,360 저서물질
(무생물1)암반류 26,992 251,936 21.7% 모래류 213,604 인공어초류 11,340 저서물질
(무생물2)해양쓰레기류 43,900 65,990 5.7% 폐어구류 18,160 기타(other) 3,930 - 객체별 분포 : 지상초분광영상 이미지 데이터, 수중초분광영상 이미지 데이터, 드론초분광영상 이미지 데이터
- 주제별 분포 : 해조류 및 저서물질 31종 초분광 영상 이미지 데이터 -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드- 모델 학습
전처리 : 원천데이터는 분광별로 나누어져 있기 때문에 하나의 원시데이터 기준으로 분광을 합치고 컨투어 기반으로 레이블된 클래스를 픽셀기반으로 변환하여 하나의 mat 포맷으로 변환하는 작업이 필요함. 또한 제안된 모델은 픽셀 기반으로 학습되기 때문에 동일한 클래스의 픽셀들만 모아서 새롭게 매트릭스를 구성하고 각 클래스별 밸런스를 고려하여 적절한 개수의 매트릭스를 훈련과 검증으로 나누어서 학습하는 것을 제안함
학습 : 이미지 한장의 입력이 아닌 100 band 초분광 픽셀을 입력으로 하는 SpectralFormer 모델을 사용하며 데이터가 방대하기 때문에 머신의 성능을 고려하여 적절한 하이퍼파라미터 구성 필요
- 서비스 활용 시나리오
- 기존의 RGB영상(3채널) 대비 비약적으로 많은 수의 채널을 가지는 초분광 이미지에 대한 분류 모델 개발
- 기존의 segmentation·classification network 들을 활용하면서 해조류 및 저서물질 데이터 특성에 맞는 초분광 이미지용 network 개발
- 본 과제를 통해 개발된 인공지능 모델을 공개하여 국내 인공지능 기술 발전에 기여
- 본 과제를 통해 개발된 인공지능 모델 활용을 위한 사용자 매뉴얼을 제공하여 과제 종료 후 AI HUB를 이용한 인공지능 모델 활용이 용이하도록 조치
- 인공지능 네트워크에 초분광 이미지 활용 시, 해당 이미지 내의 해조류 및 저서물질을 구분해주는 온라인 서비스 개발
- 개발된 인공지능 모델을 기반으로 연안 생태계 자동 모니터링 및 관리 인공지능 모델 개발
- 수중초분광 이미지 활용기술을 이용한 수질, 해양생태계 관리 등 다양한 고도화 모델 개발
- 해조류 및 저서물질 자동 분류를 통한 시기별 바다숲 지도 작성을 통한 바다숲 블루카본의 부존량과 갯녹음 진행상황 파악 -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드- 데이터 설명
데이터 설명 구축 공정 데이터 획득/수집 데이터 정제 데이터 가공 데이터 검사 데이터 구분 원시데이터 원천데이터 라벨링데이터 검사 후 데이터 데이터 형태 이미지 이미지 라벨링 데이터 형태로 산출 라벨링 데이터 데이터 포맷 *.tif *.tif 라벨링 이미지 : *.png *.png, *.JSON 데이터 포맷 : 데이터 포맷 : 라벨링 데이터: *.json UHI – 1024 x 1024 UHI – 1024 x 1024 Specim - 512 x 512 Specim - 512 x 512 Drone – 256 x 256 Drone – 256 x 256 - 어노테이션 포맷
어노테이션 포맷 구분 속성명 타입 필수여부 설명 범위 비고 1 license list 이미지라이선스 1-1 name string Y 라이선스 기관 2 info object Y 데이터셋 정보 2-1 constributor string Y 데이터셋 제공기관 Pusan National University Consortium 2-2 date_created string Y 데이터셋생성일자 2023-08-04 2-3 description string Y 상세설명 Hyperspectral image dataset for seaweeds and benthic materials 2-4 version string Y 데이터셋 버전 2-5 location string Y 촬영지역 01~03 2-6 photo_class string Y 촬영구분 D,L,U 2-7 ares_num string Y 사진코스 A000,A001~ 2-8 date string Y 이미지촬영일자 20230601 2-9 time string Y 이미지촬영시간 0:00 2-10 weather string Y 날씨정보 W01~W04 2-11 rae_num string Y 밴드정보 RA,RE,01~39 2-12 class_gbn string Y 촬영내용 드론,지상,지상UHI,수중UHI 2-13 source_file string Y 원본파일 png,tif 3 type string Y 형식 “FeatureCollection” 4 images list 4-1 id number Y 식별자(파일명) 4-2 file_name string Y 이미지파일명 png,tif 4-3 width number Y 이미지너비 1024/512/256 4-4 height number Y 이미지높이 1024/512/256 5 features List 라벨링객체정보 5-1 type string Y 객체형식 feature 5-2 properties object Y 객체속성정보 5-2-1 image_id number Y 이미지식별자 0 5-2-2 category_id number Y 객체분류식별자 0~30 5-3 geometry object 객체폴리곤 5-3-1 type string Y 라벨링객체형식 “polygon” 5-3-2 coordinates List 라벨링객체 ※ 프로퍼티설명
프로퍼티설명 촬영지역 촬영구분 사진코스 날씨정보 밴드정보 01 : 제주 D : 드론 A000 : 드론/지상 W01 : 맑음 RA : 복사휘도, RE : 반사도 02 : 동해한 L : 지상 A001~ : 수중 W02 : 흐림 01~50 : 코드구분 03 : 울릉도 U : 수중 W03 : 흐림 - 01~20지상 : L W04 : 비 - 21~35수중 : U - 36~39드론 : D 객체분류식별자 0 : 갈파래류 1 : 청각류 2 : 대마디말류 3 : 그물바탕말류 4 : 모자반류 5 : 나래미역류 6 : 감태류 7 : 유절산호말류 8 : 무절산호말류 9 : 우뭇가사리류 10 : 도박류 11 : 돌가사리류 12 : 새우말류 13 : 거머리말류 14 : 암반류 15 : 모래류 16 : 인공어초류 17 : 성게류 18 : 불가사리류 19 : 소라류 20 : 군소_전복류 21 : 해면류 22 : 담치류 23 : 따게비류 24 : 고동류 25 : 군부류 26 : 조개류 27 : 연성_경성산호류 28 : 해양쓰레기류 29 : 폐어구류 30 : 기타 ○ 실제JSON 예시
{
"licenses": [
{
"name": "Pusan National University Consortium",
"id": 0,
"url": ""
}
],
"info": {
"contributor": "Pusan National University Consortium",
"date_created": "2023-11-07",
"description": "Hyperspectral image dataset for seaweeds and benthic materials",
"version": "1.0",
"location": "02",
"photo_class": "L",
"area_num": "A000",
"date": "2023-11-07",
"time": "15:29",
"wather": "W01",
"rea_num": "RA01",
"class_gbn": "지상",
"source_file": "02L_A000_9654_20231107_1529_W01_RA01.tif"
},
"type": "FeatureCollection",
"image": [
{
"id": 107,
"width": 512,
"height": 512,
"file_name": "02L_A000_9654_20231107_1529_W01_RA01.tif",
"license": 0
}
],
"features": [
{
"type": "Feature",
"properties": {
"image_id": 107,
"image_name": "107",
"categories_id": 29
},
"geometry": {
"type": "Polygon",
"coordinates": [
[
[
0.0,
-441.4365403543611
],
[
10.686576847492688,
-446.5662169793559
],
[
26.09188637398256,
-457.4405531157008
],
[
40.5910012224449,
-464.690110539932
],
[
52.37153203681919,
-473.75205732022005
],
[
62.339673495136594,
-484.6263934565668
],
[
81.36976173374205,
-495.50072959291174
],
[
79.71983469303333,
-512.0
],
[
512.0,
-0.0
],
[
0.0,
-0.0
],
[
0.0,
-441.4365403543611
]
]
]
}
},
{
"type": "Feature",
"properties": {
"image_id": 107,
"image_name": "107",
"categories_id": 30
},
"geometry": {
"type": "Polygon",
"coordinates": [
[
[
0.0,
-441.43654035436157
],
[
10.686576847492688,
-446.5662169793559
],
[
26.09188637398256,
-457.4405531157008
],
[
40.5910012224449,
-464.690110539932
],
[
52.37153203681919,
-473.75205732022005
],
[
62.339673495136594,
-484.6263934565668
],
[
81.36976173374205,
-495.50072959291174
],
[
79.71983469303268,
-512.0
],
[
0.0,
-512.0
],
[
0.0,
-441.43654035436157
]
]
]
}
}
]
} -
데이터셋 구축 담당자
수행기관(주관) : 부산대학교 산학협력단
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김원국 051-510-2353 [email protected] 사업 총괄 수행기관(참여)
수행기관(참여) 기관명 담당업무 부경대학교 산학협력단 데이터 획득 및 검수 블루리서치 데이터 획득 어니컴 주식회사 데이터 품질 관리 및 검수 주식회사 에스엔씨 데이터 가공 및 검수(라벨링) 지오랩스(주) 데이터 획득 및 정제 지오코드 주식회사 장비초기 검증 및 데이터 관리 프리베노틱스(주) AI모델개발 한국해양과학기술원 데이터 획득 및 검수 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 김원국 051-510-2353 [email protected] 김도형 051-302-0401 [email protected] AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 이준우 070-7005-8777 [email protected] 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 최영락 051-626-7206 [email protected] 최정운 051-626-7206 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.