-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.2 2024-03-26 데이터 수정 개방 메타성데이터 추가 1.1 2023-08-17 Validation의 원천데이터 수정 1.0 2023-04-30 데이터 개방(Beta Verison) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2023-12-20 산출물 전체 공개 2023-07-21 세부데이터 수정 2023-05-15 키워드/활용AI 모델 및 코드/구축업체정보 개정 소개
제주도 내에서 양식되고 있는 주요 어종인 넙치의 질병에 대해 발생의 심각성에 따른 초기 신속 대응이 가능한 RGB이미지 및 초분광이미지 기반 인공지능 데이터
구축목적
제주도 양식장 내 관리하는 어류 중 질병 발생에 대한 판단을 빨리 할 수 있는 AI 서비스 개발에 활용할 수 있는 질병 예측 모델 구축 및 확산
-
메타데이터 구조표 데이터 영역 농축수산 데이터 유형 이미지 데이터 형식 jpg, png 데이터 출처 자체 수집 라벨링 유형 바운딩박스(이미지), 폴리곤(이미지) 라벨링 형식 JSON 데이터 활용 서비스 스마트양식 질병진단 SW, 서비스 활용 데이터 구축년도/
데이터 구축량2022년/넙치RGB(60,956), 넙치초분광(46,959), (메타성)수질환경(562,363), (메타성)사육관리(3,802) -
1. 데이터 구축 규모
넙치 질병 이미지 데이터 : 107,915건
수질환경데이터(메타성) : 562,363건
사육관리데이터(메타성) : 3,802건데이터 구축 규모 데이터 구분 데이터 종류 파일포맷 데이터 규모 합계 원천데이터 RGB 이미지(JPG) 60,956건 107,915건 초분광 이미지(PNG) 42,690건 이미지(LAW&HDR) 4,269건 라벨링데이터 RGB 텍스트(JSON) 60,956건 107,915건 초분광 텍스트 band(JSON) 42,690건 텍스트 merge(JSON) 4,269건 메타성데이터 수질환경데이터 텍스트(JSON) 562,363건 566,165건 사육관리데이터 텍스트(JSON) 3,802건 2. 데이터 분포
데이터 분포 구분 수량(건) 비율(%) RGB 60,956 56.49 초분광_band 42,690 39.56 초분광_merge 4,269 3.95 합계 107,915 100 -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드1. 모델학습
넙치 질병 데이터 인공지능 모델 학습
● 모델이 과적합되는 것을 방지하고 효과적으로 평가하기 위해 데이터를 Train/Valid/Test 셋으로 분리함넙치 질병 데이터 AI 모델 설명
모델학습 세부 항목 활용 모델 측정지표 학습 활용 데이터 질병 발생 예측 성능 Informer F1-점수 넙치질병 라벨링 데이터(질병정보) RGB 이미지 기반 증상 부위 검출 성능 YOLOv8 mAP 넙치질병 RGB 라벨링 데이터(이상증상) RGB 이미지 기반 질병 다중 분류 성능 VGG16 F1-점수 넙치질병 RGB 라벨링 데이터(질병정보) 초분광 이미지 기반 증상 탐지 성능 Deeplabv3+ mIoU 넙치질병 초분광 라벨링 데이터(이상증상) 초분광 이미지 기반 질병 다중 분류 성능 VGG16 F1-점수 넙치질병 초분광 라벨링 데이터
(질병정보)● 질병 발생 예측 성능 (Informer)
- Informer 모델은 긴 시퀀스에 대한 시계열 예측을 수행하는 대표적인 Transformer 기반 모델입니다. ProbSparse 셀프 어텐션을 사용하여 연산 복잡도를 낮추고 빠른 예측을 수행함
- 인코더-디코더 구조를 이루고 있으며 인코더의 입력 시퀀스 일부와 예측해야 하는 시퀀스를 합쳐 디코더의 입력으로 사용● RGB 이미지 기반 증상 부위 검출 성능 (YOLOv8)
- 증상이 있는 부분에만 바운딩 박스가 쳐져 있는 RGB 이미지와, 두 자리 숫자로 최대 4개까지 부여된 질병 코드를 원-핫 벡터 형태로 표현한 레이블 정보를 RGB 이미지 기반 증상 탐지 모델 학습 데이터로 사용
- 출혈, 궤양, 안구 증상, 부식, 종양 총 5개의 증상 중 발현된 증상이 있을 경우 이미지에서 증상의 위치와 증상명을 출력● RGB 이미지 기반 질병 다중 분류 성능 (VGG16)
- 이미지 데이터를 입력으로 받는 VGG16 모델은 데이터 기반 학습이 이루어지는 블록이 16개이며 단순한 구조지만 이미지 분류 및 객체 탐지 등 이미지 인식 문제에서 뛰어난 성능을 보임.
- VGG16 모델 구조를 사용하여 RGB 이미지 기반 다중 질병 분류 모델, 초분광 이미지 기반 다중 질병 분류 모델을 개발● 초분광 이미지 기반 증상 탐지 성능 (Deeplabv3+)
- COCO 데이터셋으로 학습된 Xception을 백본 네트워크로 사용하는 의미론적 분할 모델인 이미지 데이터를 입력으로 받아 이미지 내 객체가 속한 클래스를 픽셀별로 나타내는 세그멘테이션 맵을 출력합니다. Atrous Spatial Pyramid Pooling과 Depthwise separable convolution 기법을 통해 성능을 최대화하였으며 인코더-디코더 구조를 통해 GPU 연산량을 감소하는 특징
- DeepLabV3+ 구조와 초분광 이미지를 활용하여 초분광 이미지 기반 증상 탐지 모델을 개발● 초분광 이미지 기반 질병 다중 분류 성능 (VGG16)
- 증상이 있는 부분에만 바운딩 박스가 쳐져 있는 17,000장의 초분광 이미지와 두 자리 숫자로 최대 4개까지 부여된 질병 코드를 원-핫 벡터 형태로 표현한 레이블 정보를 초분광 이미지 기반 다중 질병 분류 모델 학습 데이터로 사용
- 학습이 잘 이루어지고 있는지 확인하기 위해 2,125장의 초분광 이미지와 레이블 정보를 검증 데이터로 사용
- 모델의 학습이 끝나면 바이러스성출혈성패혈증, 림포시스티스병, 여윔병, 스쿠티카병, 연쇄구균증, 비브리오병, 에드워드병 총 7가지 증상에 대한 모델의 분류 결과를 출력1. 서비스 활용 예시
● 시계열 데이터 기반 양식장 수조 D+1일 질병 발생 여부 예측 서비스
- 시계열 데이터를 활용한 질병 예측 모델을 활용하여 양식장 수조의 질병 발생 가능성을 추론하고, 질병 발생 가능성의 유무에 따라 조치 방안을 설계하여, 양식장 수조 안 어류의 질병 발생을 예방하거나 질병을 예방하기 위한 양식장 관리 방안을 새롭게 조치할 수 있음
- 양식장에 있는 어류들의 질병 발생 가능성을 예측하여 그 원인을 파악할 수 있고 양식장의 환경 관리를 효율적으로 할 수 있으므로 어류 양식장에서 유용하게 쓰일 수 있다고 기대● RGB이미지 기반 양식장용 간이진단 서비스
- 넙치질병 RGB 이미지 데이터는 양식현장에서 간이진단 서비스 개발에 활용
- 넙치를 꺼내서 촬영하면 바로 질병을 간이진단 할 수 있도록 서비스● 초분광 이미지 기반 전문가용 신속진단 서비스
- 넙치질병 초분광 이미지 데이터는 수산질병관리사 등 전문가들이 신속하게 진단하여 대응할 수 있도록 서비스를 개발할 수 있음 -
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 질병 발생 예측 성능 Prediction Informer F1-Score 0.9 점 0.9508 점 2 RGB 이미지 기반 질병 다중 분류 성능 Image Classification VGG16 F1-Score 0.7 점 0.8115 점 3 초분광 이미지 기반 질병 다중 분류 성능 Image Classification VGG16 F1-Score 0.7 점 0.7806 점 4 RGB 이미지 기반 증상 부위 검출 성능 Object Detection YOLO v8 mAP 60 % 75.83 % 5 초분광 이미지 기반 증상 탐지 성능 Object Detection Deeplabv3+ mIoU 60 % 73.68 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드1. 데이터 소개
- 제주도 내에서 양식되고 있는 주요 어종인 넙치의 질병에 대해 발생의 심각성에 따른 초기 신속 대응이 가능한 기술 개발을 위한 인공지능 데이터 구축
- 제주도 양식장 내 관리하는 어류 중 질병 발생에 대한 판단을 빨리 할 수 있는 AI 서비스 개발에 활용할 수 있는 질병 예측 모델 구축 및 확산
2. 데이터 포맷
데이터 포맷 데이터 구분 설명 포맷 RGB 이미지 원천데이터 질병이 의심되는 넙치에 대한 개체를 이미지로 촬영 및 수집 JPG 라벨링데이터 (바운딩박스) 넙치 이미지의 이상증상을 바운딩박스 라벨링 JSON 초분광 이미지 원천데이터 질병이 의심되는 넙치에 대한 개체를 초광분 이미지로 촬영 및 수집 PNG LAW&HDR 라벨링데이터 (폴리곤) 넙치 이미지의 이상증상을 세그멘테이션 폴리곤 라벨링 JSON 수질환경데이터 메타성데이터 양식장 수조에 수질측정 센서를 설치하여 획득한 수질환경정보(수온, 용존산소, 수소이온농도, 산화환원전위, 염분) JSON 사육관리데이터 메타성데이터 양식장 수조별 작성된 사육관리정보 JSON
3. 어노테이션 포맷● RGB 이미지
RGB 이미지 구분 속성명 타입 필수여부 설명 범위 비고 1 categories 카테고리 1-1 id number Y ID 1-2 name string Y 카테고리명 1-3 superclass string Y 문 1-4 class string Y 상 1-5 order string Y 목 1-6 family string Y 과 1-7 supercategory string Y 슈퍼카테고리 2 images 초분광 2-1 id number Y ID 2-2 file_name string Y 초분광 파일명 2-3 width number Y 가로(pixel) 2-4 height number Y 세로(pixel) 2-5 date_captured string Y 획득일시 날짜 : 연-월-일 2-6 type string Y 데이터 타입 "Hyper Spectral", "RGB" 2-7 angle number Y 촬영각도 3 growth_levels 3-1 level_id number Y 성장단계번호 3-2 level_name string Y 성장단계명 4 annotations 어노테이션 정보 4-1 id number Y ID 4-2 fishno number Y 개체번호 4-3 image_id number Y 이미지 ID 4-4 category_id number Y 카테고리 ID 4-5 tanknum number Y 수조번호 4-6 bbox number 바운딩박스 4-7 symptom_type number 증상구분 1~8 4-8 symptom number 증상 1~31 4-9 disease number 질병종류 1~21 4-10 body_weight number Y 체중 4-11 body_length number Y 체장 4-12 growth_level number Y 성장단계 2001-02-03 1: 치어 2: 준성어 3: 성어 ● 초분광 merge초분광 merge 구분 속성명 타입 필수여부 설명 범위 비고 1 categories 카테고리 1-1 id number Y ID 1-2 name string Y 카테고리명 1-3 superclass string Y 문 1-4 class string Y 상 1-5 order string Y 목 1-6 family string Y 과 1-7 supercategory string Y 슈퍼카테고리 2 growth_levels 2-1 level_id number Y 성장단계번호 2-2 level_name string Y 성장단계명 3 hdr 초분광 3-1 id number Y ID 3-2 hdr_file_name string Y 초분광 파일명 3-3 width number Y 가로(pixel) 3-4 height number Y 세로(pixel) 3-5 date_captured string Y 획득일시 날짜 : 연-월-일 3-6 type string Y 데이터 타입 "Hyper Spectral", "RGB" 3.7 angle number Y 촬영 앵글 3.8 band_num number Y 밴드수 4 fish_annotations 개체 정보 4-1 id number Y ID 4-2 fishno number Y 개체번호 4-3 category_id number Y 카테고리 ID 4-4 tanknum number Y 수조번호 4-5 disease number 질병종류 1~21 4-6 body_weight number Y 체중 4-7 body_length number Y 체장 4-8 growth_level number Y 성장단계 1/2/3 1: 치어 2: 준성어 3: 성어 4-9 polygon number 개체 폴리곤 5 merge_annotations 통합 어노테이션 정보 5-1 id number ID 5-2 fishno number 개체번호 5-3 category_id number 카테고리 ID 5-4 tanknum number 수조번호 5-5 symptom_type number 증상구분 1~8 5-6 symptom number 증상 1~31 5-7 disease number 질병종류 1~21 5-8 body_weight number 체중 5-9 body_length number 체장 5-10 growth_level number 성장단계 2001-02-03 1: 치어 2: 준성어 3: 성어 5-11 polygon number 폴리곤 ● 초분광 band
초분광 band 구분 속성명 타입 필수여부 설명 범위 비고 1 categories 카테고리 1-1 id number Y ID 1-2 name string Y 카테고리명 1-3 superclass string Y 문 1-4 class string Y 상 1-5 order string Y 목 1-6 family string Y 과 1-7 supercategory string Y 슈퍼카테고리 2 growth_levels 2-1 level_id number Y 성장단계번호 2-2 level_name string Y 성장단계명 3 image 초분광 3-1 id number Y ID 3-2 hdr_id string Y 초분광 ID 3-3 file_name string Y 이미지 파일명 3-4 width number Y 가로(pixel) 3-5 height number Y 세로(pixel) 3-6 date_captured string Y 획득일시 날짜 : 연-월-일 3-7 type string Y 데이터 타입 "Hyper Spectral", "RGB" 3-8 angle number Y 촬영 앵글 3-9 r_band number Y R대역밴드번호 3-10 g_band number Y G대역밴드번호 3-11 b_band number Y B대역밴드번호 4 annotations 통합 어노테이션 정보 4-1 id number Y ID 4-2 fishno number Y 개체번호 4-3 category_id number Y 카테고리 ID 4-4 tanknum number Y 수조번호 4-5 disease number 질병종류 1~21 4-6 body_weight number Y 체중 4-7 body_length number Y 체장 4-8 growth_level number Y 성장단계 2001-02-03 1: 치어 2: 준성어 3: 성어 *증상구분(symptom_type)
증상구분 1 2 3 4 5 안구 아가미 지느러미 체표 주둥이 6 7 8 복부 체색 기타 *증상(symptom)
증상 1 2 3 4 5 출혈 궤양 부식 종양 갈변 6 7 8 9 10 기포형성 돌기 돌출 미란 발적 11 12 13 14 15 백탁 비늘탈락 빈혈 솜털 여윔 16 17 18 19 20 적변 점액과다 점액변 증생/유착 척추만곡 21 22 23 24 25 천공 충혈 탈장 퇴색 팽만 26 27 28 29 30 함몰 항문농양 흑변 흑화 복부 기타 31 체색 기타 *질병종류(disease)
질병종류 1 2 3 4 5 바이러스성출혈성패혈증 림포시스티스병 이리도바이러스병 바이러스성신경괴사증 버나바이러스병 6 7 8 9 10 여윔병 쿠도아병 스쿠티카병 (a) 스쿠티카병 (m) 백점병 11 12 13 14 15 연쇄구균증 (p) 연쇄구균증 (i) 비브리오병 (h) 비브리오병 (a) 비브리오병 (p) 16 17 18 19 20 비브리오병 (ang) 비브리오병 (s) 비브리오병 (pd) 에드워드병 활주세균병 21 기타 -
데이터셋 구축 담당자
수행기관(주관) : 제주특별자치도
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 송형민 064-710-2583 [email protected] 사업총괄 관리 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜피쉬케어 데이터 수집 대한수산질병관리사회 데이터 정제 ㈜글로비트 데이터 가공, 검수 부산대학교 산학협력단 AI 학습 모델 개발 제주대학교 산학협력단 질병 진단 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 송형민 064-710-2583 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.