-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2023-12-15 데이터 최종 개방 1.0 2023-04-30 데이터 개방(Beta Verison) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2023-12-15 산출물 전체 공개 소개
해양수산부 수산자원 회복 대상어종 18종 중 유일한 갑각류 꽃게를 대상으로 종묘장 환경에서 양식되는 어미꽃게 및 꽃게 종자의 성장단계별 이미지와 json 포맷으로 이루어진 데이터
구축목적
갑각류(꽃게) 종자생산 인공지능 학습데이터 구축으로 갑각류 종자보존 및 종자생산기술 고도화 및 서비스 확산
-
메타데이터 구조표 데이터 영역 농축수산 데이터 유형 이미지 데이터 형식 jpg 데이터 출처 자체 수집 라벨링 유형 바운딩박스(이미지), 폴리라인(이미지) 라벨링 형식 JSON 데이터 활용 서비스 꽃게 종자 생산장에서의 성장 관리 서비스 활용 데이터 구축년도/
데이터 구축량2022년/어미꽃게(53,731), 꽃게종자(106,900), (메타성)수질환경(256,755), (메타성)사육관리(1,562) -
1. 데이터 구축 규모
어미꽃게 및 꽃게종자 이미지 데이터 : 160,631건,
수질환경데이터(메타성) : 256,755건
사육관리데이터(메타성) : 1,562건데이터 구축 규모 데이터 구분 데이터 종류 파일포맷 데이터 규모 합계 원천데이터 어미꽃게 이미지(JPG) 53,731건 160,631건 꽃게종자 이미지(JPG) 106,900건 라벨링데이터 어미꽃게 텍스트(JSON) 53,731건 160,631건 꽃게종자 텍스트(JSON) 106,900건 메타성데이터 수질환경데이터 텍스트(JSON) 256,755건 258,317건 사육관리데이터 텍스트(JSON) 1,562건 2. 데이터 분포
어미꽃게 분포 : 포란의 성숙단계를 4단계로 분류(1단계, 2단계, 3단계, 4단계)
꽃게종자 분포 : 조에아부터 치게까지의 성장과정을 8단계로 구분
(조에아1기, 조에아2기, 조에아3기, 조에아4기, 메갈로파, 치게1기,
치게2기, 치게3기)데이터 분포 구분 수량(건) 비율(%) 어미꽃게 1단계 10,581 6.59 2단계 11,324 7.05 3단계 18,587 11.57 4단계 13,239 8.24 꽃게종자 조에아 1기 11,710 7.29 2기 10,895 6.78 3기 14,966 9.32 4기 12,530 7.8 메갈로파 21,488 13.38 치게 1기 8,713 5.42 2기 13,927 8.67 3기 12,671 7.89 합계 160,631 100 -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드1. 모델학습
갑각류 AI 모델 학습
● 데이터를 본 과제에서 구현한 파싱 프로그램을 활용하여 각 AI 모델(YOLOv4, EfficientNet, Keypoint RCNN)에 맞는 학습 데이터 포맷으로 변경
● 모델이 과적합되는 것을 방지하고 효과적으로 평가하기 위해 데이터를 Train/Valid/Test 셋으로 분리함
● 본 과제에서는 학습 데이터는 총 학습 데이터 중 80%, 검증 데이터는 10%, 시험 데이터는 10%로 분리함1. 모델학습 학습(Training) 검증(Validation) 시험(Test) 데이터 비율 80% 10% 10 갑각류 AI 모델 설명
갑각류 AI 모델 설명 모델 항목 세부 항목 활용 모델 측정지표 학습 활용 데이터 갑각류 어미 성숙도 분류 모델 어미 꽃게 객체 인식 YOLOv4 mAP 어미꽃게 라벨링 데이터 갑각류 종자 성장단계 분류 모델 꽃게 종자 객체 인식 YOLOv4 mAP 꽃게 종자 라벨링 데이터 조에아 객체 분류 EfficientNet Accuracy 꽃게 종자 라벨링 데이터 중 조에아 1~4기 항목만 치게 갑폭장 키포인트 객체 탐지 Keypoint RCNN AP 꽃게 종자 라벨링 데이터 중 치게 1~3기 갑각류 치게 외형 결손 분류 모델 치게 외형 결손 유무 분류 EfficientNet Accuracy 꽃게종자 라벨링 데이터 중 치게 외형 결손 유무 라벨링 데이터 ● 갑각류 어미 성숙도 분류 모델 (YOLOv4)
- YOLOv4는 GPU에서 실시간으로 동작하면서 하나의 GPU만으로도 매우 빠른 학습이 가능한 모델임. YOLO는 Classification과 Localization이 합쳐진 Object Detection 모델로 객체 검출 모델 중에서도 검출 성능이 높고 weight 파일을 이식하기 좋은 장점이 있음
- 이미지 분석에 최적화된 모델인 YOLOv4 모델 기반으로 확보된 어미꽃게 데이터셋을 활용하여 이미지 내 Bouding Box 라벨링 정보와 어미성숙단계 정보를 학습하여 갑각류 어미 성숙도를 1~4단계로 분류● 갑각류 종자 성장단계 분류 모델 (YOLOv4, EfficientNet, Keypoint R-CNN)
- YOLOv4 모델 기반으로 확보된 갑각류 종자 데이터셋을 활용하여 이미지 내 Bounding Box 라벨링 정보와 종자성장단계 정보를 학습하여 조에아, 메갈로파, 치게 단계로 분류
- YOLOv4 모델에서 조에아 객체 검출 시 조에아 세부 성장단계를 분류할 수 있도록 EfficientNet 모델을 기반으로 조에아 성장단계를 1~4기로 최종 분류
- EfficientNet 모델은 2019년 구글에서 제안한 최신 기법 Compound Scaling Method를 사용하였으며 모델의 정확도를 높일 때 고려하는 Width, Depth, Resolution의 조합을 효율적으로 조절함
- 치게의 경우 갑폭 길이를 통해 세부 성장단계를 1~3기로 분류할 수 있으므로 YOLOv4 모델에서 치게 객체 검출 시 Keypoint RCNN 모델을 통해 치게 갑폭 검출 후, 갑폭 길이 추정 알고리즘을 통해 계산 후 치게 성장단계를 1~3기로 최종 분류
- Keypoint RCNN 모델은 Mask-RCNN 논문에서 저자가 인체의 키포인트를 감지하는 모델의 기능을 확장하면서 구현된 모델임● 갑각류 치게 외형 결손 분류 모델 (EfficientNet)
- 치게 외형이 온전한 할 때 건강한 어미 꽃게로 성장할 수 있으므로 외형이 온전한 치게와 외형이 결손된 치게 데이터를 EfficienNet 모델로 학습하여 치게 외형 결손 유무를 분류1. 서비스 활용 예시
● 종자 생산장에서의 성장 관리 서비스 활용 예시
- 꽃게 종자를 AI 모델로 감시하며, 추론 결과를 활용하여 최적환경 도출 및 생산량을 예측
- 개체들의 밀도를 통해 적절한 급이량 산정과 먹이 공급 일정을 수립하여 먹이공급 자동화 설비에 활용가능
- 비용과 생산량을 비교분석, 인공종자 생산 현황(생산비, 수익 등) 분석● 학습 모델을 활용한 서비스 예시
- 갑각류 어미 성숙단계 분류 모델을 통해 산란일자 예측 응용 등의 서비스 활용에 기반이 될 수 있도록 어미꽃게 성숙도 단계별 정보 제공에 활용
- 갑각류 종자 성장단계 분류 모델을 통해 사료 혼합 비율 산정 등의 서비스 활용에 기반이 될 수 있도록 꽃게종자 성장단계별 정보 제공에 활용
- 갑각류 외형결손 유무 분류 모델을 통해 우량 종자 생산 서비스 활용에 기반이 될 수 있도록 치게 외형결손 여부에 대한 유무 정보 제공에 활용
-
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 조에아 객체 분류 Image Classification EfficientNet Accuracy 90 % 93.8 % 2 치게 질병 유무 분류 Image Classification EfficientNet Accuracy 90 % 93.1 % 3 어미꽃게 객체인식(바운딩박스) Object Detection YOLO v4 mAP 90 % 95.39 % 4 꽃게종자 객체인식(바운딩박스) Object Detection YOLO v4 mAP 90 % 99.96 % 5 키포인트 객체 탐지(치게 갑폭장) Keypoint Detection Keypoint RCNN mAP 90 % 97.7 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드1. 데이터 소개
꽃게 양식장에서 양식되는 꽃게 중 알을 포란한 어미꽃게의 성장단계와 배양된 꽃게종자의 성장단계별 이미지를 수집하고, 정제, 가공을 통해 학습용 데이터를 구축하였습니다. 또한 수집에 활용된 어미꽃게와 꽃게종자의 양식환경(수질환경, 사육관리) 데이터를 함께 수집하고 데이터셋으로 구축함으로써 인공지능을 활용한 갑각류(꽃게)의 종자 보존과 종자 생산기술 발전 및 최적의 사육환경과 양식장 관리 등에 활용할 수 있는 데이터 활용기반을 확보하였습니다.
2. 데이터 포맷
2. 데이터 포맷 데이터 구분 설명 포맷 예시 어미꽃게 원천데이터 알을 포란한 어미꽃게의 성숙과정을 4단계로 구분하여 촬영한 이미지 JPG 라벨링데이터 (바운딩박스) 알을 품은 어미꽃게 인식 JSON 꽃게종자 원천데이터 조에아부터 치게까지의 성장과정을 8단계로 구분하여 촬영한 이미지 JPG 라벨링데이터 (바운딩박스) 꽃게 종자 객체인식, (폴리라인) 종자의 길이(갑폭장/갑장) 추정에 활용 JSON 수질환경데이터 메타성데이터 양식장 수조에 수질측정 센서를 설치하여 획득한 수질환경정보(수온, 용존산소, 수소이온농도, 산화환원전위, 염분) JSON 사육관리데이터 메타성데이터 양식장 수조별 작성된 사육관리정보(입식, 폐사, 출하, 사료, 투약, 건강정보 등) JSON 3. 데이터 구성
3. 데이터 구성 Key Description Type id ID number name 카테고리명 string superclass 문 string class 상 string order 목 string id 이미지 ID number file_name 파일명 string width 이미지 폭 number height 이미지 높이 number date_captured 획득일시 string camera 촬영장비 number crab_id 어미게 ID number unit_id 수조 ID number id 어노테이션 ID number image_id 이미지 ID number category_id 카테고리 ID number tanknum 수조번호 number bbox 바운딩박스 number polyline 갑장/갑폭 array growth_level 성장단계 number disease_exist 외형결손 유무 number 4. 어노테이션 포맷
● 어미꽃게
어노테이션 포맷 구분 속성명 타입 필수
여부설명 범위 비고 1 categories array Y 카테고리 1-1 id number Y ID 1-2 name string Y 카테고리명 1-3 superclass string Y 문 1-4 class string Y 상 1-5 order string Y 목 2 images array Y 이미지 정보 2-1 id number Y 이미지 ID 2-2 file_name string Y 파일명 2-3 width number Y 이미지 폭 2-4 height number Y 이미지 높이 2-5 date_captured string Y 획득일시 날짜 : 연-월-일 시:분 2-6 camera number Y 촬영장비 0 * 촬영장비
(images.camera) 별도 작성3 crab array Y 어미게 정보 3-1 crab_id number Y 어미게 ID 3-2 unit_id number Y 수조 ID 4 annotations array Y 어노테이션 정보 4-1 id number Y 어노테이션 ID 4-2 image_id number Y 이미지 ID 4-3 category_id number Y 카테고리 ID 4-4 tanknum number Y 수조번호 4-5 bbox number Y 바운딩박스 4-6 polyline array Y 갑장/갑폭 4-7 growth_level number Y 성장단계 1/2/3/4/5/6/7/8 1: 조에아1기
2: 조에아2기
3: 조에아3기
4: 조아에4기
5: 메갈로파
6: 치게 1기
7: 치게 2기
8: 치게 3기4-8 disease_exist number Y 외형결손 유무 0/1 0:없음
1:있음(다리결손)● 꽃게종자
꽃게종자 구분 속성명 타입 필수
여부설명 범위 비고 1 categories array Y 카테고리 1-1 id number Y ID 1-2 name string Y 카테고리명 1-3 superclass string Y 문 1-4 class string Y 상 1-5 order string Y 목 1-6 family string Y 과 1-7 supercategory string Y 슈퍼카테고리 2 images array Y 이미지 정보 2-1 id number Y 이미지 ID 2-2 file_name string Y 파일명 2-3 width number Y 이미지 폭 2-4 height number Y 이미지 높이 2-5 date_captured string Y 획득일시 날짜 : 연-월-일 시:분 2-6 camera number Y 촬영장비 1/2/3/4 * 촬영장비
(images.camera) 별도 작성2-7 weather string Y 날씨 강수/
구름많음/
구름조금/
맑음/
흐림3 growth_levels array Y 성장단계 정보 3-1 level_id number Y 성장단계 ID 3-2 level_name number Y 성장단계명 4 annotations array Y 어노테이션 정보 4-1 id number Y 어노테이션 ID 4-2 image_id number Y 이미지 ID 4-3 category_id number Y 카테고리 ID 4-4 tanknum number Y 수조번호 4-5 bbox number Y 바운딩박스 4-6 polyline array Y 갑장/갑폭 4-7 growth_level number Y 성장단계 1/2/3/4/5/6/7/8 1: 조에아1기
2: 조에아2기
3: 조에아3기
4: 조아에4기
5: 메갈로파
6: 치게 1기
7: 치게 2기
8: 치게 3기4-8 disease_exist number Y 외형결손 유무 0/1 0:없음
1:있음(다리결손)● 수질환경데이터
수질환경데이터 구분 속성명 타입 필수 설명 범위 비고 여부 1 sensor_data array Y 센서데이터 1-1 tanknum int Y 수조번호 1-2 datetime datetime Y 측정일시 1-3 val_tp float Y 온도 1-4 val_do float Y 용존산소 1-5 val_ph float Y 수소이온농도 1-6 val_orp float Y 산화환원전위 1-7 val_sl float Y 염분 ● 사육관리데이터
사육관리데이터 구분 속성명 타입 필수 설명 범위 비고 여부 1 putin array Y 입식 1-1 farm_name string Y 양식장명 F01: 인천수산자원연구소 F02: 대산수산 F03: 대산종묘 1-2 tanknum number Y 수조번호 1-3 datetime datetime Y 입식일자 날짜 : 연-월-일 시:분:초 1-4 quantity number Y 입식미수 2 die array Y 폐사 2-1 putin_id number Y 입식번호 2-2 tanknum number Y 수조번호 2-3 datetime datetime Y 폐사일자 날짜 : 연-월-일 시:분:초 2-4 quantity number Y 폐사미수 3 measure array Y 측정 3-1 putin_id number Y 입식번호 3-2 tanknum number Y 수조번호 3-3 datetime datetime Y 측정일자 날짜 : 연-월-일 시:분:초 3-4 quantity datetime 측정미수 3-5 growth_div number Y 성장단계 ######### 1: 조에아 2: 메갈로파 3: 치게 3-6 body_length int Y 갑폭장길이(mm) 3-7 body_width number 갑장길이(mm) 3-8 water_NH4 number 암모늄 3-9 water_NO2 number 아질산염 3-10 water_NO3 number 질산염 4 ship array Y 출하 4-1 putin_id number Y 입식번호 4-2 tanknum number Y 수조번호 4-3 datetime datetime Y 출하일자 날짜 : 연-월-일 시:분:초 4-4 quantity number Y 출하미수 5 feed array Y 급이 5-1 putin_id number Y 입식번호 5-2 tanknum number Y 수조번호 5-3 feed_name string 사료명 5-4 mix number 사료배합정보 5-5 datetime datetime Y 사료공급일자 날짜 : 연-월-일 시:분:초 5-6 weight number Y 사료공급량(g) 6 medicine array Y 투약 6-1 putin_id number Y 입식번호 6-2 tanknum number Y 수조번호 6-3 datetime datetime Y 투약일자 6-4 drug_name string 약품명 6-5 dosage number Y 투여량(ml) 6-6 method string 투여방법 7 health array Y 건강 정보 7-1 putin_id number Y 입식번호 7-2 tanknum number Y 수조번호 7-3 appendage number 부속지 탈락 유무 0/1 0:없음 1:있음(다리결손) 7-4 swim number 유영 상태 0/1 0:없음 1:있음(유영가능) 7-5 stealth number 은신 0/1 0:없음 1:있음(은신가능) 7-6 feed number 사료 섭이도 0/1 0:없음 1:있음(사료섭취) 5. 실제 예시
● 어미꽃게
● 꽃게종자
● 수질환경데이터
● 사육관리데이터 -
데이터셋 구축 담당자
수행기관(주관) : ㈜빌리언이십일
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김동춘 031-342-2479 [email protected] 사업실무담당, 데이터 정제 수행기관(참여)
수행기관(참여) 기관명 담당업무 인천수산자원연구소 데이터 수집 ㈜글로비트 데이터 정제, 가공 ㈜티허브 AI 학습 모델 개발 ㈜에스유지 데이터 품질관리
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.