-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.2 2023-05-25 라벨링데이터 수정 1.1 2022-11-04 라벨링데이터 수정 1.0 2022-07-13 데이터 최초 개방 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-06-25 산출물 추가 공개 저작도구 2022-10-20 신규 샘플데이터 개방 2022-07-12 콘텐츠 최초 등록 소개
– 전북 장수 사과의 크기 및 수확량을 인공지능 기술을 통해 예측하고 비파괴 샘플링 방식보다 정확한 인공지능 당도 측정으로 당도 측정기술을 정밀화·보편화하기 위한 정보를 전북 장수 사과 농가에게 제공하기 위한, 전북 장수 사과 당도 품질 데이터 구축 – 우리나라에서 대표적으로 재배되는 사과 4개 품종을 대상으로, 지상에서 촬영하는 2D RGB 이미지 데이터, 적외선 촬영 온도값, 토양 및 환경 센서 데이터, 당도 측정 데이터를 통합적으로 융합한 학습데이터 구축
구축목적
사과 품종(홍로, 후지, 시나노골드, 아리수)에 따른 당도 분류에 인공지능 활용을 위한 세그멘테이션 방식의 학습데이터 구축
-
메타데이터 구조표 데이터 영역 농축수산 데이터 유형 이미지 데이터 형식 jpg, json 데이터 출처 자체 수집 라벨링 유형 세그멘테이션(이미지/동영상) 라벨링 형식 json 데이터 활용 서비스 인공지능 기반 품종 분류 및 당도 등급 예측 모델, 인공지능 기반 시나노 골드 탐지 모델 데이터 구축년도/
데이터 구축량2021년/학습용 데이터 (목표량) 507,600개 / (구축량) 535,691개, 토양 및 환경센서 데이터 (목표량) 100,000set / (구축량) 177,984set, 적외선 데이터 (목표량) 100,000개 / (구축량)119,423개 -
1. 학습용 데이터-2D RGB 이미지 데이터-구축 규모
1. 학습용 데이터-2D RGB 이미지 데이터-구축 규모 작물명 비파괴등급 데이터 수 비율 시나노골드 A 17,207 3% B 20,581 4% C 5,586 1% 소계 43,374 8% 아리수 A 11,651 2% B 22,692 4% C 7,787 1% 소계 42,130 8% 홍로 A 66,309 12% B 95,138 18% C 29,315 5% 소계 190,762 36% 후지 A 127,509 24% B 87,734 16% C 44,182 8% 소계 259,425 48% 합계 535,691 100% - 학습데이터 구축 목표는 507,600개로, 실제 총 535,691개를 구축하여 목표대비 106% 초과 달성
2. 학습용 데이터 품종별 분포
3. 학습용 데이터 이외 추가 데이터 구축 규모학습용 데이터 이외 추가 데이터 추가 데이터 종류 구축 목표 실제 구축 규모 토양 및 환경센서데이터 100,000 set 177,984 set 적외선 데이터 100,000 개 119,423 개 -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드향후 활용 분야 및 활용 서비스 내역
- 사과 당도품질 학습데이터를 활용하여 Mask R-CNN 기반 영상데이터에서 사과당도 라벨링 데이터를 학습하여 사과 Detection, Segmentation을 통해 사과 당도를 예측 분류할 수 있는 모델 개발
- 기존 고비용, 기계식 분류방법으로 인해 대형 농가를 포함한 몇몇 농가에서만 가능한 자동화 분류 프로세스를, 저비용·간소화된 장비를 이용해 전반적인 모든 농가에 공급함으로써 고품질의 사과 생산량 확대 가능
-
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 폴리곤 객체 인식 (홍로 당도) Object Detection MASK R-CNN(resnet101) mAP@IoU 0.5 40 % 48.08 % 2 폴리곤 객체 인식 (후지 당도) Object Detection MASK R-CNN(resnet101) mAP@IoU 0.5 40 % 50.59 % 3 폴리곤 객체 인식 (아리수 당도) Object Detection MASK R-CNN(resnet101) mAP@IoU 0.5 40 % 42.5 % 4 폴리곤 객체 인식 (시나노골드 영역) Object Detection MASK R-CNN(resnet101) mAP@IoU 0.5 85 % 98.93 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드1. 객체 클래스 정의
- 객체의 품종명
1. 객체 클래스 정의 품종명 품종코드 시나노골드 SG 아리수 AR 홍로 HR 후지* HJ 품종 구분 농가코드 후지 세부 품종 구분 농가코드 후지 세부 품종 농가1 F01 미시마 농가10 F10 미야비 농가2 F02 미시마 농가11 F11 미시마 농가3 F03 미야비 농가12 F12 미야비 농가6 F06 미시마 농가13 F13 미야비 농가7 F07 미시마 농가14 F14 미야비 농가8 F08 미시마 농가15 F15 미야비 농가9 F09 미시마 농가4, 농가5에서는 후지 데이터를 취득하지 않음
2. 라벨링데이터 구성
2. 라벨링데이터 구성 구분 항목명 타입 필수여부 설명 범위 1. info – 기본 정보 1–1 description string Y 데이터셋 이름 apple_sugar_grade 1–2 url string Y 데이터셋 제작자 url https://www.jeonbuk.go.kr/ 1–3 version string Y 제작버전 v.1.0 1–4 year number Y 제작년도 2021 1–5 type string Y 데이터셋 타입 jpg 1–6 img_path string Y 이미지데이터 폴더 경로 /품종명/img 1–7 label_path string Y 라벨링데이터 폴더 경로 /품종명/json 2. collection - 수집 정보 2–1 apple_kind string Y 사과 품종명 [HR, AR, SG, HJ] 2–2 position string Y 촬영 농가 위치 F01~F15 2–3 obj_num string Y 과실 번호 001~999 2–4 sugar_content number 착즙당도 0.0~50.0 2–5 sugar_content_nir number Y 비파괴당도 0.0~50.0 2–6 tod_attribute string 적외선 촬영 장비 속성 FLIR C3X 2–7 tod_temper number 객체 표면 온도 -20 ~ 300 2–8 soil_ec number Y 토양 전기전도도(EC) 0~10 2–9 soil_temper number Y 토양 온도 0~60 2–10 soil_humidity number Y 토양 습도 0~100 2–11 soil_potential number Y 토양 수분장력 0 ~ -1000000 2–12 temperature number Y 온도 -40 ~ 124 2–13 humidity number Y 습도 0~100 2–14 sunshine number Y 일사량 0~2000 2–15 sunrise_time string Y 일출시간 04:00~09:59 2–16 sunset_time string Y 일몰시간 16:00~22:59 2–17 img_attribute string Y 촬영 장비 속성 SM-G965N, Canon EOS 600D 등 2–18 img_time string Y 촬영일시 YYYY-MM-DD 2–19 img_dist number 촬영 거리(cm) 1~1000 2–20 img_angle number 촬영 각도 0~360 3. licenses – 저작권 정보 3–1 licenses_id number 라이센스 고유 번호 1 3–2 licenses_name string 라이센스 이름 apple01 4. images – 이미지 데이터 정보 4–1 img_file_name string Y 원천데이터 이름(파일명) 예)20210824_11.5_F05_HR_01_01_00.jpg 4–2 img_height number Y 세로 1080~4800 4–3 img_width number Y 가로 1080~4800 5. annotations – 어노테이션 정보 5–1 segmentation string Y segmentation 좌표 예)[2.14474345,114.3444656] 5–2 area number Y 어노테이션 면적 0~ 23040000 5–3 bbox string Y bounding box 정보 예)[0.0, 0.0, 440.0, 273.0] 5–4 sugar_grade string Y 사과 당도 품질 클래스 [A,B,C] 3. 라벨링데이터 실제예시
- 객체의 품종명
-
데이터셋 구축 담당자
수행기관(주관) : 전라북도
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 강초희 063-280-3956 [email protected] · 업무 총괄 수행기관(참여)
수행기관(참여) 기관명 담당업무 전라북도 농업기술원 · 데이터 검증 장수신농 영농조합법인 · 데이터 수집 및 검증 캠틱종합기술원 · 크라우드소싱 인력 관리 및 사업관리 ㈜플로다 · 데이터 가공
· 모델 개발㈜디에스엔전주 · 데이터 전처리 ㈜엔에이치네트웍스 · 수집 데이터 검사 ㈜이레아이에스 · 데이터 수집
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.