지능형 스마트팜 통합 데이터(토마토)
- 분야농축수산
- 유형 텍스트 , 이미지
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2023-06-30 원천데이터 수정 1.0 2022-07-13 데이터 최초 개방 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2023-10-26 AI 모델 상세 설명서 추가 개방 2023-06-30 세부데이터 수정 2022-10-21 신규 샘플데이터 개방 2022-09-21 AI 모델 업데이트 2022-07-13 콘텐츠 최초 등록 소개
• AI 기반의 신속·정확한 실시간 조기 작물 생육 진단시스템을 도입하여 효율적인 작물재배를 지원하고, 농작물의 품질관리 및 생산력 향상을 도모와 재배환경에 따른 시설 작물의 생육 및 생산량 변화 예측이 가능한 빅데이터 기반 농업 생산성 향상을 위한 플랫폼 개발에 사용될 수 있는 AI학습용 데이터의 구축 • 토마토, 파프리카 작물별 이미지 데이터 각 20만건(총 40만건), 온실환경 시계열 데이터 각 20만건(총 40만건) 및 RFP요구사항 외 시계열 가공 데이터 각 2만건(총 4만건)을 수집, 총 84만건의 AI학습용 데이터 수집 및 구축
구축목적
• AI 기반의 신속·정확한 실시간 조기 작물 생육 진단시스템을 도입하여 효율적인 작물재배를 지원하고, 농작물의 품질관리 및 생산력 향상을 도모와 재배환경에 따른 시설 작물의 생육 및 생산량 변화 예측이 가능한 빅데이터 기반 농업 생산성 향상을 위한 플랫폼 개발에 사용될 수 있는 AI학습용 데이터의 구축
-
메타데이터 구조표 데이터 영역 농축수산 데이터 유형 텍스트 , 이미지 데이터 형식 이미지 데이터: PNG, 라벨링 데이터: JSON, 시계열 데이터: EXCEL(TEXT) 데이터 출처 토마토 농가 6개 이미지 및 시계열 데이터 자체 수집 라벨링 유형 이미지 내 개체 폴리곤 및 바운딩박스 어노테이션 라벨링 형식 JSON 데이터 활용 서비스 AI assisted 웹 기반 시설 작물 생육진단과 전문가 파견 서비스, 작물 재배 물품 구매대행 서비스 데이터 구축년도/
데이터 구축량2021년/이미지 데이터: 209,100 건, 라벨링 데이터: 209,100 건, 시계열 데이터: 214,200 건 -
1. 구축 데이터 규모
1. 구축 데이터 규모 구분 성과목표 구축실적 달성율 데이터셋명 촬영 이미지 데이터 200,000 209,100 105% 온실환경 시계열 센서 데이터 200,000 214,200 107% 생육지표 측정 데이터 9,800 9,800 100% 끈끈이 촬영 96 96 100% 시계열 가공 데이터 20,000 20,000 100% 학습모델 이미지 판독 모델 구분률 95% 구분률 95% 100% 시계열 예측 모델 예측율 95% 예측율 95% 100% 2. 구축 데이터 분포
2. 구축 데이터 분포 토마토 이미지 데이터 구 분 생장 화방 줄기 엽장 개화군 착과군 꽃 꽃 열매 만개꽃 길이 높이 두께 엽폭 (개화군) (착과군) 수 량 25,000 5,000 10,000 7,000 13,000 95,000 10,000 3,000 39,000 21,000 합 계 209,100 건 / 998.78 GB -
-
AI 모델 상세 설명서 다운로드
AI 모델 다운로드 AI 모델 상세 설명서 다운로드1. 모델 학습
- 이미지 바운딩박스 객체 인식 : 객체 탐지 알고리즘 중에서 YOLO 계열의 YOLOv5 를 사용하여 학습 모델 설계
- AI 학습 중에서 image classification 은 주어진 이미지를 학습한 Class들 중 하나로 분류하는 학습으로 이미지에 하나의 객체가 있을 때 이 객체가 학습한 Class 중 어떠한 Class에 속하는지를 분류하기 위함
- 딥러닝 기반 방식은 Feature Extractor와 Classifier가 분리되어 있는 기존 전통적인 머신 러닝 방법과는 달리 Feature Extractor, 즉 이미지의 특징(feature)을 뽑아내는 것과 Feature들을 통해 어떠한 class에 속하는지 분류하는 Classifier(분류기)를 학습하는 것이 통합되어 있어 한꺼번에(end-to-end) 학습이 가능
- 이미지 내 특정 영역을 Detection한 후, cropping하여 그 부분이 어떠한 클래스에 속하는지 판단하는 용도로 생육 측정에 활용될 수 있음. 즉, Multi-Class Object Detection을 할 때 학습할 데이터가 부족한 경우, Multi-Class Object Detection Network
대신, One Class Object Detection + Classification의 2-Stage Approach로 활용
- 이미지 폴리곤 세그먼트 탐지: 물체의 사각형 위치만을 찾는 객체 탐지에 추가로 물의 경계를 마스크(mask) 또는 세그먼트(segment) 형태로 찾아내는 학습.
- 동일 클래스의 여러 객체가 있을 경우에 모든 객체를 하나의 라벨로 동일하게 처리하는 semantic segmenation 과 각각을 다른 라벨로 구분하는 instance segmentation이 있으며, 일반적으로 instance segmentation을 구현 모델로 제시됨.
- 전통적인 AI 학습으로는 학습이 어렵기 때문에 딥러닝 방식의 학습모델이 필요하며 대표적인 딥러닝 학습 모델은 객체탐지 학습모델인 R-CNN에서 발전한 Mask R-CNN 과 또 다른 객체탐지 학습모델인 YOLO에서 발전한 YOLACT이 있음.
- 본 과제에서 폴리곤 세그먼트 탐지는 YOLACT을 기반으로 구현함.
- Mask R-CNN은 localization을 수행하는 단계(stage)와 segmentation을 수행하는 단계가 분리되어 있는 것에 대하여 YOLACT은 localization 과 segmentation을 프로토타입 마스크 생성과 인스턴스 별 마스크 coefficient 예측을 병렬 작업으로 나누어서 해결하는 방식으로 단일 stage 로 처리함.
- IoU ≧ 0.5 으로 그린 Precision-Recall Curve 아래 면적 AP를 11보간법으로 계산한 클래스 평균값
-
환경 시계열 데이터 예측 학습모델: 시계열 예측에 효율적인 RNN 계열의 LSTM 딥러닝 학습모델로 설계 및 구현.
- 시간정보라는 추가정보에도 시계열 데이터는 자기상관 문제로 예측 차이 발생 가능하며, 예측과 실제가 학습과정에서와 달리 현실에서는 차이가 더 커질 가능성에 대응 필요.
- AI 시계열 데이터 분석의 기본 회귀방법은 OLS(Ordinary Least Square)로 예측한 값과 실제 값의 오차를 제곱하여 합계를 낸 값이 최소가 되도록 보정하는 가중치 벡터를 구하는 방법을 사용하나 시계열 데이터에서 오차는 서로 상관관계가 있을 가능성이 있으며 바로 인접한 시계열이 아니라 먼 과거에서부터 축적된 영향도 포함됨.
- 현재 상태 값이 이전 상태 값에 너무 밀접하게 연관이 있고, 미래 상태 값에도 영향을 크게 준다면 회귀분석 방식으로 시계열 데이터를 계산하는 것보다 더 증가/감소된 값이 발생함.
- 시계열 데이터가 이런 특징을 가지는 자기상관(autocorrelation) 영향으로 회귀분석과 틀어지는 자기회귀(autoregression)를 최소화 또는 제거하는 체계를 구성함.
- 딥러닝 방식 예측모형 AI 방식으로 단방향인 타 신경망과는 달리 입력과 출력을 연결하여 이전 출력이 새로운 입력이 되도록 순환적인 구조를 갖는 순환신경망(Recurrent neureal network, RNN)을 활용하여 시계열 순차적인 데이터 분석에 대응함.
[RNN을 기반으로 한 LSTM 모델 구조]
2. 서비스 활용 시나리오
1. 모델 학습 응용서비스(예시) 데이터 명 AI 모델 모델 성능 지표 스마트팜 과채류 작물의 디지털 재배관리를 위한 온라인 컨설팅(의사결정 지원) SW 플랫폼 온실 환경 시계열 데이터 시계열 데이터 기반의 온실 환경 예측 모형 예측 정확도 95% APP으로 작물 개체 촬영 시 실측 사이즈와 생육 표준과의 차이 정도 변별 및 시계열 데이터 분석 결과 생육 가이드 제공 서비스 토마토/파프리카 개체 이미지 데이터 이미지 속에서 토마토/파프리카 개체 판별 및 생육 크기 추출 크기 추출 정확도 95%
- 이미지 바운딩박스 객체 인식 : 객체 탐지 알고리즘 중에서 YOLO 계열의 YOLOv5 를 사용하여 학습 모델 설계
-
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 바운딩박스 객체 인식 Object Detection Yolov5 mAP 95 % 95.9 % 2 폴리곤 객체 인식 Object Detection YOLACT mAP 95 % 96.5 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드구축데이터 정의
1. 데이터 포맷 정의
구축데이터 정의 항목 데이터 종류 데이터 포멧 비고 토마토 촬영 이미지 데이터 PNG, JSON 라벨링 데이터와 병합 온실 환경 시계열 센서 데이터 EXCEL(TEXT) 생육지표 측정 데이터 EXCEL(TEXT) 끈끈이 촬영 PNG, JSON 시계열 가공 데이터 EXCEL(TEXT) 2. 구축 데이터 명세
2. 구축 데이터 명세 구분 데이터 명 데이터속성 이미지 생육지표 Plant height (초장) number(cm) weekly growth(주간 생장길이) number(cm) number of leaves(엽수) number(개) leaf length(엽장) number(cm) leaf width(엽폭) number(cm) stem diameter(줄기 경경) number(cm) Height of the flower truss(화방 높이) number(cm) Number of fruit per plant(착과수) number(개) Number of fruit per truss(착과군) number(개) Flowering node (개화 마디) number(마디) Fruiting node (착과 마디) number(마디) Number of the flower(꽃수: 꽃봉우리도 포함) number(개) Number of the flower per truss(개화군: 화방에서 만개한 꽃 수) number(개) Number of the flower fully developed(만개한 꽃 수) number(개) 텍스트 생육조사
(파괴데이터)harvested fruits, 수확과 수 number(개) harvested fruits, 수확과 중량 number(kg) harvested fruits, 수확과 폭 number(cm) harvested fruits, 수확과 너비 number(cm) 과실 당도 number(brix) 과실 Ph number 온실환경
시계열
DATA시계열(센서) 온도 센서 number(℃) 일사량 센서 number(W/㎡) 풍향 센서 number( ° ) 풍량 센서 number(m/s) 감우 센서 TEXT(on/off) 습도 센서 number(%) CO2 센서 number(ppm) 급액 중량 센서 number(kg) 배액 중량 센서 number(kg). 급액용 EC 센서 number(ms/cm) 배액용 EC 센서 number(ms/cm) 급액용 pH 센서 number 배액용 pH 센서 number 배지온도 센서 number(℃) 배지 EC 센서 number(ms/cm) 열화상 센서 ( 10개 주요 포인트 온도 정보) number(℃) 시계열(수기) 천창(top window) ON/OFF TEXT 측창(side wall window) ON/OFF TEXT 차광막(shading screen) ON/OFF TEXT 유동 팬(flow fan) TEXT 온실 통합 제어기(greenhouse controller) TEXT 관수 모터(irrigation motor) TEXT 관수 밸브(irrigation valve) TEXT 생산량(품질등급/출하량) TEXT 에너지 number(KW) 시계열 AI
가공데이터양수분 radiation sum week, 주당 누적광량 number(J/cm2/week) gem outdoor temp, 외기 온도 number(℃) water gift, 급액량 number(L/m2/week) drain amount, 배액량 number(L/m3/week) turn size, 1회급액량 number(cc/drop) time first turn, 급액시작시각 TIME(hh:mm) time last turn, 급액종료시각 TIME(hh:mm) WG at first turn, 주간함수율 number(%) WG after last turn, 야간함수율 number(%) EC gift light, 주간 공급 EC number(mS) EC gift dark, 야간 공급 EC number(mS) EC roots / drainw, 근권 또는 배액 EC number(mS) pH gift, 공급 number(brix) Potassium at, 칼륨 number(mmol/L) Calcium at, 칼슘 mmol/L number(mmol/L) 스크린 screen 1, 주당 스크린 1 활용시간 number(h/week) screen 2, 주당 스크린 2 활용시간 number(h/week) solar screen hours, 주간(낮) 스크린 활용시간 h/week number(h/week) close to radiation, 스크린 닫히는 순간광량-광량제어 watt number(watt) close on outside T, 스크린 닫히는 외기온도-온도제어 number(℃) close pipe question 1, 스그린 1이 닫히는 난방파이프 온도 number(℃) close on time, 고정시간-시간제어 TIME(hh:mm) 환경계측 gem day T, 최고온도 number(℃) gem night T, 최저온도 ℃ number(℃) gem T, 평균온도 ℃ number(℃) gem RV day, 주간상대습도 number(%) gem RV night, 야간상대습도 number(%) gem VD day, 주간절대습도 number(g/m3) gem VD night, 야간절대습도 number(g/m3) gem pipe rail T day, 주간 난방관 온도 number(℃) gem pipe rail T night, 야간 난방관 온도 number(℃) gem growth tube T etm, 국부난방관 온도 number(℃) gem mat T 24h, 24시간 평균온도 number(℃) avg CO2 day, 일평균 이산화탄소 농도 number(ppm) ingest CO2 level, 이산화탄소 공급농도 number(ppm) dosing hours of CO2 / day, 이산화탄소 1일 총공급시간 number(h/day) min burner position CO2, 단위면적당 이산화탄소 공급량 number(m2/hr/ha) 환경설정 burn T day, 주간설정온도 ℃ number(℃) heating rate to day, 난방속도 number( ℃/h) time on day T, 주간시작시간 number(hh:mm) burn T night, 야간설정온도 number(℃) image to night, 야간하강속도 number( ℃/h) time at night T, 야간시작시간 TIME(hh:mm) before night T, 야간전(조야) 온도 number(℃) duration on night T 밤의 길이 hours number(hour) ventilation T day, 주간환기온도 number(℃) min window position, 최소 창 개폐율 number(%) light influence vent T day, 개폐가감 온도 number(℃) ventilation T night, 야간환기온도 number(℃) 3. 특성 분류 정의
3. 특성 분류 정의 클라스 분류기준 생육지표 초장 cm 식물체 키 생장길이 cm 지난주 생장점에서 금주 생장점 길이 엽수 개 개화화방 아래 완전 전개된 엽의 개수 엽장 cm 맨 위에 개화 화방에서 아래로 1번째 해당하는 잎 길이 엽폭 cm 맨 위에 개화 화방에서 아래로 1번째 해당하는 잎의 너비 줄기두께 cm 개화화방(생장점 첫 화방) 위치에 바로 아래의 줄기 굵기 화방높이 cm 개화화방에서 생장점까지의 거리 착과수 개 나무에 열매가 달려 있는 전체 개 수(개화군 포함) 개화군 점 꽃이 핀 개수를 점수로 측정 개화마디 마디 현재 꽃이 피는 위치(마디) 꽃수 개 꽃이 핀 개수(꽃봉우리포함) 착과군 점 수정된 열매가 달려 있는 것을 점수로 측정(개화군 내) 착과마디 마디 현재 착과가 된 위치(마디), 과일이 보이고(씨방이 보이면) 착과로 간주 파괴지표 수확과 수 점 수확하는 열매를 점수로 측정 생과중량 g 수확과 중량 과폭 cm 수확과 너비 과고 cm 수확과 높이 당도 Brix 수확과의 당도 pH 수확과의 산도 4. 라벨링 및 어노테이션 구조 정의
- 데이터 라벨링/ 어노테이션 방법
데이터 라벨링/ 어노테이션 방법 항목명 타입 필수여부 설명 version String Y 버전 flags Dict N label의 상위 클래스 shapes Object N 어노테이션 정보 shapes[].label String Y 라벨 이름 shapes[].points[] Number Y 좌표 정보 shapes[].group_id Number Y 그룹 아이디 shapes[].shape_type String Y 어노테이션 타입 shapes[].flags Dict N label의 상위 클래스 imagePath String Y 이미지 이름 imageData String N 이미지 해시 값 imageHeight Number Y 이미지 세로 길이 imageWidth Number Y 이미지 가로 길이
5. 어노테이션 포맷
5. 어노테이션 포맷 구분 항목명 타입 필수여부 설명 1 version String Y 버전 2 flags Dict N label의 상위 클래스 3 shapes Object N 어노테이션 정보 3-1 shapes[].label String Y 라벨 이름 3-2 shapes[].points[] Number Y 좌표 정보 3-3 shapes[].group_id Number Y 그룹 아이디 3-4 shapes[].shape_type String Y 어노테이션 타입 3-5 shapes[].flags Dict N label의 상위 클래스 4 imagePath String Y 이미지 이름 5 imageData String N 이미지 해시 값 6 imageHeight Number Y 이미지 세로 길이 7 imageWidth Number Y 이미지 가로 길이 8 file_attributes Object Y 파일 메타 정보 8-1 fileVersion String Y 파일명 체계 버전 8-2 farmId String Y 농장 ID 8-3 week String Y 절대주차 8-4 number String Y 객체 번호 8-5 type String Y 촬영 이미지 유형 8-6 flowerCluster String Y 화방구분 8-7 date Date Y 이미지 수집 날짜 6. 샘플 데이터
6. 샘플 데이터 샘플데이터 원본 어노테이션 화면 json 파일 - 데이터 라벨링/ 어노테이션 방법
-
데이터셋 구축 담당자
수행기관(주관) : 원투씨엠 주식회사
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김치권 070-7018-9433 [email protected] · AI모델 설계 및 구현 수행기관(참여)
수행기관(참여) 기관명 담당업무 사단법인 미래농업포럼 · 데이터 수집 및 가공 전북대학교 산학협력단 · 데이터 수집 및 가공
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.