-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2024-10-30 데이터 최종 개방 1.0 2024-06-28 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-06-28 산출물 공개 Beta Version 소개
- 주요 화훼류 50종(10품목 및 5품종)의 유통환경에서의 정상 및 중결점 이미지 데이터와 유통환경 모니터링 데이터
구축목적
- 주요 화훼류의 정상 및 중결점 이미지를 통해 품질 등급 판단 등 화훼류 유통 시스템 개선에 기여할 수 있는 인공지능 학습용 데이터 구축
-
메타데이터 구조표 데이터 영역 농축수산 데이터 유형 이미지 데이터 형식 JPG 데이터 출처 컨소시엄 자체 데이터 구축 라벨링 유형 이미지 바운딩 박스 라벨링 형식 JSON 데이터 활용 서비스 이미지 데이터를 이용한 주요 화훼류의 품질 등급 판별 및 중결점 여부 식별 데이터 구축년도/
데이터 구축량2023년/정상이미지 데이터 : 506,829장 중결점이미지 데이터 : 854,319장 유통환경모니터링 데이터 : 200,000세트 이상 -
- 구축 데이터 규모
데이터 구축 규모 구분 품목 데이터 설명 데이터 포맷 구축 수량 이미지 정상
이미지 데이터주요 화훼류 품목 10종/품종 50종에
대한 정상 이미지 촬영 및 어노테이션JPG, JSON 506,829장 중결점
이미지 데이터주요 화훼류 품목 10종/품종 50종에
대한 중결점 이미지 촬영 및 어노테이션JPG, JSON 854,319장 환경
데이터유통환경
모니터링 데이터주요 화훼류 유통환경 모니터링 데이터 수집 CSV, JSON 200,000세트 이상 - 데이터 분포
데이터 분포 항목 구분 비율(%) 설명 품질 등급 분포 구성비 분포 확인 특/상/중에 대한 분포 확인 중결점 분류 분포 구성비 분포 확인 각 품목별 중결점 지표 5개에 대한 분포
확인촬영 각도별 분포 정면뷰 33.33 3가지 각도에서 촬영하여 비율에 맞게 분포
확인탑뷰 33.33 측면뷰 33.33 장소별 촬영 분포 농가 20 유통환경 중 한곳에 편향되지 않도록
농가~도소매점까지 2:4:4에 가까운 비율로
촬영유통센터 40 도소매점 40 유통환경모니터링
데이터 분포개수 200,000세트
이상데이터 분포 확인 -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드- 학습 모델 개요
총 50개 품종의 화훼 데이터를 통해 품질 분류와 중결점을 탐지할 수 있는 모델을 개발하였다. 모델은 각 품종마다 품질 구분 모델, 중결점 탐지 모델이 존재하여 총 100개의 모델이 존재한다.- 등급 분류 모델: 정상 화훼 데이터를 통해 품질을 특상, 상, 중으로 분류
- 중결점 탐지 모델: 해당 화훼 이미지 내 존재하는 중결점을 탐지
- 화훼 품질 등급 분류
• 등급 분류 모델 개요
ResNet은 skip-connection을 도입하여 과적합 정도를 완화하며 더 깊은 레이어를 쌓을 수 있도록 한 대표적인 이미지 분류 모델로, 18개의 layer로 구성된 ResNet18을 기반으로 구현되었다. 다만 품질 등급 분류 시 하나의 뷰로는 분류할 수 있는 정보가 부족하기 때문에, 정면/측면/탑의 세 가지 뷰를 입력으로 받아 학습 후 등급을 분류한다. 본 모델의 layer 구조는 아래와 같다.그림 1. 화훼 품질 등급 분류 모델 구조
• 등급 분류 모델 학습
모델 학습 시 각 품종의 데이터를 8:1:1로 나누어 각각 학습, 검증, 시험용 데이터로 사용한다. 데이터는 전처리 과정을 거쳐 최종적으로는 3가지 이미지가 병합된 npy 파일로 변환한다. 학습 시에는 전처리 된 npy 파일을 불러와 학습 및 검증에 사용하며, 모델은 각 품종 별로 생성된다. 이후 모델 성능 검증에는 시험용 데이터를 학습된 ResNet18 모델로 추론하여 모델의 성능을 검증한다.학습 과정을 도식화한 내용은 아래와 같다.그림 2. 화훼 품질 등급 분류 모델 학습 프로세스
• 학습 및 검증코드 설명
- resnet_preprop_mp.py: 등급분류 학습 및 검증을 위한 전처리 코드
- classifier_train_and_eval_mp.py: 등급분류 학습 코드
- flowerGradeClassifier.py: 등급분류 모델 성능 검증 코드
- flower_grade_service.py: 등급분류 모델 서비스 코드• 등급 분류 모델 활용
데이터 입력 시 해당 데이터의 파일명을 활용해서 학습된 50종의 모델 중 해당 모델을 호출하여 추론한다. 단, 등급분류 모델의 경우 3가지 뷰를 통합하여 학습하였으므로 활용 시에도 3가지 뷰 모두 필요하다. 화훼 등급 분류 모델의 활용 프로세스는 아래와 같다.그림 3. 화훼 품질 등급 모델 활용 프로세스
- 화훼 중결점 탐지
• 중결점 탐지 모델 개요
YOLOv5 모델은 CSPNet 기반의 CSP-Darknet을 사용하며, 이미지 내 객체 탐지 과업에서 주로 사용된다. 본 과제의 중결점 탐지 모델은 YOLOv5를 활용하여 구현하였으며, 각 품종마다 탐지될 수 있는 5가지의 중결점을 이미지 내에서 탐지한다. 본 모델의 구조는 아래와 같다.그림 4. 중결점 탐지 모델 구조
• 중결점 탐지 모델 학습
모델 학습 시 각 품종의 데이터를 8:1:1로 나누어 각각 학습, 검증, 시험용 데이터로 사용한다.데이터 전처리 과정은 우선 레이블링 된 json 파일을 yolo 형태의 txt 파일로 변환 후, 해당 txt 파일과 이미지가 있는 경로와 중결점 코드 및 인덱스 설정이 추가된 yaml 파일을 생성한다.품종에 따라서 탐지되어야 하는 중결점의 종류가 다르므로, 중결점 탐지 모델 역시 품종 별로 모델을 학습한다.이후 모델 성능 검증에는 시험용 데이터를 학습된 YOLOv5 모델로 추론하여 모델의 성능을 검증한다. 학습 과정을 도식화한 내용은 아래와 같다.그림 5. 중결점 탐지 모델 학습 프로세스
• 학습 및 검증 코드 설명
- yolo_preprop_mp.py: 중결점 탐지 학습 및 검증을 위한 전처리 코드
- train.py: 중결점 탐지 학습 코드- val.py: 중결점 탐지 모델 성능 검증 코드
- yolov5_run.sh: 중결점 탐지 모델 학습 실행 코드
- yolov5_val.sh: 중결점 탐지 모델 검증 실행 코드• 중결점 탐지 모델 활용
데이터 입력 시 해당 데이터의 파일명을 활용해서 학습된 50종의 모델 중 해당 모델을 호출하여 추론한다. 탐지된 결과는 이미지에 박스 형태로 표시된다. 중결점 탐지 모델의 활용 프로세스는 아래와 같다.그림 6. 중결점 탐지 모델 활용 프로세스
- 서비스 활용 시나리오
사용자가 보유한 화훼 이미지 입력 시, 이미지 명을 활용하여 품종을 분류한 뒤 해당 품종에 해당하는 등급분류와 중결점 탐지 모델을 호출한다. 각각의 모델을 통해 해당 이미지의 품질 등급과 이미지 내 중결점을 탐지할 수 있다.그림 7. 전체 AI 서비스 알고리즘 아키텍처
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드- 데이터 구성
데이터 구성 Key Description Type Child Type version 버전정보 String shapes 라벨링정보 JsonObject label 정상(S,A,B) 또는
중결점(Z01~Z46)String points 바운딩박스 String shape_type 바운딩박스 rectangle String imagePath 이미지경로 및 파일명 String imageData 이미지 데이터 String imageHeight 이미지 높이 number imageWidth 이미지 폭 number Bounding 화훼류정보 JsonObject class 대분류(품목) String detail 세부분류(품종) String quality_status 정상(H01),중결점(H02) String grade 품질등급 String damage 중결점범위 String photo_direction 촬영각도 String place 수집장소 String photographer_code 촬영자코드 String photo_date 촬영일시 String serial_no 시리얼번호 String file_format 파일포맷 String Distribution 유통환경
모니터링데이터JsonObject Date 일자 String PM1 미세먼지PM1 number PM2.5 미세먼지PM2.5 number PM10 미세먼지PM10 number Temperature 온도 number Humidity 습도 number Hcho 포름알데하이드 number Noise 소음 number Co2 이산화탄소 number Co 일산화탄소 number VOC 휘발성유기화합물 number - 어노테이션 포맷
어노테이션 포맷 구분 항목명 타입 필수여부 설명 비고 1 version String N 버전정보 2 shapes JsonObject Y 라벨링정보 2-1 label String Y 정상(S,A,B) 또는
중결점(Z01~Z46)2-2 points String Y 바운딩박스 [[X1, Y1], [X2, Y2], [X3, Y3]...] 2-3 shape_type String Y 바운딩박스
rectangle3 imagePath String Y 이미지경로 및
파일명4 imageData String N 이미지 데이터 5 imageHeight number Y 이미지 높이 6 imageWidth number Y 이미지 폭 7 Bounding JsonObject Y 화훼류정보 화훼류정보 7-1 class String Y 대분류(품목) P01~P10 7-2 detail String Y 세부분류(품종) S06~S10 7-3 quality_status String Y 정상(H01),
중결점(H02)7-4 grade String Y 품질등급 S(특), A(상), B(중) ,
중결점인 경우 null7-5 damage String Y 중결점범위 Z01~Z46,정상인 경우 null 7-6 photo_direction String Y 촬영각도 0(정면), 1(탑), 2(측면) 7-7 place String Y 수집장소 F01~60(농가), D01~60
(유통센터),R01~60(도소매점)7-8 photographer_code String Y 촬영자코드 C01~60 7-9 photo_date String Y 촬영일시 YYMMDDHHMM 7-10 serial_no String Y 시리얼번호 S000001~S999999 7-11 file_format String Y 파일포맷 JPG 8 Distribution JsonObject Y 유통환경 모니
터링데이터유통환경 모니터링데이터 8-1 Date String Y 일자 중결점 & 농가 null 8-2 PM1 number Y 미세먼지PM1 중결점 & 농가 null 8-3 PM2.5 number Y 미세먼지PM2.5 중결점 & 농가 null 8-4 PM10 number Y 미세먼지PM10 중결점 & 농가 null 8-5 Temperature number Y 온도 중결점 & 농가 null 8-6 Humidity number Y 습도 중결점 & 농가 null 8-7 Hcho number Y 포름알데하이드 중결점 & 농가 null 8-8 Noise number Y 소음 중결점 & 농가 null 8-9 Co2 number Y 이산화탄소 중결점 & 농가 null 8-10 Co number Y 일산화탄소 중결점 & 농가 null 8-11 VOC number Y 휘발성유기
화합물중결점 & 농가 null - 데이터 포맷
데이터 포맷 구분 획득(수집) 단계 정제 단계 가공(라벨링) 단계 데이터 구분 원시데이터 원천데이터 최종데이터 데이터 형태 디지털 파일 디지털 파일 디지털 파일 데이터 포멧 이미지 데이터 : JPG (16:9 비율 촬영)
유통환경모니터링 데이터 : CSV이미지 데이터 : JPG (해상도 1920*1080)
유통환경모니터링 데이터 : JSON가공데이터(유통환경모니터링
데이터 포함) : JSON- 실제 예시
실제 예시
"imagePath":"P13_S06_H02_Z45_2_R08_C27_2310251210_231017_231018_S000140.jpg",
"imageData":null,
"imageHeight":1920,
"imageWidth":1080,
"Bounding":[
{
"class":"안스리움",
"detail":"알라바마",
"quality_status":"중결점",
"grade":"",
"damage":"Z45",
"photo_direction":"측면",
"place":"도소매점",
"photographer_code":"C27",
"photo_date":"2310251210",
"serial_no":"S000140",
"file_format":"jpg"
}
],
"Distribution":[
{
"Date":"2023-10-25 12:10",
"PM1":24.0,
"PM2.5":41.0,
"PM10":25.4,
"Temperature":62.2,
"Humidity":0.0,
"Hcho":49.0,
"Noise":628.0,
"Co2":0.0,
"Co":1225.0,
"VOC":16.0
}
]
} -
데이터셋 구축 담당자
수행기관(주관) : 서경대학교산학협력단
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 양호형 02-940-7616 [email protected] 사업관리, 데이터 수집/정제(유통환경) 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜뉴컨 데이터 수집, 정제, 검수 ㈜엔지스 데이터 가공 ㈜위즈아이 AI 모델 개발 ㈜한국융합아이티 데이터 수집 한국자원경제연구소㈜ 데이터 수집 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 김호현 02-940-7414 [email protected] 양호형 02-940-7616 [email protected] AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 이승호 02-6295-0001 [email protected] 이세훈 02-6295-0001 [email protected] 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 이민주 070-4044-4257 [email protected] 김성호 02-597-3615 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.