-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2023-12-15 데이터 최종 개방 1.0 2023-07-25 데이터 개방(Beta Version) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-02-27 산출물 전체 공개 소개
• 계란 데이터 및 학습 모델을 활용하여 계란품질 검사 및 신선도 판정 시스템 등 다양한 시스템 개발을 촉진시킬 수 있으며, 파생되는 서비스를 통해 생산 유발효과 • 계란의 품질 및 신선도 판정 관련 인공지능 개발 및 연구 활성화
구축목적
• AI 모델이 계란 이미지를 자동으로 훈련시키는데 필요한 계란 데이터 구축 • 계란 이미지 분류별로 라벨링된 AI 학습 데이터 구축
-
메타데이터 구조표 데이터 영역 농축수산 데이터 유형 이미지 데이터 형식 jpg 데이터 출처 자체 수집 라벨링 유형 이미지 라벨링 형식 xml 데이터 활용 서비스 계란품질 검사분야 - 크랙, 혈반등의 품질이상 계란 검사 - 계란등급판정분야 : 계란의 등급판정 데이터 구축년도/
데이터 구축량2022년/1,500,000건 -
1. 데이터 구축 규모
- 계란 MONO, COLOR, 보관기간 이미지 데이터 140만건1. 데이터 구축 규모 데이터종류 데이터 형태 규모 어노테이션 규모 결과물 규모 이미지 계란 투광
이미지
(MONO)7 만건
(판 기준)7 만건
(판 기준)MONO 69,616건
COLOR 53,933건
보관기간 28,807건
(판기준)
MONO 537,213건COLOR 512,534건
보관기간 331,466건
(객체기준)50 만건
(객체 기준)50 만건
(객체 기준)계란 COLOR
이미지
(COLOR)5 만건
(판 기준)5 만건
(판 기준)50 만건
(객체 기준)50 만건
(객체 기준)계란 보관기간
투광 이미지
(보관기간)3 만건
(판 기준)3 만건
(판 기준)50 만건
(객체 기준)30 만건
(객체 기준)2. 데이터 분포
- 계란 데이터의 구분에 따라 MONO(정상, 크랙, 혈반, 탈색, 이물질, 기형), COLOR(정상, 크랙, 이물질, 탈색, 외형이상), 보관기간(1~50일 기간별 세척/비세척)
1) 계란 투광 MONO2. 데이터 분포 1) 계란 투광 MONO 계란 구분 정상 이물질 크랙 탈색 기형 혈반 MONO 33% 14% 11% 19% 11% 12% 2) 계란 COLOR
2. 데이터 분포 2) 계란 COLOR 계란 구분 정상 크랙 이물질 탈색 외형이상 COLOR 38% 8% 38% 10% 6% 3) 보관기간 투광 MONO
2. 데이터 분포 3) 보관기간 투광 MONO 계란 구분 세척 비세척 보관기간 50% 50% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드1. 학습모델 설계 / 개발
- 계란 상태 자동 탐지 데이터셋
본 절에서는 계란 상태 자동 탐지에 사용된 대표적인 두 개의 객체 탐지 모델을 설명한다. 객체 탐지는 컴퓨터 비젼에서 널리 사용되는 태스크로, 주어진 영상으로부터 학습된 다중
객체를 탐지하여 객체의 경계 박스와 박스 내의 클래스 정보를 표시하는 것을 목표로 한다. 객체 탐지 모델은 크게 one-stage, two-stage 그리고 transformer-based model로 나뉘며 본 보고서에서는 two-stage 모델 중 대표적인 모델인 Faster-RCNN과 transformer-based model 중 하나인 DETR 모델 학습 및 동작을 기술한다.- 2단계 객체 탐지 모델 (Two-Stage Detection Model)
그림 1은 2단계 객체 탐지 모델을 사용한 계란 상태 자동 탐지 모델의 동작을 보여준다. 2단계 객체 탐지 모델의 경우 CNN 네트워크를 통해 얻어진 특징 맵을 사용하여 영역 제안 네트워크 (Region proposal network)를 통과하여 얻어진 영역 제안 결과를 바탕으로 객체를 분류한다.[그림 1] 2단계 계란 상태 탐지 모델
Faster RCNN은 4 개의 주요 파트로 구성된다:• CNN 모델을 사용한 특징 추출. (본 계란 상태 탐지 모델의 경우 CNN 모델로 ResNet50과 Feature Pyramid Network (FPN) 을 사용하였다)
• 특징 맵은 영역 제안 네트워크 (RPN)으로 전달되며 경계 박스의 집합을 반환한다. 피쳐 맵으로부터 RPN은 경계 박스와 객체의 점수 (score)를 반환한다.
• 해당 값을 바탕으로 Region of Interest (RoI) pooling을 통해 재구성 후 클래스와 경계 박스의 오프셋 값을 예측한다.
• 마지막으로, 경계 박스와 최종 클래스 태그를 표시하여 탐지 과정을 수행한다.
[그림 2] 영역 제안 네트워크 (RPN) 구조
Faster RCNN의 CNN 모델 (일반적으로 백본 네트워크라고 부름)로 ResNet 50과 FPN을 사용하였다. 주어진 입력 이미지로부터 본 CNN 네트워크를 통과하여 얻어지는 특징 맵
(feature map)을 입력으로하여 RPN은 영상 내의 객체 위치 후보군을 반환해준다.
- 트랜스포머 계열 객체 탐지 모델 (Detection Transformer-Based Model)최근 자연어 처리 (NLP) 분야에서 Transformer가 대두되면서 영상 처리 분야에서도 Transformer 를 사용한 접근들이 활발히 이루어지고 있다. 객체 탐지는 그 중의 하나인데, Facebook AI에서 제안한 DEtection TRansformer (이하, DETR) 모델은 대표적인 Transformer 기반의 객체 탐지 모델 중 하나이다.
[그림 3] DETR 동작 및 구조 예시
그림 3은 DETR 동작을 보여주는데, 이는 CNN 네트워크를 백본으로 하여 주어진 입력 이미지로부터 특징 값을 추출하고 이를 트랜스 포머의 입력으로 사용한다. DETR은 사전에
정의된 N개의 객체를 한번에 찾아낸다.DETR은 모든 객체를 한번에 예측하고 이들의 결과를 라벨과 비교하는 end-to-end 방식으로 동작한다. 그림 4는 이러한 DETR 의 동작을 설명하는 각 구성요소를 보여준다.
[그림 4] DETR 구성 요소 개요
DETR의 4개의 구성요소는 다음과 같다:
• Backbone 네트워크: Transformer의 입력이 되는 피쳐 값들을 추출하기 위한 CNN 백본으로, 본 모델 학습에서는 ResNet 50을 사용하였다.
• Transformer Encoder: Backbone 네트워크의 출력에 1 x 1 컨볼루션을 사용하여 입력 특징 값들의 채널 차원을 축소하고 벡터 형태의 변환 및 위치 인코딩을 통해 트랜스포머 인코더의 입력으로 넣는다. 이 때 각 인코더는 multi-head self attention 모델과 FFN으로 구성된다.
• Transformer Decoder: 디코더는 N 개의 객체를 병렬적으로 디코딩하는 레이어로 객체들 간의 상관관계를 전역적으로 추론할 수 있는 정보를 제공한다.
• Feed-Forward Network (FFN): ReLU 를 활성 함수로 갖는 3계층 퍼셉트론 레이어로 디코더 출력을 입력으로 받아 각 객체의 클래스 정보와 객체의 경계박스 정보 (중심 좌표, 가로, 세로 정보)를 반환한다.
- 모델 개발 및 학습 결과 요약
최종 데이터 셋에 대한 목표 수치 달성 여부는 표 6과 같다. 계란 상태 탐지 모델 MONO, COLOR 데이터 각각의 경우 10만 장의 MONO 데이터에 대해서 학습, 검증, 테스트 데이터 셋을 8 : 1 : 1로 구축하여 학습한 후 테스트 데이터 셋에 대하여 검증되었으며, 계란 보관 일 수 예측 모델의 경우 약 100만 개의 데이터 샘플에 대하여 학습, 검증, 테스트 데이터 셋을 8 : 1 : 1 로 구축한 후 검증한 결과이다.
[표] AI 모델 구축 결과 요약 표[표] AI 모델 구축 결과 요약 표 유효성 검증 목표치 모델 학습 결과 달성률 계란 상태 탐지 모델 mAP >= 0.45 MONO 데이터: 0.53 118% COLOR 데이터: 0.54 120% 계란 보관 일 수 예측 모델 MAE < 4 0.927 431% - 계란 상태 자동 탐지 모델 평가 지표
계란 상태 자동 탐지 모델의 유효성 검증을 위해서는 mean Average Precision (이하 mAP)를 지표로 사용한다. mAP는 객체 탐지 모델의 성능 평가에 사용되는 지표로, 객체 탐지 성능인 바운딩 박스 정확도와 객체 분류 정확도를 종합적으로 평가하는 지표이다. mAP는 탐지 모델이 탐지하는 객체에 대한 평균 Average Precision을 계산하는 지표로 여기서 Average Precision은 Precision-Recall 그래프로부터 연산된다.
mAP는 다음의 하위 지표를 통해 도출된다:• Intersection over Union(IoU),
• Recall
• Precision
Intersection over Union (IoU) 는 예측된 경계 박스 좌표와 실제 경계 박스 (ground truth label) 사이의 겹침 여부를 표현하는 지표이다. IoU 값이 높을수록 예측된 경계 박스와 실제 값이 유사한 것을 의미한다.[그림 5] IoU 개념 설명
Recall (재현율) 과 Precision (정밀도)은 각각 객체 검출 성능을 표현하는 지표로, 다음과 같이 정의된다.
위의 식에서 사용된 TP, FN, FP는 다음과 같다:
위의 식에서 사용된 TP, FN, FP는 다음과 같다: 실제 상황 예측 결과 (predict result) (ground truth) Positive Negative Positive TP (True Positive) FN (False Negative) 옳은 검출 검출되어야 할 것이 검출되지 않았음 Negative FP (False Positive) TN (True Negative) 틀린 검출 검출되지 말아야할 것이 검출되지 않았음 이 때, 예측 결과의 참, 거짓 여부는 예측된 바운딩 박스와 실제 라벨 바운딩 박스 간의 IoU 값이 기준 값 (혹은 threshold)을 초과하는지 여부에 따라판단된다. 예를 들어, 그림 6 (a)의 경우 IoU = 0.6을 의미한다. 이 경우 기준 IoU가 0.7인 경우 Negative로 예측되며 따라서 False Negative로 판단된다. 반면 IoU가 0.5인경우 True Positive로 판단된다. 그림 6 (b)의 경우 예측 경계 박스와 라벨 경계 박스의 IoU 가 0.94이기 때문에 기준 IoU가 0.7인 경우, 0.5인 경우 모두에 대하여 True Positive로 판단된다.
(a)
(b)
[그림 6] 예측 경계 박스와 라벨 경계박스에 따른 IoU 예시앞서 설명한 지표들을 바탕으로, 각 클래스 별 Average Precision (평균 정밀도) 을 계산할 수 있다. 평균 정밀도는 Precision x Recall 그래프의 그래프로부터 계산될 수 있는데, 그림 7과 같이 재현율 대비 정밀도 그래프로부터 보간된 정밀도 (interpolated precision, 그림 7의 붉은색 점선)를 구하고 보간된 정밀도 그래프의 하위 면적을 통해 Average Precision을 연산할 수 있다.
[그림 7] 정밀도-재현율 그래프 예시
최종적으로 mean Average Precision (mAP)는 평가하고자하는 모든 클래스에 대한 평균 정밀도로, 다음의 수식을 따른다:본 식에서 N은 전체 클래스의 수를 말하며, 본 과제에서 우리는 MONO 데이터에 대해서는 총 6종 클래스, COLOR 데이터에 대해서는 총 5종 클래스에 대하여 연산한다. 이 때, Average Precision을 구하는 Precision의 기준 값인 IoU 기준 치는 일반적으로 0.5를 상정하며 [email protected]로 표기한다.
2. 데이터 셋 별 모델 학습
2_1 Cycle-2 데이터 셋 (MONO)
Cycle-2 데이터 셋은 Cycle-1 데이터 셋과 달리 N/A 클래스를 포함하고 있다. 따라서 최종 mAP 계산 시에는 정상 ~ 기형 6 종 클래스에 대해서만 계산한다. 실제 모델 학습 시에는 N/A 라벨을 포함하도록 하여 모델이 자체적으로 N/A 여부를 추론할 수 있도록 하며, mAP 측정 시에는 정확한 성능 측정을 위해 6종 클래스에 대해서만 연산을 수행한다.• 학습 하이퍼 파라미터
2. 데이터 셋 별 모델 학습 2_1 Cycle-2 데이터 셋 (MONO)• 학습 하이퍼 파라미터 항목 상세 Optimizer AdamW Epoch 50 learning rate 0.001 Batch size 20 • 학습 결과
그림 8는 최종 MONO 데이터 셋에 대한 DETR 모델 학습 그래프를 보여준다. mAP 값을 각각 IoU 0.5에 대하여, 0.5~0.95 평균 값에 대하여 측정한 Validation mAP 결과를 보여준다. Validation 값을 기준으로 최적의 모델을 저장하였으며, 학습된 최적 모델에 대한 테스트 mAP는 0.53으로 KPI 인 mAP 0.45 이상 목표치를 달성하였다 (그림 9).[그림 8] MONO Cycle-2 데이터 셋 DETR 학습 그래프
[그림 9] MONO Cycle-2 데이터 셋 Test mAP 결과 스크린 샷
2_2 Cycle-2 데이터 셋 (COLOR)
컬러 데이터 셋의 계란 상태 자동 탐지를 위해 우선적으로 2만장의 COLOR 데이터에 대하여 DETR과 Faster R-CNN 모델을 먼저 학습하였다. 그림 10은 각각 DETR과 Faster R-CNN 데이터에 대한 모델 성능을 보여준다. 이를 바탕으로 최종 데이터 셋 (10만 장 데이터)에 대해 DETR 모델을 학습하였다.[그림 10] 2만 장 COLOR 데이터 셋을 사용한 DETR, Faster R-CNN 학습 그래프
최종적으로 10만장 데이터 (100K) 를 사용하여 DETR 모델을 학습한 결과는 다음과 같다. 그림 11는 60 epoch을 학습할 때 Validation mAP 그래프를 보여준다. Validation mAP를 기준으로 최적 모델을 저장하였으며, 이를 바탕으로 측정한 테스트 데이터 셋에 대한 mAP는 0.542로, 0.45인 KPI 수치를 초과한 결과를 보여준다.
[그림 11] Cycle-2 10만 장 COLOR 데이터 셋을 사용한 DETR 학습 그래프
[그림 12] Cycle-2 10만 장 COLOR 데이터 셋을 사용한 DETR 학습 Test mAP 스크린 샷
[그림 13] Cycle-2 COLOR 데이터 셋 학습 결과 DETR 추론 예시
2_3 계란 보관기간 데이터 셋
- 계란 보관 일 수 예측 모델 설계 / 개발
계란 보관 일 수 예측의 경우, 영상 정보와 세척 여부 정보를 활용하여 계란 보관 일 수를 예측하기 위하여 ResNet50으로 영상 정보를 분석한 다음 이를 세척 여부와 함께 MLP 신경망의 입력으로 제공하는 멀티 모달 모델을 구축하였다. (그림 14)[그림 14] 계란 보관일수 예측 모델
(a) 이미지만 사용한 모델 (b) 이미지 + 세척여부 사용한 모델
[그림 15] 계란 보관 일 수 예측 모델우선, 영상 정보와 보관 일 수 사이 관계를 파악하기 위하여 (그림 15 (a))와 같이 이미지만 활용하는 모델을 구축하였고, 이에 더불어 세척 여부가 신선도에 미치는 영향을 분석하기 위하여 (그림 15 (b))와 같이 세척 여부를 추가로 활용하는 멀티 모달 모델을 구축하였다.
• 학습 하이퍼 파라미터
2. 데이터 셋 별 모델 학습 2_2 Cycle-2 데이터 셋 (COLOR)• 학습 하이퍼 파라미터 항목 상세 Optimizer Adam Loss Function MSE Epoch 20 Learning Rate 1e-4 (Plateau LR scheduler) Batch Size 512 (a) 이미지만 사용한 모델
(b) 이미지 + 세척여부 사용한 모델
[그림 16] 계란 보관 일 수 예측 모델 학습 그래프
(a) 이미지만 사용한 모델 Test MAE 결과
(b) 이미지 + 세척 여부 사용한 모델 Test MAE 결과
[그림 17] 계란 보관 일 수 예측 모델 테스트 MAE 결과(그림 16)는 계란 보관 일 수 예측 데이터를 사용한 모델 학습 커브이다. 이미지만 사용한 모델과 세척 여부를 같이 사용한 모델 각각에 관한 학습 커브로, Mean Absolute Error(MAE) 값을 보여준다. 학습에 사용하지 않는 검증 데이터 셋을 기준으로 최소 MAE를 갖는 모델의 파라미터를 최적 파라미터로 저장하였으며, 이렇게 얻어진 최적 파라미터의 테스트 MAE는 각각 1.074와 0.927로 목표 값인 MAE 4 이하를 초과달성하였다. (그림 17)
[그림 18] Random Seed 4개의 평균 학습 커브
구축한 데이터 및 모델의 안정성을 확인하기 위하여 4개의 Random Seed를 갖고 동일한 학습을 반복하였으며, (그림 18)은 4개의 Random Seed에 관하여 평균적으로 KPI 지표를 달성하였음을 보여준다.
이를 통해 통제된 환경에서 보관된 계란의 경우 영상 입력만으로 MAE 1.07을 만족하는 예측 모델을 학습할 수 있는 것을 확인하였으며, 세척 여부 등의 환경 변수를 추가 제공하는 경우 보관 일 수 예측 정확도를 향상시킬 수 있음을 확인하였다. -
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 MONO 계란 데이터 탐지 성능 Object Detection DETR(Detection Transformer-based Model) 모델 mAP 45 % 80 % 2 COLOR 계란 데이터 탐지 성능 Object Detection DETR(Detection Transformer-based Model) 모델 mAP 45 % 71.4 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드1. 데이터 설명
- MONO, COLOR 데이터는 계란선별기에 장착하여 촬영 - 보관기간 데이터는 농장에서 당일 생산 정상 판정 계란을 구매하여 계란 보관 및
촬영지로 운반하여 불량계란 자동배출 시스템을 통해 촬영2. 계란 투광 MONO
- 대분류 6종, 소분류 33종 총 537,213건의 데이터2. 계란 투광 MONO 순번 구분 데이터 이미지 대분류 소분류 대분류 소분류 1 계란 투광 MONO 정상
정상 177,539 63,114 2 위아래 기실 51,294 3 검정란 49,472 4 백색란 13,659 5 크랙
완전크랙 56,709 2,947 6 일자형크랙 17,195 7 원형크랙 4,760 8 위아래크랙 5,192 9 거미줄형크랙 3,358 10 잠재파형크랙 3,930 11 파형크랙 12,396 12 미세크랙 6,931 13 혈반
혈반.육반 66,497 3,714 14 중앙기실 5,673 15 알끈 2,466 16 거품 2,232 17 먹통 52,412 18 탈색
흰색 점박이 101,164 41,631 19 백색 탈색 2,089 20 원형 탈색 2,007 21 얇은 난각 24,632 22 중앙 탈색 2,243 23 위아래 탈색 10,316 24 부분 탈색 12,500 25 외관 변색 5,746 26 이물질
계란껍질 77,371 2,095 27 깃털 8,075 28 닭똥 42,075 29 점박이 25,126 30 기형
일반기형 57,933 19,585 31 심한기형 2,579 32 외형 기형 13,282 33 백색줄 기형 22,487 합계 537,213 537,213 3. 계란 COLOR
- 대분류 5종, 총 512,534건의 데이터3. 계란 COLOR 순번 구분 데이터 이미지 대분류 대분류 1 계란 COLOR 정상
195,997 2 크랙
36,547 3 이물질
197,035 4 탈색
56,258 5 외형이상
26,697 합계 512,534 4. 계란 보관기간
- 1~50일 세척/비세척 총 331,466건의 데이터4. 계란 보관기간 순번 구분 데이터 이미지 대분류 소분류 대분류 소분류 세척 비세척 1 계란 보관기간
투광1 세척 7,946 3,848 4,098 비세척 2 2 세척 5,847 3,867 1,980 비세척 3 3 세척 5,367 3,545 1,822 비세척 4 4 세척 5,466 3,430 2,036 비세척 5 5 세척 6,766 3,669 3,097 비세척 6 6 세척 7,103 3,705 3,398 비세척 7 7 세척 6,791 2,931 3,860 비세척 8 8 세척 7,165 3,766 3,399 비세척 9 9 세척 7,121 3,566 3,555 비세척 10 10 세척 5,277 1,704 3,573 비세척 11 11 세척 7,068 3,484 3,584 비세척 12 12 세척 7,021 3,491 3,530 비세척 13 13 세척 7,029 3,495 3,534 비세척 14 14 세척 6,979 3,330 3,649 비세척 15 15 세척 6,885 3,603 3,282 비세척 16 16 세척 7,069 3,484 3,585 비세척 17 17 세척 6,879 3,301 3,578 비세척 18 18 세척 7,022 3,610 3,412 비세척 19 19 세척 5,623 2,088 3,535 비세척 20 20 세척 4,819 1,224 3,595 비세척 21 21 세척 4,985 2,388 2,597 비세척 22 22 세척 6,832 3,524 3,308 비세척 23 23 세척 6,513 3,523 2,990 비세척 24 24 세척 6,043 3,029 3,014 비세척 25 25 세척 4,760 1,663 3,097 비세척 26 26 세척 4,498 1,592 2,906 비세척 27 27 세척 5,954 3,021 2,933 비세척 28 28 세척 4,895 1,812 3,083 비세척 29 29 세척 5,597 3,756 1,841 비세척 30 30 세척 7,409 3,394 4,015 비세척 31 31 세척 7,204 3,459 3,745 비세척 32 32 세척 7,252 3,449 3,803 비세척 33 33 세척 7,524 3,631 3,893 비세척 34 34 세척 7,420 3,612 3,808 비세척 35 35 세척 7,029 3,580 3,449 비세척 36 36 세척 7,058 3,374 3,684 비세척 37 37 세척 7,084 3,405 3,679 비세척 38 38 세척 7,239 3,486 3,753 비세척 39 39 세척 7,153 3,599 3,554 비세척 40 40 세척 7,200 3,687 3,513 비세척 41 41 세척 7,408 3,578 3,830 비세척 42 42 세척 7,320 3,448 3,872 비세척 43 43 세척 7,191 3,651 3,540 비세척 44 44 세척 7,232 3,657 3,575 비세척 45 45 세척 7,125 3,327 3,798 비세척 46 46 세척 7,152 3,402 3,750 비세척 47 47 세척 7,029 3,443 3,586 비세척 48 48 세척 5,614 2,913 2,701 비세척 49 49 세척 7,230 3,699 3,531 비세척 50 50 세척 7,273 3,673 3,600 비세척 합계 331,466 162,916 168,550 5. 어노테이션 포맷
5. 어노테이션 포맷 구분 영문명 한글명 타입 비고 1 annotation 최상위 항목 object 1-1 category 객체 구분 number 1:가공 2:원천 3:원시 1-2 regional_code 지역 코드 number 1-3 varieties 품종 number 1:하이라인 브라운 2:이사브라운 3:로만 브라운 라이트 1-4 wash 세척여부 number 1:세척 2:비세척 1-5 classification 계란 구분 number 1:유정란 2:무정란 1-6 days 일령 정보 number 1-7 type 타입 number 1:MONO 2:COLOR 3:보관기간 1-8 create_date 생성일자 DATE 연-월-일 1-9 date 촬영일자 DATETIME 연-월-일 시:분:초 1-10 temperature 온도℃ number 1-11 humidity 습도% number 1-12 file_name 파일 이름 String 메타파일명 1-13 original_file_name 원본파일이름 String 1-14 fresh_day 보관기간 number 0:해당없음 1~50:보관기간 1-15 breeding_env 사육환경 number 1:방사 2:평사 3:개선 케이지 4:기존 케이지 1-16 size 1-16-1 height 사진 높이 number 1-16-2 width 사진 넓이 number 1-17 object_count 이미지 포함 객체 수 number 1-18 bndbox[] 바운딩 박스별 정보 array 18-1 bndbox seq 객체 일련번호 number 18-2 object 바운드 박스 객체 number 18-3 state 바운드 박스 상태 number 18-4 state_detail 바운드 박스 세부상태 number 18-5 x_min 좌하단x number 18-6 y_min 좌하단y number 18-7 x_max 우상단x number 18-8 y_max 우상단y number 6. 어노테이션 실제 예시
6. 어노테이션 실제 예시 실제예시
1
32400
3
1
2
120
1
2022-05-01
2022-05-01 13:00:00
22
35
156.jpg
/eggData/TTA/sampleImage/반광사진/0501091819_1_00445.jpg
0
3
1440
1080
1
2
3
2
321.266
416.583
548.2660000000001
698.5830000000001
-
데이터셋 구축 담당자
수행기관(주관) : ㈜한밭아이오티
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 정진해 042-931-9307 [email protected] 데이터수집, 검수 수행기관(참여)
수행기관(참여) 기관명 담당업무 한국과학기술원 AI 모델개발 ㈜대흥금속 데이터 정제 ㈜모두텍 데이터 가공, 검수 호서대학교 산학협력단 크라우드워커 교육 및 관리 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 정진해 042-931-9307 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.