콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#농업

지능형 양봉 데이터

지능형 양봉 데이터 아이콘 이미지
  • 분야농축수산
  • 유형 이미지
구축년도 : 2022 갱신년월 : 2023-12 조회수 : 7,235 다운로드 : 394 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.1 2023-12-15 데이터 최종 개방
    1.0 2023-06-28 데이터 개방(Beta Version)

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2023-12-15 산출물 전체 공개

    소개

    지능형 양봉 데이터’는 꿀벌의 생애단계별(알, 애벌레, 번데기, 수일벌, 여왕벌), 종봉별(이탈리안, 카니올란, 한봉, 호박벌) 데이터와 생애이슈인 백묵병 데이터 총 12개 클래스로 이루어진 이미지 데이터

    구축목적

    국내 지역, 시기별 벌통 내 꿀벌 생태 데이터를 수집•분석•가공하고 지능형 학습 데이터를 구축하여 양봉 부문 AI 학습용 데이터 셋 구축 및 활용 기반 마련함
  • 1.학습데이터 구축 수량(이미지 건수 기준)

    1.학습데이터 구축 수량(이미지 건수 기준)
    구분 생애단계별 파괴데이터* 합계 비율
    Bounding Box polygon Segmentation Bounding Box
    20,150 1,900 1,900 23,950 8.73%
    애벌레 20,150 1,900 1,900 23,950 8.73%
    번데기 20,150 1,900 1,900 23,950 8.73%
    수일벌-이탈리안 20,150 1,920 1,920 23,990 8.75%
    수일벌-카니올란 20,150 1,920 1,920 23,990 8.75%
    수일벌-한봉 20,150 1,916 1,920 23,968 8.74%
    수일벌-호박벌 20,090 1,920 1,920 23,930 8.73%
    여왕벌-이탈리안 20,150 1,920 1,920 23,990 8.75%
    여왕벌-카니올란 20,150 1,920 1,920 23,990 8.75%
    여왕벌-한봉 20,150 1,920 1,920 23,990 8.75%
    여왕벌-호박벌 20,150 1,920 1,920 23,990 8.75%
    질병(백묵병)** 10,500 - - 10,500 3.83%
    합계 232,086 21,060 21,060 274,206 100%

     

    파괴데이터: 벌통에서 고정식 카메라를 통하여 수집하는 이미지 데이터와 별개로 다양한 각도와, 꿀벌 방안에 있는 알, 애벌레, 번데기를 꺼내어 확보하는 이미지 데이터

    **질병(백묵병): 꿀벌의 생애단계 중 애벌레에서 발생하는 질병 중 하나로 백묵병의 경우에는 Bounding Box 유형으로만 데이터가 존재함

    1-1. 학습데이터 분포(이미지 건수 기준)

    학습데이터 분포(이미지 건수 기준)

    2.학습데이터 구축 수량(어노테이션 수량 기준)

    2.학습데이터 구축 수량(어노테이션 수량 기준)
    구분 어노테이션 수량 비율
    222,373 22%
    애벌레 220,739 22%
    번데기 222,130 22%
    수일벌-이탈리안 35,427 4%
    수일벌-카니올란 37,962 4%
    수일벌-한봉 38,917 4%
    수일벌-호박벌 30,530 3%
    여왕벌-이탈리안 23,995 2%
    여왕벌-카니올란 23,995 2%
    여왕벌-한봉 23,995 2%
    여왕벌-호박벌 23,991 2%
    질병(백묵병) 101,928 10%
    합계 1,005,982 100%

    2-1. 학습데이터 분포(이미지 건수 기준)
    학습데이터 분포 어노테이션 기준

     

  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    1.활용 모델
    Karen Simonyan& Andrew Zisserman. (2015). Going deeper with convolutions:  Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition의 논문을 기반으로 GoogleNet 모델을 구현하였습니다
    Pretrained된 GoogleNet모델을 사용하는 것이 아닌 직접 모델을 구현하고 데이터를 학습시켰습니다
    모델 구현은 딥러닝 프로젝트에 사용되는 Python의 Pytorch를 사용하였습니다
    CUDA 버전과 Pytorch 버전은 사용자 PC 환경에 따라 학습 조건의 버전과 달라질 수 있습니다
    유효성 모델은 생애단계 모델, 생애이슈 모델 총 2개입니다
    생애단계 모델은 알, 애벌레, 번데기, 수일벌, 여왕벌 11개의 클래스를 분류하기 위한 모델입니다
    생애이슈 모델은 백묵병에 걸리지 않은 애벌레와 백묵병의 걸린 애벌레 2개 클래스를 분류하기 위한 모델입니다. 백묵병의 걸리지 않은 애벌레의 경우는 일반 애벌레 데이터에서 10,500개를 랜덤으로 샘플링하여 사용하였습니다

    2.학습 조건
    - 학습알고리즘: GoogleNet
    - 개발 언어: Python 3.7.13
    - 프레임워크: Pytorch 1.21.1, CUDA 11.6
    - 성능지표: Accuracy

    3.생애단계, 생애이슈 이미지 분류 모델 개발 단계

     

    <학습 데이터 전처리 및 정제>

    1.라벨링 데이터를 통한 어노테이션 개수 측정

    1 Json 파일 로드 2 최소 어노테이션 개수 측정

    1-1.각각의 Json파일을 로드합니다
    2-1.라벨링 데이터에 존재하는 모든 어노테이션 개수를 측정합니다
    3-1.어노테이션 개수를 기준으로 모든 데이터를 로드를 준비합니다

    2.이미지 데이터 전처리

    이미지 데이터 전처리

    1-1.이미지 데이터를 로드합니다
    2-1.라벨링 데이터의 좌표값을 활용하여 이미지 데이터상의 객체들을 Crop합니다
    3-1.1920x1080사이즈의 이미지를 112x112 size로 변환해줍니다
    4-1.마지막으로 학습 모델에 적용가능한 텐서형태로 이미지 데이터를 변환하여 줍니다

     

    3. 이미지 데이터 & 라벨링 데이터 결합

    1 이미지 데이터 2 라벨링 데이터 3 최종 데이터 셋

    1-1.텐서로 변환한 이미지 데이터와 라벨링 데이터의 Speices(종봉), Lifecycle(생애단계), Image_file_name, Type(Bounding Box, Polygon Segmentation) 정보를 결합해줍니다.

     

    4. 데이터분할
    데이터분할

    1.1.결합 완료한 데이터는 Train(80%), Validation(10%), Test(10%)로 중복없이 무작위로 분할하여 학습 모델에 적용합니다.

    5. 학습 모델 적용

    GoogleNet 학습 모델 구조

     

    1.1.학습 모델은 6개의 후보군 중 시간, 정확도 면에서 가장 뛰어난 “GoogleNet”을 사용하였고 위의 “GoogleNet” 아키텍처를 바탕으로 모델을 구현함
    2.1. 생애단계 모델 파라미터 정보
    -epoch=10
    -batch=64
    -optimizer=Adam
    -learning rate=0.005
    2.2. 생애이슈 모델 파라미터 정보
    -epoch=10
    -batch=32
    -optimizer=Adam
    -learning rate=0.1
     

     

  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 생애 이슈 분류 모델 Image Classification GoogleNet Accuracy 70 % 97.21 %
    2 생애 주기 분류 모델 Image Classification GoogleNet Accuracy 70 % 91.42 %

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    1.원천데이터

    1.원천데이터

     

    내용
    유형 이미지
    형식 jpg
    해상도 1920X1080
    어노테이션 유형 Bounding Box, Polygon Segmentation
    클래스 종류 생애단계: 알, 애벌레, 번데기, 수일벌-이탈리안, 수일벌- 카니올란, 수일벌-한봉, 수일벌-호박벌, 여왕벌-이탈리안, 여왕벌-카니올란, 여왕벌-한봉, 여왕벌-호박벌
    생애이슈: 백묵병-음성, 백묵병-양성
    총 12개의 클래스 존재
    데이터 예시 데이터 예시
    -알, 애벌레, 번데기, 수일벌, 여왕벌을 생애단계별로 촬영하고 AI 모델에 학습 가능한 형태로 가공함.

     

    2.라벨링데이터 

    - 데이터 라벨링 및 어노테이션 구조

    2.라벨링데이터- 데이터 라벨링 및 어노테이션 구조
    분류 구분 항목명 설명 범위 타입 필수여부 비고
    파일정보 1-1 DATASET_NAME 데이터세트명   VARCHAR Y  
    1-2 DATASET_DETAIL 데이터셋상세설명 1000 VARCHAR N  
    1-3 VERSION 버전 3 VARCHAR N  
    1-4 LICENSE 라이선스 100 VARCHAR N  
    1-5 CREATE_DATE_TIME 파일 생성 일자 20 VARCHAR Y  
    1-6 URL URL 200 VARCHAR N  
    이미지 파일 정보 2-1 IMAGE_URL 이미지 URL 100 VARCHAR Y  
    2-2 IMAGE_FILE_NAME 이미지 파일명 100 VARCHAR Y  
    2-3 WIDTH 이미지 가로   NUMBER Y  
    2-4 HEIGHT 이미지 세로   NUMBER Y  
    어노테이션 정보 3-1 ID 어노테이션 식별자 0~4294967295 NUMBER Y  
    3-2 SPECIES 종봉구분   VARCHAR Y LI (이탈리안), CA (카니올란), AP (한봉), BI (호박벌), NA(종 없음)] 
    3-3 LIFECYCLE 생애단계   VARCHAR Y [EG (알), LA (애벌레), PU (번데기), AB (수/일벌), QB (여왕벌)]
    3-4 DISEASES 백묵병 여부   NUMBER N [0(정상), 1(백묵병)]
    3-5 TYPE 어노테이션 종류   CHAR Y [‘Bounding Box’, ‘Polygon’]
    3-6 XTL 또는 xtl 바운딩박스 좌측 상단 X좌표   NUMBER N  
    3-7 YTL 또는 ytl 바운딩박스 좌측 상단 Y좌표   NUMBER N  
    3-8 XBR 또는 xbr 바운딩박스 우측 하단 X좌표   NUMBER N  
    3-9 YBR 또는 ybr 바운딩박스 우측 하단 Y좌표   NUMBER N  
    3-10 POLYGON 폴리곤   OBJECT N NUMBER ARRAY
    3-11 POLYGON_AREA_TOTAL 폴리곤영역합   NUMBER N  
    3-12 CROWDSOURSING_OPERATION_ALTERNATIVE 크라우드소싱 작업여부 1 CHAR N Y/N 

    {    "INFO": {
            "DATASET_NAME": "[test] 수/일벌(카니올란)",
            "DATASET_DETAIL": "Bounding Box",
            "VERSION": "1.0",
            "LICENSE": "",
            "CREATE_DATE_TIME": "2022-07-29 09:34:19",
            "URL": "https://www.labelon.kr"
        },
        "IMAGE": {
            "IMAGE_URL": "https://images.labelon.kr/2022/07/27/42bddc89883043dfb020d900245d09b5.jpg",
            "IMAGE_FILE_NAME": "01_1_R_AB_CA_20220715_01_0011.jpg",
            "WIDTH": 1920,
            "HEIGHT": 1080
        },
        "ANNOTATION_INFO": [
            {
                "ID": 117329161,
                "SPECIES": "CA",
                "LIFECYCLE": "AB",
                "XTL": 861,
                "YTL": 71,
                "XBR": 1083,
                "YBR": -257,
                "CROWDSOURSING_OPERATION_ALTERNATIVE": "Y"
            },
            {
                "ID": 117329162,
                "SPECIES": "CA",
                "LIFECYCLE": "AB",
                "XTL": 1056,
                "YTL": 559,
                "XBR": 1512,
                "YBR": 202,
                "CROWDSOURSING_OPERATION_ALTERNATIVE": "Y"
            }
        ]
    }

    4. 환경데이터

    -환경데이터는 스마트 벌통 내부의 온도, 습도, 중량, 기울기, 메탄, 암모니아, 일산화탄소, 음향
    총 8개의 항목에 대한 측정값에 대한 데이터입니다.
    -환경 데이터의 경우 이미지 데이터와 라벨링 데이터와는 달리 실제 모델학습에는 적용되지 않았지만, 이미지 데이터와의 맵핑을 통해 연구자가 추후 연구에 활용할 수 있습니다.

    5. 음성데이터
    -음성데이터는 말벌의 날개짓 음성과 꿀벌들의 분봉*의 음성을 수집한 데이터로 환경데이터와 마찬가지로 모델 학습에는 적용하지 않음
    -말벌의 출현과 분봉 현상은 꿀벌들의 감소 및 군집 붕괴로 이어지는 중요한 사항이기 때문에, 해당 음성데이터 대해 연구를 진행한다면 말벌 경보 알림, 분봉 경보 알림 시스템 등의 개발로 이어질 것으로 예상됩니다. 

    *분봉: “여왕벌이 산란하여 새 여왕벌을 만들었을 때, 새 여왕벌을 일벌의 일부와 함께 다른 집이나 통으로 갈라 옮기는 것”을 의미함 
     

  • 데이터셋 구축 담당자

    수행기관(주관) : 비에이코리아
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    정주용 02-780-2672 [email protected] 유효성 검증 모델 개발 및 사업총괄
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    에스엠티정보기술 데이터 수집 및 정제
    유클리드 소프트 데이터 가공 및 검수
    순천대학교 산학협력단 사업 홍보 및 해커톤 개최
    전남농업기술원 곤충잠업연구소 데이터 설계 기준 및 방법 수립
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    정주용 02-780-2672 [email protected]
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.