콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#동의보감 # 약초독초 # 인공지능 독초 판별 # 식물 분류

동의보감 독초판별 이미지 데이터

동의보감 독초판별 이미지
  • 분야농축수산
  • 유형 이미지
구축년도 : 2021 갱신년월 : 2022-07 조회수 : 8,980 다운로드 : 1,021 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2022-07-28 데이터 최초 개방

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2022-10-20 신규 샘플데이터 개방
    2022-07-28 콘텐츠 최초 등록

    소개

    동의보감 독초 60종 및 독초와 유사한 식물 61종을 포함한 총 121종에 대한 이미지 데이터 
    식물분류학자, 한의학 본초 전문가의 자문회의를 통해 중독사고 발생 빈도가 높은 식물과 생활 주변에서 손쉽게 접할 수 있는 비교 유사식물로 선정
    이미지 데이터 획득 시 식물의 주요 판단 기준인 잎, 꽃, 열매와 식물의 성장을 판단할 수 있는 전초를 기준으로 독초를 입체적으로 촬영하여 데이터 구축

    구축목적

    해마다 독초를 약초로 오인, 섭취하여 발생하는 중독 및 사망 사고를 예방하고자 이미지 데이터를 확보하여 학습용 데이터로 변환하고, 이를 활용한 인공지능 독초판별 서비스 제공 목적
  • 1. 데이터 구축 규모

    1. 데이터 구축 규모
    구분 클래스 수 전체 파일 수 인스턴스 인스턴스 파일 수
    원천 데이터 121 747,869 218,455
    열매 164,377
    236,944
    전초 128,093
    학습 데이터 121 807,068 240,194
    열매 179,003
    259,766
    전초 128,105

     

    2. 데이터 분포도

    2. 데이터 분포도
    원천 데이터 부위별 분포도 라벨링 데이터 부위별 분포도

     

    3. 원천 데이터 수량 분포

     

    4. 라벨링 데이터 수량 분포

     

  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    유효성 검증 모델 학습 및 검증 조건

    • 개발언어: Python 3.8.5
    • 프레임워크: Tensorflow 2.5, CUDA 11.1, darknet 2016
    • 학습알고리즘
      • Triplet Loss를 이용한 Metric Learning 적용                    
      • 식물 8개 부위(원천이미지:전초, 잎, 꽃, 엶). (라벨링 이미지:전초, 꽃, 잎, 열매)에 대학 앙상블 학습모델 적용
    • 학습조건
      • epoch : 100,                     
      • batch : 32(train) 16(validation),                     
      • optimizer : Adam(learning-rate scheduler),                     
      • loss : triplet loss    
    • 파일 형식
      • 학습 데이터셋
        • 원천 데이터(전초, 잎, 꽃, 열매)
        • 라벨링 데이터(전초, 잎, 꽃, 열매)
      • 평가 데이터셋
        • 크롭 이미지(jpg)
    • 모델 input feature
      • 학습 데이터 : 이미지 바운딩박스, 폴리곤 크롭 이미지, 121종 독초 정보
      • 평가 데이터 : 크롭된 바운딩박스, 폴리곤 이미지
    • 모델 output feature
      • 121종 독초 분류 결과
    • 전체 구축 데이터 대비 모델에 적용되는 비율
      유효성 검증 모델 학습 및 검증 조건 전체 구축 데이터 대비 모델에 적용되는 비율
      구분 클래스 수 전체 파일 수 인스턴스 인스턴스 파일 수
      원천 데이터 121 747,869 218,455
      열매 164,377
      236,944
      전초 128,093
      학습 데이터 121 807,068 240,194
      열매 179,003
      259,766
      전초 128,105
      ※ 예외                     
      - 잎이 없는 경우 : 새삼, 미국산새삼                    
      - 꽃이 없는 경우 : 석위, 세뿔석위, 넉줄고사리, 황고사리, 부처손, 개부처손,                     
      무화과, 천산과                    
      - 열매 없는 경우 : 위, 세뿔석위, 넉줄고사리, 황고사리, 부처손, 개부처손                    
      ※ 유효성 검증은 구축된 데이터 전체를 적용하며, 변경이 필요한 경우 TTA 담당자와 협의한다.                    
       
    • 모델 학습 과정별 데이터 분류 및 비율 정보[별첨1~4]
      • 라벨링 데이터 모델 학습
        모델 학습 과정별 데이터 분류 및 비율 정보[별첨1~4]라벨링 데이터 모델 학습
        구분 학습 데이터
        전체 열매 전초
        훈련 645,654 192,258 143,305 207,920 102,333
        검증 80,707 23,968 17,849 25,923 12,733
        테스트 80,707 23,968 17,849 25,923 12,733
        합계 807,068 240,194 179,003 259,766 128,105
      • 원천 데이터 모델 학습
        모델 학습 과정별 데이터 분류 및 비율 정보[별첨1~4]원천 데이터 모델 학습
        구분 원천 데이터
        전체 열매 전초
        훈련 598,295 174,764 131,502 189,555 102,474
        검증 74,787 21,846 16,439 23,694 12,809
        테스트 74,787 21,846 16,439 23,694 12,809
        합계 747,869 218,456 164,380 236,943 128,092
    • 제한사항: –
  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 약초 이미지 분류 Image Classification Inception-v3와 Triplet Loss를 적용한 Metric Learning AccuracyTop-1 60 % 69.96 %

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    1. 구축대상 품목

    1. 구축대상 품목
    구분 대상 품목 촬영부위
    선정독초 가죽나무, 가지, 갈대, 감국, 개오동, 곰취, 괭이밥, 까마중, 꿀풀, 넉줄고사리, 능소화, 단삼, 담쟁이덩굴, 대추나무, 돼지감자, 띠, 마디풀, 마타리, 메밀, 묏대추나무, 무화과나무, 미나리, 밤나무, 회화나무, 총 60종 전초, 잎, 꽃, 열매
    비교유사식물 참죽나무, 도깨비가지, 달뿌리풀, 억새, 산국, 꽃개오동, 참취, 선괭이밥, 미국까마둘, 배초향, 황고사리, 등골나물, 골등골나물, 대청부채, 물봉선, 개옻나무, 미국실새삼, 세뿔석위, 수박, 석잠풀 ,개시호, 난쟁이아욱, 닥풀, 좀담배풀, 왕자귀나무, 가는장구채, 분홍장구채, 당아욱, 맑은대쑥, 털진득찰 종 61종 전초, 잎, 꽃, 열매

     

    2. 데이터 포맷

    2. 데이터 포맷
    항목명 타입 필수여부 설명 범위
    plantinfo object    클래스 정보   
    plantinfo.class_name string Y 클래스 이름 클래스 이름(121종)
    plantinfo.classification_info string Y 클래스 구분 판별대상, 유사
    plantinfo.herb_name string    동의보감 판별대상 이름 동의보감 판별대상 이름
    plantinfo.similar_plants list    유사 식물  유사 식물 이름
    plantinfo.toxic_info boolean Y 독성 여부 Y, N
    plantinfo.instance_info object    인스턴스 정보 최소 값 : 1, 최대 값 : 1
    plantinfo.instance_info.name string Y 식물 부위 전초, 꽃, 잎, 열매
    image object    인스턴스 세부 정보 이미지 정보, 최소 값 : 7(필드가 Y인 최소 개수
    image.file_path string Y 이미지 경로 ../../../원천데이터/가죽나무/
    image.file_name string Y 클래스(식물명)_인스턴스(부위)_file_id 가죽나무_전초_000001.jpg 
    최소값:4, 최대값:100
    image.shooting_date string Y 촬영 날짜 yyyy-mm-dd
    image.region_name string    촬영 지역 군(시) 또는 장소명
    예, (홍천군), (홍릉수목원)
    image.file_format string Y 파일 형식 JPG
    image.file_size number Y 파일 크기 이미지 용량(byte)
    최소값:1, 최대값:62914560
    image.width number Y 이미지 너비 Pixel
    최소값:1, 최대값:99999
    image.height number Y 이미지 높이 Pixel
    최소값:1, 최대값:99999
    annotations array    어노테이션 정보 라벨링 정보
    annotations[].id string Y 라벨링식별자 최소값:1, 최대값:1
    annotations[].type string Y 라벨링 타입 [bbox, polygon]
    annotations[].bbox object    바운딩박스 정보 최소값:4, 최대값:4
    bndex_xcrdnt number    Bounding Box X Coordinate 바운딩박스 X 좌표
    최소값:1, 최대값:99999
    bndex_ycrdnt number    Bounding Box Y Coordinate 바운딩박스 Y 좌표
    최소값:1, 최대값:99999
    bndex_width number    Bounding Box Width 바운딩박스 넓이
    최소값:1, 최대값:99999
    bndex_hg number    Bounding Box Height 바운딩박스 높이
    최소값:1, 최대값:99999
    annotations[].polygon list    폴리곤 정보 폴리곤 정보
    pyn number    POLYGON 폴리곤 순번
    최소값:1, 최대값:1000
    pyn_xcrdnt number    POLYGON X Coordinate 폴리곤 X 좌표
    최소값:1, 최대값:99999
    pyn_ycrdnt number    POLYGON Y Coordinate 폴리곤 Y 좌표
    최소값:1, 최대값:99999

     

    3. JSON 예시

    동의보감 독초판별 이미지-JSON 예시 이미지

     

  • 데이터셋 구축 담당자

    수행기관(주관) : 가천대학교 산학협력단
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    서정범 031-750-5413 [email protected] · 사업실무 총괄
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    ㈜믹스미디어 · 이미지 수집, 검수
    ㈜동북아생물다양성연구소 · 이미지데이터 수집, 검수, 식물동정표
    (유) 엔와이텔 · 데이터 정제, AI 서비스 활용
    (유) 나인펄스 · 데이터 가공
    ㈜아워텍 · 이미지 데이터 검수, 학습모델 구현, AI 응용서비스
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    서정범 031-750-5413 [email protected]
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.