-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2023-12-06 데이터 최종 개방 1.0 2023-06-28 데이터 개방(Beta Version) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2023-12-06 산출물 전체 공개 소개
반려견, 반려묘 건강정보와 관련된 데이터를 확보하고, 건강 상태 서비스 및 활력 데이터를 이용한 인공지능 데이터 활용 응용모델 개발
구축목적
크라우드소싱 데이터 수집 플랫폼 구축 및 데이터 품질검증을 통한 인공지능 서비스 개발에 필요한 반려견, 반려묘 건강정보 학습용 데이터 구축 반려동물의 표준 데이터베이스를 통한 건강상태 및 사양관리 등과 품종별 호발질병을 분석하는 인공지능 개발을 위한 데이터 구축
-
메타데이터 구조표 데이터 영역 농축수산 데이터 유형 이미지 데이터 형식 jpg 데이터 출처 동물병원, 유기견보호센터, 반려동물 훈련소 등 라벨링 유형 바운딩박스 라벨링 형식 JSON 데이터 활용 서비스 반려동물 건강 관리를 위한 비만도 확인 서비스 데이터 구축년도/
데이터 구축량2022년/120,365 -
데이터 구축 규모 )
o 타입별로 총120,365건의 건강정보 데이터와 4,000건의 메타데이터 구축데이터 구축 규모 ) 타입 종 수량 데이터 구성 A 반려견 85,484 기본 데이터, 신체계측 데이터, 사양관리 데이터, 사진데이터 반려묘 1,005 B 반려견 33,679 기본 데이터, 신체계측 데이터, 사양관리 데이터, 반려묘 197 의학정보 데이터, 활력징후 측정데이터, 사진데이터 C 반려견 4,000 기본데이터, 의학정보 데이터 ※ 데이터 구성 상세
데이터 구축 규모 )※ 데이터 구성 상세 구분 항목 설명 기본 데이터 Species 종별 구분 반려견/반려묘 Mission-id 일련번호 일련번호, 자동 부여 Provider-code 제공처 코드 데이터 제공 동물병원, 센터 등 코드 breed 품종 age 나이 1년 이상은 연수, 1년 이하는 12분의 개월 소수점 Sex 성별 수컷, 암컷, 중성화수컷, 중성화암컷 신체 계측 데이터 Weigth 체중 체중 Shoulder-Height 견갑부 높이 견갑부 높이 Neck-Size 목둘레 목둘레 Back-Length 등허리 길이 등허리 길이 Chest-Size 흉곽둘레 흉곽둘레 BCS 신체 충실 지수 신체 충실 지수 사양관리 데이터 exercise 운동강도 운동강도정의 environment 생활 환경 생활 환경 : in-door, out-door defecation 배변 상태 배변 상태 : 정상/이상 food-count 하루 식이 횟수 식이 횟수 : 하루 식사횟수 food-amount 1회 식사량 식이 식사량 : 1회 식사량 - 종이컵 기준 snack-amount 1회 간식량 식이 간식량 : 1회 식사량 대비 간식량 food-kind 식사 종류 식사 종류 사진 데이터 body-part 사진 사진 종류 의학정보 데이터 Disease 질병유무 질병유무 Disease-Code 질병코드 CRP C-반응성 단백질 바이오마커-스트레스로 인한 염증 발생 확인 IgG 면역글로블린 G 바이오마커-스트레스로 인한 면역력 감소 확인을 위한 면역 글로블린검사 IL-6 인터류킨-6 바이오마커-스트레스로 인한 염증 발생 확인 AFP 알파 태아 단백질 바이오마커-스트레스로 인한 간암 발생 유무 확인 활력 징후 측정 데이터 stress 스트레스 지수 스트레스 지수 데이터 구축 분포 )
o 종별 분포데이터 구축 분포 )o 종별 분포 구분 비율 반려견 99.04% 반려묘 0.96% o 성별 분포
데이터 구축 분포 )o 성별 분포 구분 비율 수컷 21.56% 암컷 62.73% 중성화수컷 8.88% 중성화암컷 6.83% o BCS 분포
데이터 구축 분포 )o BCS 분포 구분 비율 비고 1 0% 저체중 2 0.35% (Thin) 3 3.44% 4 18.85% 정상(Ideal) 5 61.35% 6 12.20% 과체중 7 3.22% (Heavy) 8 0.45% 9 0.15% o 품종 분포
데이터 구축 분포 )o 품종 분포 구분 비율 구분 비율 반려견 비글 1.31% 반려묘 기타 63.73% 비숑프리제 16.29% 코리안숏헤어 18.39% 불독 0.44% 페르시안 6.66% 치와와 단모 4.04% 러시안블루 0.50% 코커스패니엘 1.48% 스코티시폴드 8.07% 닥스훈트 장모 0.23% 샴 1.00% 닥스훈트 단모 0.78% 터키시앙고라 1.66% 도베르만 핀셔 0.15% 시추 1.55% 기타 2.12% 저먼셰퍼드 0.37% 골든리트리버 0.53% 그레이트피레니즈 0.06% 하운드 0.24% 허스키 0.38% 진도 0.91% 래브라도리트리버 1.09% 몰티즈 16.75% 믹스 장모 0.59% 믹스 단모 1.44% 말라뮤트 0.07% 포메라니안 23.48% 푸들 18.86% 슈나우저 0.30% 쉽독 3.13% 테리어 2.62% 웰시코기 0.79% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드ㅇ 국내 AI 기업 중 반려동물 데이터가 필요한 기업에게 다양한 반려동물 이미지와 헬스케어 관련 학습데이터로 제공
ㅇ 반려동물 관련 AI 학습 데이터 제공을 통해 AI 기업들의 인공지능 서비스 정확도 향상 기대
ㅇ 반려동물의 건강 관리를 위한 서비스나 반려동물 건강과 관련된 보조 정보, 반려동물 용품, 사료 등 연계 서비스 제공을 위한 분석 및 추천 서비스 개발 활용 가능
ㅇ 자체 개발 중인 인공지능 기반 반려동물 질병진단 서비스인 ‘팅커펫’에 부가 서비스 개발
ㅇ학습 모델은 기존의 관련 연구에서 가장 좋은 성능을 보인 EfficientNet를 기반으로 구성
ㅇ총 13가지 이미지를 입력받는 모델을 구성하여 평가<인공지능 모델 구축 개요>
- 모델 구성
○ 13가지 영상 사용Input-13 224x224x3 EfficientNet-13 7x7x1792 Global Average Pooling-13 1792 Concatenate 1792*13 Output 3 - 학습 데이터 구성
<학습 데이터 개요>
‧ 털이 과도하게 많은 경우 (실제 시각적 판단보다 직접 만져보아서 진단 가능한 경우), 체형에 관한 이미지가 부족한 경우를 제거하여 데이터셋 구성
- 학습 결과: NVidia A100 machine 대상으로 아래 파라메터로 학습
Size: (224, 224, 3)
Loss: Cross Entropy
Optimizer: Adam
Beta1, Beta2: 0.9, 0.999
Learning Rate: 0.0001
Early Stopping Patience: 4
Epoch: ~30 -
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 비만도 분류 성능 Image Classification ResNet, EfficientNet F1-Score(weighted) 0.7 점 0.77 점
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드원시 데이터 )
원천 데이터 )
데이터 구성 )
데이터 구성 ) 단계 수준1 수준2 수준3 수준4 수준5 데이터 타입 필수 여부 설명 유효값 유효값설명 수집/정제 metadata type string Y 데이터 타입별구분 A,B,C A: id+physical+breeding+image B:id+physical+breeding+image+medical+vital C:id+medical id object 기본정보 데이터 species string Y 종별 구분: 반려견/반려묘 10, 20 형식: 반려견(10), 반려묘(20) mission-id string Y 일련번호, 자동 부여 6자리 숫자 형식: 반려견10_OOOOOO, 반려묘20_OOOOOO provider-code string Y 데이터를 제공하는 동물병원, 센터 등의 코드 OOOO 형식: 4자리 숫자코드 group string Y 품종 그룹 SS,MS,LS,SL,ML,LL,UK SS: 5kg 미만 단모 MS: 5-10kg 단모 LS: 10kg 이상 단모 SL: 5kg 미만 장모 ML: 5-10kg 장모 LL: 10kg 이상 장모 UK: 알 수 없음(장, 단모구분이 어려운 개체, 반려묘등) breed string Y 품종 GRE, DAL, DAS, DOB, GOL, LAB, MAL, BUL, BEA, BIC, SHE, SCH, DRI, WEL, GER, JIN, CHL, CHS, COC, TER, POM, POO, HOU, HUS, MUT, MIL, MIS, ETC BEA,BIC,BUL,CHL,CHS,COC,DAL,DAS,DOB,DRI,ETC,GER,GOL,GRE,HOU,HUS,JIN,LAB,MAL,MIL,MIS,MUT,POM,POO,SCH,SHE,TER,WEL,ETC KOR,RUS,PER,SIA,TUR,SCO,MIX,ETC class string Y 반려견, 반려묘의 단/장모 구분 LH: 장모종, SH: 단모종, UK: 알수없음 age number Y 데이터 수집 당시 나이 0~40 1년 미만의 경우 개월수(/12)로 표시, 1살 이상부터는 정수 sex string Y 성별 (수컷, 암컷, 중성화수컷, 중성화암컷) IM, IF, CM, SF 형식: Male(IM) / Female(IF) / Castrated male(CM) / Spayed female(SF) physical object 신체계측 데이터 weight number Y 체중 숫자 kg shoulder-height number Y 견갑부 높이 숫자 cm neck-size number Y 목둘레 숫자 cm back-length number Y 등허리 길이 숫자 cm chest-size number Y 흉곽둘레 숫자 cm BCS number Y 신체 충실 지수 1~9 BCS 단계(1~9단계) breeding object 사양관리 데이터 exercise number Y 운동강도정의 1, 2, 3 저(1) - 1주일에 1시간 이하, 중(2)- 매일 30분 이하, 고(3) - 매일 1시간 이상 environment number Y 생활 환경: in-door, out-door 1, 2 1- in-door, 2- out-door defecation number Y 배변 상태: 정상/이상 1, 2 1-정상, 2-이상 food-count number Y 식이 횟수: 하루 식사횟수 1, 2, 3, 4 1-1회, 2-2회, 3-3회, 4-자유급식 food-amount number Y 식이 식사량: 1회 식사량 - 종이컵을 기준으로 표기 숫자 1회 식사량 - 종이컵을 기준으로 표기 (소수점 입력 가능) snack-amount number Y 식이 간식량: 1회 식사량 대비 간식량표기 숫자 간식량: 사료의 X %로 표기 food-kind number Y 식사 종류 1, 2, 3 1-반려동물 전용사료만, 2-전용사료 + 사람 음식 혼용, 3-사람음식 위주 image object 사진 데이터 body-part string Y 00~20 00-사진 없음, 01-전면, 02-후면, 03-좌측면중앙, 04-좌측면좌45도, 05-좌측면우45도, 06-좌측면상45도, 07-좌측면하45도, 08-우측면중앙, 09-우측면좌45도, 10-우측면우45도, 11-우측면상45도, 12-우측면하45도, 13-상측면, 14-두상전면중앙, 15-두상전면좌45도, 16-두상전면우45도, 17-두상전면상45도, 18-두상전면하45도, 19-두상상측면, 20-비문전면 medical object 의학정보 데이터 disease string Y 질병유무 ABN, NOR 질환(ABN), 정상(NOR) diseaseName string N 질병코드 DER, MUS, NEU, OCU, RES, CAR, HEM, GAS, URI, REP, END, INF, ETC 질병코드표참조 CRP number Y 바이오마커-스트레스로 인한 염증 발생 확인 (C-반응성 단백질) 0~500 200->500으로 변경 IgG number Y 바이오마커-스트레스로 인한 면역력 감소 확인을 위한 면역 글로블린검사 (면역글로블린 G) 0~2000 IL-6 number Y 바이오마커-스트레스로 인한 염증 발생 확인 (인터류킨-6) 0~200 AFP number Y 바이오마커-스트레스로 인한 간암 발생 유무 확인 (알파 태아 단백질) 0~50000 어노테이션 포맷 )
어노테이션 포맷 ) 단계 수준1 수준2 수준3 수준4 수준5 데이터 타입 필수 여부 설명 유효값 유효값설명 가공 annotations image-id string Y 이미지 파일명(ex.10_mission-id_품종_사진번호(body-part).png) label object Shape string Y 어노테이션 타입 Bounding Box (고정값) Part string Y 사진 위치 전면, 후면,좌측면중앙, 좌측면좌45도, 좌측면우45도, 좌측면상45도, 좌측면하45도, 우측면중앙, 우측면좌45도, 우측면우45도, 우측면상45도, 우측면하45도, 상측면, 두상전면중앙, 두상전면좌45도, 두상전면우45도, 두상전면상45도, 두상전면하45도, 두상상측면, 비문전면 00-사진 없음, 01-전면, 02-후면, 03-좌측면중앙, 04-좌측면좌45도, 05-좌측면우45도, 06-좌측면상45도, 07-좌측면하45도, 08-우측면중앙, 09-우측면좌45도, 10-우측면우45도, 11-우측면상45도, 12-우측면하45도, 13-상측면, 14-두상전면중앙, 15-두상전면좌45도, 16-두상전면우45도, 17-두상전면상45도, 18-두상전면하45도, 19-두상상측면, 20-비문전면 Label string Y 사진 구분 - 전신(01~13), 두상(14~19), 코(20) 전신, 두상, 코 전신(01~13), 두상(14~19), 코(20) Points array Y 좌표 최소값:2, 최대값:2 [] array Y 최소값:2, 최대값:2 $value$ number Y 좌표값 구축 데이터 파일명 )
■데이터타입(A,B,C)_종(10,20)_품종(BEA,BIC,BUL,CHL,CHS,COC,DAL,DAS,DOB,DRI,ETC,GER,GOL,GRE,HOU,HUS,JIN,LAB,MAL,MIL,MIS,MUT,POM,POO,SCH,SHE,TER,WEL,ETC,KOR,PER,RUS,SCO,SIA,TUR)_성별(IM,IF,CM,SF)_촬영날짜(YYYYMMDD)_일련번호(10_000000)_사진부위코드(00-20).json
■ 예시 : A_10_POO_IF_20221209_10_102247_07.json
실제 예시 )
{
"metadata": {
"type": "A",
"id": {
"species": "10",
"mission-id": "10_102247",
"provider-code": "0089",
"breed": "POO",
"age": 4,
"class": "SH",
"sex": "IF",
"group": "SS"
},
"physical": {
"weight": 3.8,
"shoulder-height": 27,
"neck-size": 22,
"back-length": 29,
"chest-size": 34,
"BCS": 6
},
"image": {
"body-part": "07"
},
"breeding": {
"exercise": 3,
"food-count": 4,
"environment": 1,
"defecation": 1,
"food-amount": 2,
"snack-amount": 0,
"food-kind": 1
}
},
"annotations": {
"image-id": "A_10_POO_IF_20221209_10_102247_07.jpg",
"label": {
"label": "전신",
"points": [
[
1022,
704
],
[
5241,
3584
]
],
"shape": "Bounding Box",
"part": "좌측면하45도"
}
}
} -
데이터셋 구축 담당자
수행기관(주관) : ㈜이노그리드
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 구원본 070-8730-2346 [email protected] 인공지능 기반 학습용 데이터 적재를 위한 인프라 구축·통합 관리 및 모니터링, 수집된 데이터를 기반으로 인공지능 모델 개발 및 제공 수행 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜바이애틱 인공지능 학습용 데이터 및 반려동물의 건강 데이터 수집 담당 ㈜지케스 크라우드소싱 데이터 라벨링 저작도구 개발 및 인공지능 학습 데이터 정제·검수를 통한
기술개발 담당㈜비투엔 인공지능학습용 데이터 품질 관리(데이터 품질관리 지표 및 관리체계, 품질관리계획 등), 품질 검증(구문정확, 유효성) , TTA 오류 보고서에 대해 데이터 보완지원 담당 서울대학교 산학협력단 인공지능 기반 데이터 활용을 위한 데이터 수집 및 데이터의 검수 담당 충남대학교 산학협력단 인공지능 기반 데이터 활용을 위한 데이터 수집 및 데이터의 검수 담당 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 구원본 070-8730-2346 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.