※온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2023-12-29 데이터 최종 개방 1.0 2023-04-30 데이터 개방(Beta Verison) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-02-27 산출물 전체 공개 소개
난임 환자의 체외수정 과정을 통해서 얻어지는 데이터로써, 정자와 난자를 수정시킨 배아를 배양하고 특정 시점에 촬영한 데이터
구축목적
난임시술의 성공률을 높이기 위해서 질 좋은 배아를 선택하는 AI 모델을 만들어 제공하기 위함
-
메타데이터 구조표 데이터 영역 헬스케어 데이터 유형 이미지 데이터 형식 png 데이터 출처 컨소시엄 참여 병원 라벨링 유형 세그멘테이션, 바운딩박스 라벨링 형식 JSON 데이터 활용 서비스 배아 선별 서비스 데이터 구축년도/
데이터 구축량2022년/20,138건(배아) -
● 데이터 구축 규모
데이터 구축 규모 과제번호 과제명 데이터 유형 데이터 설명 데이터 건수 27 배아 이미지 데이터 원천데이터(PNG,JPG) 원본이미지 14,989 라벨링데이터(JSON) labels 14,989 meta 14,989 메타데이터(JSON) 임상정보 8,559 ● 데이터 분포
- 다양성(통계)다양성(통계) 항목명 속성명 비율 산모 연령대별 분포 0~10 0.02% 10~20 0.02% 20~30 6.46% 30~40 77.63% 40~50 15.75% 기타 0.22% 임신 여부 분포 임신 49.54% 비임신 50.29% - 다양성(요건)
다양성(요건) 항목명 속성명 비율 현미경 이미지 배아 촬영 일자별 분포 3일 64.13% 5일 35.87% 타임랩스 이미지 배아 촬영 일자별 분포 3일 54.91% 5일 45.09% 배아 단계별 이미지 분포 1 3.81% 2 9.40% 3 17.63% 4 27.41% 5 23.67% 6 18.07% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드- Resnet은 이미지 인식을 위해 개발된 아키텍처로써 ImageNet에서 그 성능을 검증받음
Resnet 학습 (Training) 검증 (Validation) 시험 (Test) 데이터 구축데이터 80% 구축데이터 10% 구축데이터 10% 내용 학습 데이터는 많을수록 좋음 학습 중 모델 성능 평가 및 비교 최종 학습 된 모델의 성능 평가 서비스 활용 시나리오
구축한 모델을 활용해 배아 선별이나 배아 추적 서비스에 활용할 수 있음1. 배아선별 서비스: 연구원들이 이식할 배아를 결정할 때 도움을 받을 수 있음
2. 배아추적 서비스: 배아를 배양하는 과정에서 각 배아를 개별 탐지함으로써 배아를 구분하여 추적할 수 있음
-
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 배아 탐지 성능 Object Detection ResNet-50 + RetinaNet AP 80 % 83.09 % 2 배아 등급 분류 성능 Image Classification ResNet-50 AUC-ROC 0.85 단위없음 0.853 단위없음 3 임신 가능성 AI 분류 성능 Image Classification ResNet-50 AUC-ROC 0.65 단위없음 0.7 단위없음
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드● 난임시술 배아이미지 데이터
- 원천데이터 (PNG)
- 라벨링데이터 (JSON)
① labels
② meta
● 전자 의료 기록 데이터
- 환자의 임상정보
● 어노테이션 포맷
- 라벨링 데이터 (meta)라벨링 데이터 (meta) NO. 속성명 타입 필수여부 설명 범위 비고 1-1 data_key string Y 데이터 경로 1-2 dataset string Y 작업 세트 1-3 image_info object Y 이미지 정보 1-4 width number Y 이미지 너비 1-5 height number Y 이미지 높이 1-6 label_id string Y 라벨링 파일 이름 1-7 label_path array Y 라벨링 파일 경로 1-8 last_updated_date string 마지막 수정 일자 1-9 tags array 이미지와 관련된 정보 1-10 id string 이미지 정보의 키값 1-11 name string 이미지 정보의 실제 값 1-12 work_assignee string 작업 할당 정보 1-13 status string 작업 상태
- 라벨링 데이터 (labels)라벨링 데이터 (labels) No. 항목명 타입 필수여부 설명 범위 비고 1 objects object Y 데이터셋 정보 1-1 id string Y 객체 아이디 1-2 class_id string Y 클래스 아이디 1-3 tracking_id int N 어노테이션 생성 번호 1-4 class_name string Y 클래스 명 zona_outer,zona_inner, TE, ICM, fertilized_egg, cell, fragmentation 1-5 annotation_type string Y 어노테이션 형태 polygon, box 1-6 annotation object N 어노테이션 정보 1-7 multiple boolean Y true,false 1-8 coord object Y 어노테이션 좌표 1-9 points object Y 어노테이션 실제 좌표값 1-10 meta object N 어노테이션 속성과 관련한 정보 1-11 z_index number N 어노테이션의 계층 (이번 배아 과제와는 상관없음) 1-12 visible boolean N 어노테이션 시각화 설정 1-13 alpha number N 어노테이션 투명도 설정 1-14 color string N 어노테이션 색상 1-15 properties list N 어노테이션의 속성 1-16 fertilized_egg_id number Y 수정란 아이디값 1-17 x number N 바운딩박스 x좌표 1-18 y number N 바운딩박스 y좌표 1-19 width number N 바운딩박스 길이 1-20 height number N 바운딩박스 높이 1-21 type string N 1-22 property_id string N 어노테이션 아이디값 1-23 property_name string Y 등급 속성 1-24 option_id string N 등급 아이디값 1-25 option_name string Y 등급 1-26 cell_count number Y 셀 수 1-27 cell_circumference array Y cell 둘레 1-28 zona_inner_area number Y zonna_inner 면적 1-29 framentation_area number N fragmentation 면적 1-30 fragmentation_percentage number N Cell 면적 대비 fragmentation 면적 비율 1-31 categories object N fertilized egg 값 1-32 properties array N Grade 등급 값
- 메타 데이터 (임상정보)메타 데이터 (임상정보) NO. 항목명 타입 필수여부 설명 비고 1 Patient.ID string Y 환자번호 2 Embryo.ET date string Y 배아 이식 일자 3 Embryo.OPU date string Y 난자 채취 일자 4 Patient.Femaleage string Y 여성 나이 5 Patient.Maleage string N 남성 나이 6 Patient.Cause string N 난임 원인 난임 원인 남성 요인: 1 배란기능장애: 2 난소기능 저하: 3 난관요인: 4 자궁요인: 5 자궁내막증: 6 원인불명: 7 복합요인 (2개 이상이 원인인 경우): 8 기타요인: 9 7 Cycle.G-sac string Y 아기 집 ex) 1,2 (아기집 개수) 8 Cycle.Egg no string Y 총 난자 수 9 Cycle.Mll no string Y 성숙된 난자 수 10 Cycle.2PN no string Y 수정된 난자 수 11 Cycle.ET no string Y 이식한 배아 수 12 Cycle.Camera string Y 촬영 카메라 13 Cycle.Microscope string Y 촬영 현미경 14 stop character string Y 항목의 끝 -
데이터셋 구축 담당자
수행기관(주관) : 아주대학교 산학협력단
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김미란 031-219-5300 [email protected] 데이터 확보, 추출, 검증, 인공지능 모델 개발과 검증, 홍보 활동 등 전 단계 관리 감독 수행기관(참여)
수행기관(참여) 기관명 담당업무 슈퍼브에이아이 이미지 데이터 정제 및 라벨링 도구 개발 및 교육, 크라우드 워커 관리, 데이터 관리 카이헬스 총괄보조 및 진도관리, 인공지능 모델 개발, 모델 학습 및 검증, 데이터품질관리 피트케어 데이터 전처리 및 1차 정제, S/W도구 개발 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 김미란 031-219-5300 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.