※본 데이터는 원본에서 무작위로 추출된 특성으로 구축된 합성데이터이며, AI허브 약관과 개인정보보호법에 의해 제3자 이전이나 원본데이터의 추론은 엄격하게 금지됩니다. 정보보호를 위해 합성모델은 개방하지 않습니다.
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.2 2024-10-30 데이터 최종 개방 1.1 2024-08-09 非안심존 데이터 전환 1.0 2024-06-28 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-08-20 데이터설명서, 활용가이드라인, 구축업제정보 수정 2024-06-28 산출물 공개 Beta Version 소개
- 실제 배아 이미지를 활용하여 생성한 배아 이미지 합성 데이터
구축목적
- 과학적 근거하에 생성한 생식기계 분야 합성데이터를 의료현장(교육, 연구, 진료 등)과 다양한 의료사업에 활용하고자 함
-
메타데이터 구조표 데이터 영역 헬스케어 데이터 유형 이미지 데이터 형식 jpg, png 데이터 출처 본 사업 참여병원 5곳 라벨링 유형 카테고리제이션(이미지) 라벨링 형식 json 데이터 활용 서비스 학생, 연구원 등 교육 자료, 배아 자동 등급 분류 시스템 등 데이터 구축년도/
데이터 구축량2023년/61,133 -
- 데이터 구축 규모
데이터 구축 규모 원천데이터 및 합성데이터 배아 이미지 데이터 구분 수량 비고 원천데이터 합성데이터 현미경 3일차 배아 1만 2천건 1만 건 원천 데이터 5일차 배아 6천 건 1만 건 기확보 Time- 2cell 2천 건 1만 건 - lapse 4cell 2천 건 1만 건 8cell 2천 건 1만 건 포배기 2천 건 1만 건 - 데이터 분포
데이터 분포 데이터명 원천데이터 구분 구축 비율(%) 배아 이미지 합성데이터 원본 배아 이미지 (현미경) 3일차 배양 이미지 46.15% (현미경) 5일차 배양 이미지 23.07% (Time-lapse) 2 cell 배양 배아 7.69% (Time-lapse) 4 cell 배양 배아 7.69% (Time-lapse) 8 cell 배양 배아 7.69% (Time-lapse) 포배기 배양 배아 7.69% 합성 배아 이미지 (현미경) 3일차 배양 이미지 16.66% (현미경) 5일차 배양 이미지 16.66% (Time-lapse) 2 cell 배양 배아 16.66% (Time-lapse) 4 cell 배양 배아 16.66% (Time-lapse) 8 cell 배양 배아 16.66% (Time-lapse) 포배기 배양 배아 16.66% -
-
- 이미지 합성 모델
- 알고리즘 : Latent Diffusion Model
- 선정 사유
: 기존 Diffusion model과 같이 높은 성능을 보이면서 효율성이 계산량 확보
: 하나의 모델 학습을 통해 Latent space가 다른 이미지 생성에도 사용될 수 있어서 기존 배아 영상 생성을 통해 타임랩스 이미지 생성 모델에도 사용 가능
: 다양한 semantic 조건 이용 가능하여 임상 요구에 맞는 영상 생성 가능
: 다양한 의료 영상 분야에서의 성공적 결과 발표- 등급분류 모델
- 알고리즘 : ResNet-50
- 선정사유
: Residual Learning 이라는 개념을 통해 모델의 층이 깊어져도 학습이 잘 되도록 구현한 알고리즘
: Pretrained weight를 활용할 수 있음 -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드- 데이터 구성 및 어노테이션 포맷
- 현미경 D3현미경 D3 구분 속성명 타입 필수여부 설명 비고 1 objects array Y 데이터셋 정보 2 categories object Y 종류 정보 2-1 properties array Y 속성 정보 2-1-1 type string Y 형태 2-1-2 cell string Y 2-1-3 evenness string Y 2-1-4 fragmentation string Y - 현미경 D5
현미경 D5 구분 속성명 타입 필수여부 설명 비고 1 objects array Y 데이터셋 정보 2 categories object Y 종류 정보 2-1 properties array Y 속성 정보 2-1-1 type string Y 형태 2-1-2 stage string Y 2-1-3 ICM string Y 2-1-4 TE string Y - Timelapse
Timelapse 구분 속성명 타입 필수여부 설명 비고 1 objects array Y 데이터셋 정보 2 categories object Y 종류 정보 2-1 properties array Y 속성 정보 2-1-1 type string Y 형태 2-1-2 cell string Y 셀 수 - 프로퍼티 설명
프로퍼티 설명 cell evenness fragmentation 배아가 발달 과정에 따른 cell의 개수 각 분열세포들의 크기가 균등한 정도 파편화된 배아의 비율 stage ICM TE 1~6단계 발달 상황 태아로 성장하게 되는 세포 덩어리로
세포의 개수와 조밀한 정도5일차 배아에서 나타나는 띠와
유사한 형상을 등급으로 구분 -
데이터셋 구축 담당자
수행기관(주관) : 아주대학교 산학협력단
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김미란 031-219-5300 [email protected] 총괄 책임자 수행기관(참여)
수행기관(참여) 기관명 담당업무 카이헬스 배아 이미지 합성데이터 총괄 제네시스랩 합성 데이터 생성 데이터연구소 데이터 가공 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 허 진 0507-1302-9698 [email protected] AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 허 진 0507-1302-9698 [email protected] 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 오유정 070-4452-9220 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.