※온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2024-10-30 데이터 최종 개방 1.0 2024-06-28 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-06-28 산출물 공개 Beta Version 소개
- 난소 종양을 가진 환자의 난소 종양부 CT, 초음파 이미지, 난소암 Whole Slide Image(WSI)와 암표지자검사 결과 및 의료 기록 정보들로부터 획득한 난소 종양 환자의 종합 의료 데이터
구축목적
- 난소 종양을 가진 환자에서 악성 여부 예측 및 치료 성적 예측 서비스 모델 개발에 활용할 수 있는 난소 종양 초음파 및 CT영상, Whole Slide Image(WSI) 데이터, 암표지자검사 데이터, 메타데이터 구축
-
메타데이터 구조표 데이터 영역 헬스케어 데이터 유형 이미지 데이터 형식 png : CT,초음파, svs : WSI, json : 암표지자검사 데이터 출처 아주대학교 산학협력단 외 컨소시엄 참여 병원 라벨링 유형 세그멘테이션(이미지) 라벨링 형식 json 데이터 활용 서비스 난소암 조기 진단 시스템, 난소암 치료 예후 예측 서비스 데이터 구축년도/
데이터 구축량2023년/48,734(CT), 15,694(초음파) , 2,075(WSI), 3,149(암표지자검사결과) -
-데이터 통계
- 데이터 구축 규모데이터 통계 - 데이터 구축 규모 과제번호 과제명 데이터 유형 데이터 설명 데이터 건수 036-049 난소암 데이터 원천데이터 암 CT 10,943 초음파 3,009 WSI 2,075 암표지자검사 782 양성종양 CT 37,791 초음파 12,685 암표지자검사 2,367 라벨링데이터 암 CT 10,943 초음파 3,009 WSI 2,075 양성종양 CT 37,791 초음파 12,685 메타데이터 암 EMR 820 양성종양 EMR 2,661 - 데이터 분포
■ 다양성(통계)
데이터 분포 - 다양성(통계) 항목명 속성명 비율(%) 환자 연령대별 분포 44세 이하 51.08 45세 ~ 64세 41.22 65세 이상 7.7 난소암 병기별 분포 1-2기 41.74 3-4기 58.26 ■ 다양성(요건)
데이터 분포 - 다양성(요건) 항목명 속성명 비율(%) 난소종양 양성/악성 분포 양성 76.44 악성 23.56 난소 악성종양 유형별 분포 장액성 54.27 자궁내막성 12.56 투명세포암 8.54 점액성 10 기타 14.63 난소 양성종양 유형별 분포 성숙기형종 27.96 장액성 11.42 자궁내막종 21.83 점액성 15.3 기타 23.49 -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드-활용 모델
활용 모델 - 난소종양 객체 탐지 모델(CT) 학습 모델 난소종양 객체 탐지 모델(CT) 모델 YOLOv8 성능 지표 mAP 80% 이상 개발 내용 Object Detection 기반 모델인 YOLOv8를 사용하여 CT 이미지를 대상으로 난소종양 양⋅악성 분류 및 영역을 탐지하는 모델 개발 응용서비스 - CT에서 난소종양 영역 및 악성 여부를 탐지하여 난소암 조기진단시스템을 지원 (예시 및 유의사항) - CT에서 난소종양 유형을 판별하고 종양 영역을 탐지하여 난소종양 치료 보조 서비스 및 난소종양 추적 관찰 시스템을 지원 활용 모델 - 난소종양 객체 탐지 모델(초음파) 학습 모델 난소종양 객체 탐지 모델(초음파) 모델 YOLOv8 성능 지표 mAP 80% 이상 개발 내용 Object Detection 기반 모델인 YOLOv8를 사용하여 초음파 이미지를 대상으로 난소 양성종양 유형(multi-class) 분류 및 영역을 탐지하는 모델 개발 응용서비스 - 초음파에서 난소종양 영역 및 악성 여부를 탐지하여 난소암 조기진단시스템을 지원 (예시 및 유의사항) - 초음파에서 난소종양 유형을 판별하고 종양 영역을 탐지하여 난소종양 치료 보조 서비스 및 난소종양 추적 관찰 시스템을 지원 활용 모델 - 난소암 재발기간 예측 모델 학습 모델 난소암 재발기간 예측 모델 모델 RandomForestRegressor 성능 지표 C-index 65% 이상 개발 내용 앙상블 기반의 회귀 모델인 rfRegressor 모델을 사용하여 난소암 재발기간 데이터가 존재하는 환자의 전자의료정보데이터를 대상으로 첫 번째 난소암 재발이 나타나기까지의 기간을 예측하는 모델 개발 응용서비스 - 환자 의료 정보를 활용하여 난소암 치료 예후 예측 서비스 지원 (예시 및 유의사항) 난소암 재발기간 예측을 통해 난소암 치료를 위한 보조적 도구로 활용 -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드- 데이터 구성
데이터 구성 데이터 유형 데이터 설명 원천데이터 암 CT 초음파 WSI 암표지자검사 양성종양 CT 초음파 암표지자검사 라벨링데이터 암 CT 초음파 WSI 양성종양 CT 초음파 메타데이터 암 EMR 양성종양 EMR - 어노테이션 포맷
- 라벨링 데이터 (CT 및 초음파)어노테이션 포맷 - 라벨링 데이터 (CT 및 초음파) 구분 속성명 타입 필수여부 비고 1 fileName string Y 2 taskName string Y 3 type string Y 4 idx number N 5 resultData array N 5-1 resultData{} object Y 5-1-1 resultData{}.points array N 5-1-1-1 resultData{}.points{} object Y 5-1-1-1-1 points{}.x number N 5-1-1-1-2 points{}.y number N 5-1-1-1-3 points{}.idx number N 5-1-2 resultData{}.tool string N 5-1-3 resultData{}.idx number N 5-1-4 resultData{}.value string Y - 라벨링 데이터 (WSI)
어노테이션 포맷 - 라벨링 데이터 (WSI) 구분 속성명 타입 필수여부 비고 1 type string Y 2 feature array Y 2-1 feature{} object Y 2-1-1 feature{}.type string Y 2-1-2 feature{}.id string Y 2-1-3 feature{}.geometry object Y 2-1-3-1 geometry{}.type string Y 2-1-3-2 geometry{}.coordinates[] array N 2-1-4 feature{}.properties object Y 2-1-4-1 properties{}.objectType string Y 2-1-4-2 properties{}.classification object Y 2-1-4-2-1 classification{}.name string Y 2-1-4-2-2 classification{}.color[] array Y 2-1-4-2-3 classification{}.fnd string Y - 원천데이터 (암표지자)
어노테이션 포맷 - 원천데이터 (암표지자) 구분 속성명 타입 필수여부 비고 1 PT_ID string Y 2 POSTOP_PATH string Y 1: 난소양성종양
2: 난소암3 FND string Y 4 CA_125 number N - 메타데이터
어노테이션 포맷 - 메타데이터 구분 속성명 타입 필수여부 비고 1 PT_ID string Y 2 Birth_YM string Y yyyy-mm 3 POSTOP_PATH string Y 1: 난소양성종양 2: 난소암 4 HTLG_TYPE_CMNT string Y 5 FND string Y 6 SONO_YM string N yyyy-mm 7 CT_YM string N yyyy-mm 8 FRST_DIAG_YM string Y yyyy-mm 9 FRST_DIAG_NM string Y "C48": Malignant neoplasm of retroperitoneum "C56":Malignantneoplasmofovary "C56.0":Malignantneoplasmofovary,right "C56.1":Malignantneoplasmofovary,left "C56.9":Malignantneoplasmofovary,unspecifiedside:Ovariancancer "C57": Malignant neoplasm of fallopian tube "D27.9":Benignneoplasmofovary,Unspecifiedside "ETC":기타 10 DIAG_ATT_AGE number Y 11 PT_height number Y 12 PT_weight number Y 13 PT_GVD number Y 14 PT_Para number Y 15 CA_125 number N 16 FRST_OPRT_YM string N yyyy-mm 17 FIGO_STAG string N 18 LAST_DT string N yyyy-mm 19 LAST_FLUP_STUS_CD string N "1": Alive without ovary cancer "2":Alivewithovarycancer "3":Death "4":Unknown "99":양성종양 20 FLUP_DRTN number N 21 DEAD_YN string N "Y":사망, "N": 생존, "U": 모름 22 RLPS_YN string N "Y":재발, "N": 없음, "U": 모름 23 RLPS_DIAG_YM string N yyyy-mm 24 RECU_DRTN number N - 데이터 포맷
어노테이션 포맷 - 데이터 포맷 데이터 유형 데이터 포맷 원천데이터 암 CT PNG 초음파 PNG WSI SVS 암표지자검사 JSON 양성종양 CT PNG 초음파 PNG 암표지자검사 JSON 라벨링데이터 암 CT JSON 초음파 JSON WSI JSON 양성종양 CT JSON 초음파 JSON 메타데이터 암 EMR JSON 양성종양 EMR JSON - 실제 예시
- CT 이미지(원천:PNG – 라벨링:JSON)실제 예시 - CT 이미지(원천:PNG – 라벨링:JSON) 원천데이터 라벨링데이터 - 초음파 이미지(원천:PNG – 라벨링:JSON)
실제 예시 - 초음파 이미지(원천:PNG – 라벨링:JSON) 원천데이터 라벨링데이터 - WSI 이미지(원천:svs – 라벨링:JSON)
실제 예시 - WSI 이미지(원천:svs – 라벨링:JSON) 원천데이터 라벨링데이터 - 암표지자검사(원천:JSON)
실제 예시 - 암표지자검사(원천:JSON) 원천데이터 - 메타데이터(JSON)
실제 예시 - 메타데이터(JSON) 메타데이터 -
데이터셋 구축 담당자
수행기관(주관) : 아주대학교 산학협력단
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김미란 031-219-5300 [email protected] 총괄 책임자 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜위세아이텍 품질검사, AI모델링 닥터웍스 데이터 가공, 데이터 검수 피트케어, 휴민텍 데이터 정제 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 김미란 031-219-5300 [email protected] 장혜진 031-219-5250 [email protected] AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 이지현 02-6246-1400 [email protected] 한지윤 02-6246-1400 [email protected] 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 이희상 02-6402-2240 [email protected] 윤대명 02-6402-2240 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.