콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
본 데이터는
온라인 안심존 데이터 ?

온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석

입니다.
#헬스케어 의료

NEW 난소암 데이터

난소암 데이터 아이콘 이미지
  • 분야헬스케어
  • 구분 안심존(온라인)
  • 유형 이미지
구축년도 : 2023 갱신년월 : 2024-10 조회수 : 1,376 다운로드 : 23

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.1 2024-10-30 데이터 최종 개방
    1.0 2024-06-28 데이터 개방 Beta Version

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2024-06-28 산출물 공개 Beta Version

    소개

    - 난소 종양을 가진 환자의 난소 종양부 CT, 초음파 이미지, 난소암 Whole Slide Image(WSI)와 암표지자검사 결과 및 의료 기록 정보들로부터 획득한 난소 종양 환자의 종합 의료 데이터

    구축목적

    - 난소 종양을 가진 환자에서 악성 여부 예측 및 치료 성적 예측 서비스 모델 개발에 활용할 수 있는 난소 종양 초음파 및 CT영상, Whole Slide Image(WSI) 데이터, 암표지자검사 데이터, 메타데이터 구축
  • -데이터 통계
       - 데이터 구축 규모

    데이터 통계 - 데이터 구축 규모
    과제번호 과제명 데이터 유형 데이터 설명 데이터 건수
    036-049 난소암 데이터 원천데이터 CT 10,943
    초음파 3,009
    WSI 2,075
    암표지자검사 782
    양성종양 CT 37,791
    초음파 12,685
    암표지자검사 2,367
    라벨링데이터 CT 10,943
    초음파 3,009
    WSI 2,075
    양성종양 CT 37,791
    초음파 12,685
    메타데이터 EMR 820
    양성종양 EMR 2,661

     

       - 데이터 분포

         ■ 다양성(통계)

    데이터 분포 - 다양성(통계)
    항목명 속성명 비율(%)
    환자 연령대별 분포 44세 이하 51.08
    45세 ~ 64세 41.22
    65세 이상 7.7
    난소암 병기별 분포 1-2기 41.74
    3-4기 58.26

     

         ■ 다양성(요건)

    데이터 분포 - 다양성(요건)
    항목명 속성명 비율(%)
    난소종양 양성/악성 분포 양성 76.44
    악성 23.56
    난소 악성종양 유형별 분포 장액성 54.27
    자궁내막성 12.56
    투명세포암 8.54
    점액성 10
    기타 14.63
    난소 양성종양 유형별 분포 성숙기형종 27.96
    장액성 11.42
    자궁내막종 21.83
    점액성 15.3
    기타 23.49
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    -활용 모델

    활용 모델 - 난소종양 객체 탐지 모델(CT)
    학습 모델  난소종양 객체 탐지 모델(CT) 
    모델 YOLOv8
    성능 지표 mAP 80% 이상
    개발 내용 Object Detection 기반 모델인 YOLOv8를 사용하여 CT 이미지를 대상으로 난소종양 양⋅악성 분류 및 영역을 탐지하는 모델 개발
    응용서비스 - CT에서 난소종양 영역 및 악성 여부를 탐지하여 난소암 조기진단시스템을 지원
    (예시 및 유의사항) - CT에서 난소종양 유형을 판별하고 종양 영역을 탐지하여 난소종양 치료 보조 서비스 및 난소종양 추적 관찰 시스템을 지원

     

    활용 모델 - 난소종양 객체 탐지 모델(초음파)
    학습 모델  난소종양 객체 탐지 모델(초음파) 
    모델 YOLOv8
    성능 지표 mAP 80% 이상
    개발 내용 Object Detection 기반 모델인 YOLOv8를 사용하여 초음파 이미지를 대상으로 난소 양성종양 유형(multi-class) 분류 및 영역을 탐지하는 모델 개발
    응용서비스 - 초음파에서 난소종양 영역 및 악성 여부를 탐지하여 난소암 조기진단시스템을 지원
    (예시 및 유의사항) - 초음파에서 난소종양 유형을 판별하고 종양 영역을 탐지하여 난소종양 치료 보조 서비스 및 난소종양 추적 관찰 시스템을 지원

     

    활용 모델 - 난소암 재발기간 예측 모델
    학습 모델  난소암 재발기간 예측 모델
    모델 RandomForestRegressor
    성능 지표 C-index 65% 이상
    개발 내용 앙상블 기반의 회귀 모델인 rfRegressor 모델을 사용하여 난소암 재발기간 데이터가 존재하는 환자의 전자의료정보데이터를 대상으로 첫 번째 난소암 재발이 나타나기까지의 기간을 예측하는 모델 개발
    응용서비스 - 환자 의료 정보를 활용하여 난소암 치료 예후 예측 서비스 지원
    (예시 및 유의사항) 난소암 재발기간 예측을 통해 난소암 치료를 위한 보조적 도구로 활용

     

     

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    - 데이터 구성

    데이터 구성
    데이터 유형 데이터 설명
    원천데이터 CT
    초음파
    WSI
    암표지자검사
    양성종양 CT
    초음파
    암표지자검사
    라벨링데이터 CT
    초음파
    WSI
    양성종양 CT
    초음파
    메타데이터 EMR
    양성종양 EMR

     

    - 어노테이션 포맷


       - 라벨링 데이터 (CT 및 초음파)

    어노테이션 포맷 - 라벨링 데이터 (CT 및 초음파)
    구분 속성명 타입 필수여부 비고
    1 fileName string Y  
    2 taskName string Y  
    3 type string Y  
    4 idx number N  
    5 resultData array N  
    5-1   resultData{} object Y  
    5-1-1     resultData{}.points array N  
    5-1-1-1       resultData{}.points{} object Y  
    5-1-1-1-1         points{}.x number N  
    5-1-1-1-2         points{}.y number N  
    5-1-1-1-3         points{}.idx number N  
    5-1-2     resultData{}.tool string N  
    5-1-3     resultData{}.idx number N  
    5-1-4     resultData{}.value string Y  

     

       - 라벨링 데이터 (WSI)

    어노테이션 포맷 - 라벨링 데이터 (WSI)
    구분 속성명 타입 필수여부 비고
    1 type string Y  
    2 feature array Y  
    2-1   feature{} object Y  
    2-1-1     feature{}.type string Y  
    2-1-2     feature{}.id string Y  
    2-1-3     feature{}.geometry object Y  
    2-1-3-1       geometry{}.type string Y  
    2-1-3-2       geometry{}.coordinates[] array N  
    2-1-4     feature{}.properties object Y  
    2-1-4-1       properties{}.objectType string Y  
    2-1-4-2       properties{}.classification object Y  
    2-1-4-2-1         classification{}.name string Y  
    2-1-4-2-2         classification{}.color[] array Y  
    2-1-4-2-3         classification{}.fnd string Y  

     

       - 원천데이터 (암표지자)

    어노테이션 포맷 - 원천데이터 (암표지자)
    구분 속성명 타입 필수여부 비고
    1 PT_ID string Y  
    2 POSTOP_PATH string Y 1: 난소양성종양
    2: 난소암
    3 FND string Y  
    4 CA_125 number N  

       - 메타데이터

    어노테이션 포맷 - 메타데이터
    구분 속성명 타입 필수여부 비고
    1 PT_ID string Y  
    2 Birth_YM string Y yyyy-mm
    3 POSTOP_PATH string Y 1: 난소양성종양
    2: 난소암
    4 HTLG_TYPE_CMNT string Y  
    5 FND string Y  
    6 SONO_YM string N yyyy-mm
    7 CT_YM string N yyyy-mm
    8 FRST_DIAG_YM string Y yyyy-mm
    9 FRST_DIAG_NM string Y "C48": Malignant neoplasm of retroperitoneum
    "C56":Malignantneoplasmofovary
    "C56.0":Malignantneoplasmofovary,right
    "C56.1":Malignantneoplasmofovary,left
    "C56.9":Malignantneoplasmofovary,unspecifiedside:Ovariancancer
    "C57": Malignant neoplasm of fallopian tube
    "D27.9":Benignneoplasmofovary,Unspecifiedside
    "ETC":기타
    10 DIAG_ATT_AGE number Y  
    11 PT_height number Y  
    12 PT_weight number Y  
    13 PT_GVD number Y  
    14 PT_Para number Y  
    15 CA_125 number N  
    16 FRST_OPRT_YM string N yyyy-mm
    17 FIGO_STAG string N  
    18 LAST_DT string N yyyy-mm
    19 LAST_FLUP_STUS_CD string N "1": Alive without ovary cancer 
    "2":Alivewithovarycancer
    "3":Death
    "4":Unknown
    "99":양성종양
    20 FLUP_DRTN number N  
    21 DEAD_YN string N "Y":사망, 
    "N": 생존, 
    "U": 모름
    22 RLPS_YN string N "Y":재발,
    "N": 없음, 
    "U": 모름
    23 RLPS_DIAG_YM string N yyyy-mm
    24 RECU_DRTN number N  

     

    - 데이터 포맷

    어노테이션 포맷 - 데이터 포맷
    데이터 유형 데이터 포맷
    원천데이터 CT PNG
    초음파 PNG
    WSI SVS
    암표지자검사 JSON
    양성종양 CT PNG
    초음파 PNG
    암표지자검사 JSON
    라벨링데이터 CT JSON
    초음파 JSON
    WSI JSON
    양성종양 CT JSON
    초음파 JSON
    메타데이터 EMR JSON
    양성종양 EMR JSON

     

    - 실제 예시
       - CT 이미지(원천:PNG – 라벨링:JSON)

    실제 예시 - CT 이미지(원천:PNG – 라벨링:JSON)
    원천데이터 라벨링데이터
    세부데이터_원천_CT_골반 이미지 세부데이터_라벨링_CT_골반 이미지
    세부데이터_원천_CT_복부 이미지 세부데이터_라벨링_CT_복부 이미지

     

       - 초음파 이미지(원천:PNG – 라벨링:JSON)

    실제 예시 - 초음파 이미지(원천:PNG – 라벨링:JSON)
    원천데이터 라벨링데이터
    세부데이터_원천_초음파 이미지 세부데이터_라벨링_초음파 이미지

     

       - WSI 이미지(원천:svs – 라벨링:JSON)

    실제 예시 - WSI 이미지(원천:svs – 라벨링:JSON)
    원천데이터 라벨링데이터
    세부데이터_원천_WSI 이미지 세부데이터_라벨링_WSI 이미지

     

       - 암표지자검사(원천:JSON)

    실제 예시 - 암표지자검사(원천:JSON)
    원천데이터
    세부데이터_원천_암표지자검사 이미지\

     

       - 메타데이터(JSON)

    실제 예시 - 메타데이터(JSON)
    메타데이터
    세부데이터_메타데이터
  • 데이터셋 구축 담당자

    수행기관(주관) : 아주대학교 산학협력단
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    김미란 031-219-5300 [email protected] 총괄 책임자
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    ㈜위세아이텍 품질검사, AI모델링
    닥터웍스 데이터 가공, 데이터 검수
    피트케어, 휴민텍 데이터 정제
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    김미란 031-219-5300 [email protected]
    장혜진 031-219-5250 [email protected]
    AI모델 관련 문의처
    AI모델 관련 문의처
    담당자명 전화번호 이메일
    이지현 02-6246-1400 [email protected]
    한지윤 02-6246-1400 [email protected]
    저작도구 관련 문의처
    저작도구 관련 문의처
    담당자명 전화번호 이메일
    이희상 02-6402-2240 [email protected]
    윤대명 02-6402-2240 [email protected]
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.