※온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
폐암 예후 예측 융합 데이터
- 분야헬스케어
- 구분 안심존(온라인)
- 유형 이미지
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2023-12-13 데이터 최종 개방 1.0 2023-05-26 데이터 개방(Beta Version) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-03-19 산출물 전체 공개 소개
폐암의 예후 예측 인공 지능 모델 개발에 활용할수 있는 1만명의 폐암 환자 융합 데이터 (CT, 디지털 병리 영상,임상 지표/조직병리/치료 데이터)
구축목적
폐암의 예후 예측
-
메타데이터 구조표 데이터 영역 헬스케어 데이터 유형 이미지 데이터 형식 DICOM (CT) +SVS 또는 TIF (병리이미지) + CSV (정형 데이터) 데이터 출처 의료 데이터 라벨링 유형 세그멘테이션 라벨링 형식 JSON 데이터 활용 서비스 예후 예측 인공 지능 데이터 구축년도/
데이터 구축량2022년/10,950,207건 -
1. 원천 데이터 규모
1. 원천 데이터 규모 과제번호 과제명 주요 내용 환자 수 데이터 종류 데이터 수 데이터 용량 데이터 형식 1-025-069 폐암 예후 예측 융합 데이터 조직검사 또는 수술로 폐암으로 진단받은 환자의 데이터셋 10,000명 CT 영상 10,940,086장 9,998MB dcm 병리조직 이미지 10,121장 svs EMR 임상 정형데이터 10,119건 1,468KB csv 2. 라벨링 데이터 규모
2. 라벨링 데이터 규모 과제번호 과제명 주요 내용 환자 수 데이터 종류 데이터 수 데이터 용량 데이터 형식 1-025-069 폐암 예후 예측 융합 데이터 폐암 조직검사 라벨링 데이터셋 10,000명 병리조직 이미지 10,121 건 259 MB png Json 파일 10,121 건 json 3. 데이터 분포
3. 데이터 분포 특성 항목 분포 구분 구성비 다양성(통계) 남녀 성비 분포 남성 68% 여성 32% 연령대 분포 40세 미만 1% 40세 이상 ~ 50세 미만 5% 50세 이상 ~ 60세 미만 17% 60세 이상 ~ 70세 미만 34% 70세 이상 ~ 80세 미만 33% 80세 이상 9% 흡연 여부 분포 흡연 48% 비흡연 52% 다양성(요건) 폐암 클래스 분포 비소세포암 91% 소세포암 9% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드1. 학습 모델 개발
1) 폐조직 이미지 분할
- (개발 목표) 폐조직 병리 슬라이드 이미지를 기반으로 암 조직과 정상 조직을 분할
- (개발 내용) 구축되는 폐조직 병리 슬라이드 이미지의 학습데이터를 활용 EfficientNet을 기반으로 High-Level Feature를 추출하고 이를 U-Net 구조에 입력으로 하여 Pixel 별 암/정상 분류를 진행하여 최종적으로 Segmentation Mask 도출2) 폐암 환자 생존 분석
- (개발 목표) 폐암 환자에 대한 임상 및 병리 정보를 기반으로 환자의 생존 확률을 분석
- (개발 내용) 구축되는 정형 데이터 (임상 및 병리 정보)를 활용하여 DeepSurv를 기반으로 예측을 진행하며 정형 데이터의 사망일 및 마지막 병원 방문일로부터 생존 기간을 추출하여 학습
2. 데이터 활용
데이터 명 폐암 예후 예측 융합 데이터 학습 모델 ① 폐조직 이미지 분할 ② 폐암 환자 생존 분석 모델 ① 폐조직 이미지 분할 : EfficientNet + U-Net ② 폐암 환자 생존 분석 : DeepSurv 성능 지표 ① 폐조직 이미지 분할 : DSC 0.7 이상 ② 폐암 환자 생존 분석 : C-index 0.65 이상 개발 내용 ① 폐조직 이미지 분할 구축되는 폐조직 병리 슬라이드 이미지를 활용하여 암/정상 조직에 대한 Segmentation이 가능한 U-Net 기반의 모델을 개발 ② 폐암 환자 생존 분석 구축되는 임상 및 병리 정보를 활용하여 폐암 환자에 대한 예후예측을 위해 생존 확률을 추론할 수 있는 DeepSurv 모델 개발 응용서비스
(예시 및 유의사항)폐조직 이미지 분할 모델을 활용하여 폐암 환자의 조직을 분석하여 정밀 진단을 가능하게 하고, 생존 분석 모델을 기반으로 환자의 예후를 예측하여 맞춤형 진단 수행 -
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 폐암 생존 분석 성능 Survival Analysis DeepSurv C-index 0.65 단위없음 0.697 단위없음 2 폐조직 분할 성능 Segmentation EfficientNet + Unet DSC 0.7 단위없음 0.915999999999999 단위없음
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드1) 폐암 공통 임상 지표 데이터
1) 폐암 공통 임상 지표 데이터 No 속성명 항목 설명 Data Type 규격 및 허용범위 1 patientid 대상자ID VarChar(7) 2 sex 성별 Char(1) M:남성, F:여성 3 birth date 생년월 Date YYYYMM 4 height 신장 Integer 120~220 (Cm) 5 weight 체중 Integer 30~220 (Kg) 6 Diagnosis 진단명 Varchar(200) 7 bp 고혈압여부 Char(1) Y/N 8 bs 당뇨여부 Char(1) Y/N 9 sm 흡연여부 Char(1) Y/N 10 familyhistory 가족력 Char(1) Y/N 11 locationcancer 원발암의위치 Char(1) 1. 우상엽 /2. 우중엽 /3. 우하엽 /4. 좌상엽 /5. 좌하엽 /9. 기타 12 cancerimaging 암영상 병기 Varchar(10) 13 cancerimagingT 암영상 T병기 Varchar(10) 14 cancerimagingN 암영상 N병기 Varchar(10) 15 cancerimagingM 암영상 M병기 Varchar(10) 16 initialdate 치료 시작일 Date yyyymmdd : 치료의 종류 (수술, 항암, 방사선) 중에서 제일 먼저 시작한 치료를 선택 17 treatedate 치료 종료일 Date yyyymmdd 18 relapse 재발 여부 Char(1) 1: 재발하지 않음, 2: 국소재발, 3: 원격재발 19 relapsedate 재발 진단일 Date yyyymmdd : 위의(relapse) 2: 국소재발, 3: 원격재발 일 경우만 재발 진단일 필수 입력 20 dead 사망 여부 Char(1) 0: 없다, 1: 있다 (모르는 경우는 0으로 표기) 21 deathdate 사망일 Date yyyymmdd : 위의(dead) 사망여부 = 1 일 경우에만 사망일 필수 입력 22 deathsign 사망 사인 Char(1) 1:암으로 인한 사망 / 2. 암이외의 원인으로 사망 23 lastdate 마지막 병원 방문일 Date yyyymmdd 2) 폐암 임상 데이터
2) 폐암 임상 데이터 구분 No 속성명 항목 설명 Data Type 규격 및 허용범위 조직병리
데이터1 patientid 대상자ID VarChar(7) 2 classification cancer 폐암의 조직학적분류 Char(1) 1: 선암, 2: 편평상피암, 3: 대세포암, 4: 소세포암, 5: 기타 3 surgical cancer 폐암의 수술적 병기 Varchar(10) 4 surgical cancerT 암의 수술적 T병기 Varchar(10) 5 surgical cancerN 암의 수술적 N병기 Varchar(10) 6 surgical cancerM 암의 수술적 M병기 Varchar(10) 7 boundarysurgical 수술부위의 경계 Char(1) 1. 완전절제 /2. 비완전절제 8 Involvementrenal 신결절 침범 유무 Varchar(1) 9 lymphrenal 림프절 침윤 범위 Varchar(1) 치료
데이터10 surgicalmethod 수술방법 Char(1) 1. Lobectomy /2. Pneumonectomy /3. Wedgeresection /4. Segmentectomy /5. 기타 11 antidrug 항암치료 약제 Varchar(100) 12 totaldose 방사선 치료 총선량 Integer 13 radiationcnt 방사선 치료 횟수 Integer 14 radiationperdose 방사선 회당 치료 선량 Integer 15 treatmethod 치료 방법 Char(1) 1. 수술만 진행 /2. 수술후 항암 /3. 수술후 항암 방사선 /4. 수술후 방사선 /5. 항암 방사선 (수술 x) /6. 방사선 (수술x) /7. 항암 /8. 기타 16 treatech 치료 기법 Char(1) 1. conformal / 2. IMRT / 3. SBRT / 4.기타 유전체
검사정보17 egfr EGFR Char(1) 18 ros1 ROS-1 Char(1) 19 alk ALK Char(1) 3) JSON 형식
{
"annotations": [
{
"info": {
"name": "filename.svs",
"stain_type": "H&E",
"contributer": "AJMC",
"description": "소세포암",
"ROI": {
"xmin": 37006,
"ymin": 9791,
"xmax": 39526,
"ymax": 11778
}
},
"annotations": [
{
"id": 1,
"class": "Tumor",
"type": "segmentation",
"coordinates": [
[
39001,
9791
],
[
38995,
9794
],
[
38989,
9797
],
[
38980,
9797
], ...
[
39076,
9797
],
[
39073,
9794
],
[
39037,
9794
],
[
39034,
9791
],
[
39001,
9791
]
]
}
]
} -
데이터셋 구축 담당자
수행기관(주관) : 아주대학교 산학협력단
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 허재성 031-219-5337 [email protected] 사업 총괄 수행기관(참여)
수행기관(참여) 기관명 담당업무 부산대학교산학협력단, 순천향대학교산학협력단, 이화여자대학교산학협력단, 인하대학교산학협력단, 충남대학교산학협력단, 한림대학교산학협력단, 데이터 수집 ㈜피트케어, ㈜코스모티어 데이터 정제 ㈜닥터웍스 데이터 가공 ㈜마인즈앤컴퍼니 AI 모델 개발, 데이터 활용 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 허재성 031-219-5337 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.