※오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2022-07-13 데이터 최초 개방 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2022-07-13 콘텐츠 최초 등록 소개
핵의학 PET/CT 영상에서 폐암, 혈액암 및 정상대조군의 데이터를 수집, 정제, 가공한 AI학습용 데이터셋
구축목적
종양 전신 PET의 다차원적 정량적 평가를 도울 수 있는 인공지능 모델 개발 및 PET 판독과 환자 종양상태 평가에 대한 객관적 지표 제공, 여러 임상 AI 연구에 활용하고자 함.
-
메타데이터 구조표 데이터 영역 헬스케어 데이터 유형 이미지 데이터 형식 dcm(dicom) 데이터 출처 자체 수집 라벨링 유형 폴리곤(이미지) 라벨링 형식 Nifti(*.nii.gz), JSON 데이터 활용 서비스 국내 영상 및 병리분야 AI 진단 보조모델 등 데이터 구축년도/
데이터 구축량2021년/5,900건 -
1) 데이터 구축 규모
질환명 질환명 서울대병원 분당서울대병원 국립암센터 세브란스병원 아주대병원 서울성모병원 소계 폐암 476 108 292 542 292 290 2,000 혈액암 468 860 468 468 468 468 3,200 정상인 58 58 58 58 410 58 700 소계 1,002 1,026 818 1,068 1,170 816 5,900 2) 데이터 분포
- 폐암 원격전이(Metastasis) 여부
폐암 원격전이(Metastasis) 여부 원격전이 여부 비율(%) 없음 85 있음 15 - 혈액암 치료 전/후 비율
혈액암 치료 전/후 비율 치료상태 비율(%) 치료 전 48 치료 후 52 - 정상인 60세 미만/이상 비율
정상인 60세 미만/이상 비율 연령대 비율(%) 60세 미만 73 60세 이상 27 -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드1) 모델학습
* 폐암/혈액암 종양 영역 분할 모델 개발- PET/CT 영상을 입력 값, 어노테이션한 영역을 출력 값으로 한 분할 모델을 학습함
- 학습을 위한 데이터셋(Training, Validation)과 모델 평가를 위한 데이터셋(Test)으로 나누었으며 비율은 Training : Validatation : Test = 8 : 1 : 1로 구성하였음
- 학습에 사용된 AI 모델은 Biomedical 분야에서 이미지 분할(Image Segmentation)에 자주 사용되는 U-Net을 사용함
- Optimizer : Adam
- Loss Function : Dice Cross Entropy Loss
- Batch Size : 2
- Crop Size : 128*128*160
- Epoch : 200- 분할 정확도는 DICE 계수 및 F1 score로 산출했으며 분할 모델을 통해 얻은 mask로 병변 영역 확인 가능
출처(U-Net) : Ronneberger, O., Fischer, P., & Brox, T. (2015). U-Net: Convolutional Networks for Biomedical Image Segmentation. In Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics) (Vol. 9351, Issue Cvd, pp. 234-241). https://doi.org/10.1007/978-3-319-24574-4_282) 서비스 활용 시나리오
- 학습된 인공지능(AI) 알고리즘을 통해 폐암/혈액암 PET/CT 영상을 분석하여 ROI 영역과 ROI 정량 값 예측 프로그램을 개발
- 전문의는 폐암 또는 혈액암 PET/CT 영상을 프로그램에 업로드
- 업로드된 영상은 AI 모델 서버로 영상을 전송하고 학습된 모델에서 ROI 영역 및 SUV 값을 예측하여 프로그램으로 회신
3) 기타 정보
포괄성- 폐암의 경우 원격전이(Metastasis) 없는 폐암 85%, 원격전이 있는 폐암 15%로 구성하여 다양한 질병 정도에 따른 폐암 데이터를 확보함
- 혈액암은 기저평가와 치료효과평가를 약 50% 비율로 구성하여 현재 질병 상태(종양의 전체 볼륨)의 다양성을 확보함
- 정상인은 신체적 기능이 정상이라 할 수 있는 건진 데이터를 다수 확보 및 질병력 없는 노년성 환자의 데이터 확보를 위해 60세 미만 73%, 60세 이상 27% 데이터를 수집함
독립성
- 서울대학교병원 외 컨소 구성 5개 병원에서 각 기관별 보안 관련 절차를 준수했으며 IRB 승인을 받은 데이터를 비식별화한 후 연구를 진행함
- 환자의 의료정보가 포함된 의료 데이터(원시데이터)는 승인된 연구자 외에는 접근이 불가능함
- 보건복지부의 보건의료 데이터 활용 가이드라인에 따라, 데이터 활용 및 제 3자의 배포를 위해서는 해당 의료 기관의 데이터 심의기관의 허가를 받아야 함
유의사항
- 원천 데이터는 환자 비식별화 작업을 거쳤으나 그 자체로도 민감한 의료정보이므로 데이터 수정과 배포에 유의해야 함
-
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 암종별 병변 분할 모델 (폐암 병변 분할 모델) Segmentation U-Net F1-Score 0.75 점 0.7804 점 2 암종별 병변 분할 모델 (혈액암 병변 분할 모델) Segmentation U-Net F1-Score 0.75 점 0.7502 점
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드1) 데이터 포맷
1) 데이터 포맷 영상 모달리티 데이터포맷 어노테이션 항목 3D PET 이미지
DICOM 정상인 장기(organ), 폐암/혈액암 종양 3D segmentation 3D CT 이미지
DICOM - 라벨링 이미지(annotation) 정보와 환자 임상정보를 결합하여 json 파일을 생성함
2) 데이터 구성
3) 어노테이션 포맷
3) 어노테이션 포맷 구분 항목명 타입 필수여부 설명 범위 비고 1 기본정보 Object 기본정보 1-1 AGE NUMBER M 나이 1-2 SEX String M 성별 “F”or“M” 1-3 SMOKING String O 흡연력 1-4 DM String O 과거력:당뇨 1-;5 HTN String O 과거력:고혈압 “Y” or “N” 1-6 PTID String M 익명화ID 1-7 IMAGEDATE String C 영상획득날짜 혈액암 2 임상정보 Object 임상정보 2-1 Purpose String C 촬영목적 "BASELINE", "INTERIM", "EOT", null 혈액암 2-2 Diagnosis String O 진단명 폐암, 림프종, 정상 2-3 CStaging String O 임상병기 TNM 병기 2-4 PStaging String O 병리병기 TNM 병기 2-5 BX_LOCATION String O 바이오마커 "Squamous cell carcinoma", "Adenocar cinoma", "Small cell lung cancer", "Adenosquamous cell carcinoma", "Large cell carcinoma", "Others", NULL 2-6 SUBTYPE_ADC String O 바이오마커 "Papillary", "Micropapillary", "Acinar", "Lepidic", "Solid", "Others", NULL 폐암 관련 바이오마커 2-7 EGFR String O 바이오마커 Negative, "Positive", NULL 폐암 관련 바이오마커 2-8 EGFR_LOC String O 바이오마커 폐암 관련 바이오마커 2-9 ALK String O 바이오마커 "PSTAGE", "P_T", "Negative", "Positive" 폐암/혈액암 관련 바이오마커 2-10 OTHER_MUTATION String O 바이오마커 "BRAF", "HER-2", "ROS1", "KRAS", "RET", "Others" 폐 암 관 련 바이오마커 2-11 PD-L1_IHC_2 String O 바이오마커 "22C3", "28-8", "SP263", "SP142" 폐 암 관 련 바이오마커 2-12 PD-L1_IHC_3 String O 바이오마커 22C3, "28-8", "SP263", "SP142" 폐 암 관 련 바이오마커 2-13 B_SYMPTOMS String O 바이오마커 "Fever", "Night sweats", "Weight loss", "NA" 2-14 ECOG_PS String O 바이오마커 "0", "1", "2", "3", "4" 혈액암관련 바이오마커 2-15 PREV_CTX String O 바이오마커 "ECOG_P S", "G_CSF_D ATE" 혈액암관련 바이오마커 2-16 BIOPSY_SITE String O 바이오마커 "LN region", "Spleen", "Bone marrow", "Other extranodal organ" 2-17 PATHOLOGY_SUBTYPE String O 바이오마커 "DLBCL", "FL", "HL", "MM", "etc" 혈액암 관련 병리소견 2-18 CD45 String O 바이오마커 "Positive", "Negative" 혈액암관련 바이오마커 2-19 CD3 String O 바이오마커 "Positive", "Negative", "reactive T cells" 혈액암관련 바이오마커 2-20 HHV8 String O 바이오마커 "Positive", "Negative" 혈액암관련 바이오마커 2-21 SOX11 String O 바이오마커 "Positive", "Negative" 혈액암관련 바이오마커 2-22 MYC String O 바이오마커 "Positive", "Negative" 혈액암관련 바이오마커 2-23 BLC6 String O 바이오마커 "Positive", "Negative" 혈액암관련 바이오마커 3 라벨영역정보 Object 라벨영역정보 3-1 ROI.type String C ROI의 종류 정상군(NULL) "Primary", "Lymph Node 1", "Lymph Node 2", "Lymph Node 3", "Metastasis", “-” 폐암("Primary", "Lymph Node 1", "Lymph Node 2", "Lymph Node 3", "Metastasis", “-”) "Above Diaphragm", "Below Diaphragm", "Tonsil", "Spleen", "Bone marrow", "Liver", "ETC", “-”, NULL 혈액암("Above Diaphragm", "Below Diaphragm", "Tonsil", "Spleen", "Bone marrow", "Liver", "ETC", “-”, NULL) 3-2 ROI.organ String C ROI 내의 장기 "Aorta", "Liver", "Lumbar Bone Marrow", "Mediastinal Blood Pool“, NULL 정상군 폐암(NULL) 혈액암(NULL) 3-3 ROI.name String M ROI 이름 "aor, "liv", "lbm", "mbp“ 정 상 군 "P", "N1", "N2", "N3", "M“ 폐암 "0_AD", "0_BD", "0_TN", "0_SP", "0_BM", "0_LV", "0_ETC", "1_AD", "1_BD", "1_TN", "1_SP", "1_BM", "1_LV", "1_ETC", "2_AD", "2_BD", "2_TN", "2_SP", "2_BM", "2_LV", "2_ETC", "3_AD", "3_BD", "3_TN", "3_SP", "3_BM", "3_LV", "3_ETC", "4_AD", "4_BD", "4_TN", "4_SP", "4_BM", "4_LV", "4_ETC", "-" 혈액암 3-4 ROI.method String M ROI 생성 방법 "40%", "n", "-" Semi-auto 방식으로 생성시 방법. 정상군("n"),폐암("40%","n",“-”),혈액암("n",“-”) 3-5 ROI.id String M “-” * C: Conditional – 환자군 및 ROI.type에 따라 필수여부가 정해짐4) 실제 예시
4) 실제 예시 폐암 혈액암 정상인 -
데이터셋 구축 담당자
수행기관(주관) : 서울대학교병원
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 최홍윤 02-2072-3347 [email protected] 데이터 수집, 정제, 가공, 검수, 알고리즘 개발 수행기관(참여)
수행기관(참여) 기관명 담당업무 국립암센터 데이터 수집, 정제, 가공, 검수 분당서울대병원 데이터 수집, 정제, 가공, 검수 아주대 산학협력단 (아주대병원) 데이터 수집, 정제 및 가공 교육, 가공, 검수 연세대 산학협력단 (세브란스병원) 데이터 수집, 정제, 가공, 검수 가톨릭대 산학협력단 (서울성모병원) 데이터 수집, 정제 및 가공 교육, 가공, 검수 서울아산병원 데이터 검수 및 QC ㈜에이아이더뉴트리진 데이터 정제, 가공, 검수 및 QC, DB 구축, 알고리즘 개발, 서비스 개발, 홍보
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.