※온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
전립선암 진단 의료 영상
- 분야헬스케어
- 구분 안심존(온라인)
- 유형 비디오 , 이미지
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2021-06-30 데이터 최초 개방 소개
전립선암 진단 및 치료 과정에서 필요한 영상·이미지 데이터
구축목적
Medical Image dataset for diagnosis of prostate cancer
-
메타데이터 구조표 데이터 영역 헬스케어 데이터 유형 비디오 , 이미지 데이터 형식 데이터 출처 라벨링 유형 라벨링 형식 데이터 활용 서비스 데이터 구축년도/
데이터 구축량2020년/42만 -
구축 내용 및 제공 데이터량
- 전립선암 데이터1 – 수술전 MRI 영상 75,000 장 이상 (전립선암 영상 진단, 판독 보조, 예후 예측용)
- 전립선암 데이터2 – Bone scan 영상 24,000 장 이상 (뼈전이 판독용, 약물 반응 평가 및 예후 예측용)
- 전립선암 데이터3 – 전립선생검 디지털 병리 12,000 장 이상 (전립선암 병리 진단용, 병리 판독 보조용)
- 전립선암 데이터4 – 로봇보조근치적전립선적출술 동영상 이미지 30,000장 이상 (수술도구 인식 및 tracking 학습용)
-
AI 모델 상세 설명서 다운로드
AI 모델 다운로드 -
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 정상 전립선 영역 검출 Object Detection Resnet34 Accuracy 90 % 99.7 % 2 뼈 전이 위치 검출 Object Detection Resnet34 Accuracy 90 % 99.8 % 3 생검 진단 정확도 (악성/양성) Classification EfficientNet Accuracy 90 % 90.9 % 4 수술도구 액션인식 Classification EfficientNet Accuracy 80 % 86.7 % 5 수술도구 세그멘테이션 정확도 Segmentation Unet mIoU 75 % 86.8 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
구축활용가이드 다운로드데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2021.06.30 데이터 최초 개방 구축 목적
- Medical Image dataset for diagnosis of prostate cancer
활용 분야
- Healthcare 분야에서 정확하고 빠르게 암 병변을 검출하고 양/악성 여부를 판단해줄 수 있는 AI 요약기술 개발
소개
- 전립선암 전향적 코흐트를 기반으로 한 임상정보, 의료영상 (MRI, Bone scan image, Digital pathology image), 수술 동영상 등 다차원 (multidimensional)의 다양한 인공지능 학습용 AI데이터셋을 구축하고, 이를 활용한 AI 모델과 서비스를 제시. 데이터의 외적검증 (external validation)을 위해 다기관 데이터를 같이 축적하여 데이터셋으로 구축.
<그림1. 전향적 코호트 데이터 수집 및 다기관 데이터 수집 개요도>
구축 내용 및 제공 데이터량
- 전립선암 데이터1 – 수술전 MRI 영상 75,000 장 이상 (전립선암 영상 진단, 판독 보조, 예후 예측용)
- 전립선암 데이터2 – Bone scan 영상 24,000 장 이상 (뼈전이 판독용, 약물 반응 평가 및 예후 예측용)
- 전립선암 데이터3 – 전립선생검 디지털 병리 12,000 장 이상 (전립선암 병리 진단용, 병리 판독 보조용)
- 전립선암 데이터4 – 로봇보조근치적전립선적출술 동영상 이미지 30,000장 이상 (수술도구 인식 및 tracking 학습용)
대표도면
<그림2. 전립선암 환자 MRI 영상과 전립선 영역 레이블링 결과 (우측 빠간영역) 예시>
필요성
- MRI 데이터 소개
- - 현재까지의 표준적 진단은 전립선특이항원 (Prostate-specific antigen: PSA) 수치가 높거나 (기준치 2.5~4 ng/ml), 직장수지검사에서 암 의심 부위가 만져지거나, 경직장 초음파 (transrectal ultrasonography: TRUS)에서 이상 병변이 관찰되면 TRUS를 보면서 정해진 위치별로 10-12 코어 체계적 조직검사를 시행하고 병리학적으로 확진하게 됨
- - 그러나, 전립선암은 초음파로 명확하게 구분되는 경우가 드물기 때문에 표준적인 전립선조직 검사로 전립선암이 진단되는 경우 진단율을 30~35% (PSA 4-10 ng/ml) 로 보고되어, 상대적으로 낮은 진단율을 보임
- - 이는 체계적 조직검사로 표현은 하지만 사실상 무작위 조직검사와 마찬가지이며 모든 고형암 중 이렇게 무작위 조직검사를 시행하는 것은 전립선암이 유일함. 전립선 초음파와 비교하면 T2-weighted image, Diffusion-weighted image (DWI), Dynamic contrast-enhanced image (DCE) 등 여러 시퀀스를 이용한 multiparametric MRI의 경우 전립선암이 비교적 잘 관찰되며, 표준적 판독 및 보고 시스템인 PI-RADS
- version 2가 잘 마련되어 있음
- - 많은 연구자들이 해당 AI 연구를 진행하고 있지만, 아직까지 뚜렷하게 우월한 성능을 보이는 AI 알고리즘이 나오지 않고 있으며 이는 임상정보의 정확도가 높지 않고, 학습용 데이터의 숫자가 제한적이기 때문으로 분석하고 있음. 따라서, 전립선 MRI를 바탕으로 1) 숙련된 영상 전문가가 판독하는 것을 기준으로 하는 PIRADS version 2 판독 보조, 2) 수술 후 병리 진단 결과를 ground truth로 하는 MRI 판독 결과 제시 등의 진단 보조 AI가 절실히 요구됨
- Bone scan 데이터 소개
- - 전립선암은 주로 뼈로 전이가 되는 대표적인 암종임. 뼈 전이의 개수와 범위 등이 예후를 반영하고, 치료의 반응 평가에 중요한 요소임. 그러나, 주로 다발성으로 전이가 되어 뼈 전이의 정도를 매번 눈으로 비교하여 치료 반응을 판단하기 쉽지가 않음. 최근 골전이 병변의 면적과 분포를 이용한 bone scan index (BSI)가 예후 예측 등에 이용되나, 자동화된 판독 알고리즘이 필요함
- 디지털 병리 데이터 소개
- - 병리검사 결과는 현대 의학에서 최종진단에 해당하며 가장 시간이 많이 소모되는 작업임. 전립선암 병리 결과를 판독하기 위해서는 일차적으로 육안적인 이상소견을 보이는 곳을 확인한 후, 몇mm 단위로 자른 슬라이드를 병리과 의사가 하나씩 현미경으로 보면서 이상 소견을 찾아가야 함
- - 이 작업은 많은 시간이 필요하기 때문에, 보통 수술 후 병리 최종 판독을 내리기까지 5-10일 이상의 시간이 소모됨. 하지만 세계적으로 병리과 의사 수는 항상 부족하며, 우리나라에서도 만성적인 병리 의사의 부족 문제가 있어 타개책이 필요함
- 수술영상 데이터 소개
- - 로봇 근치적전립선적출술을 시행 받은 환자의 신경혈관다발 박리 수술 동영상을 분석하여 예후 예측 및 진단 시 활용.
- - 수술영상 데이터는 수술영상 자체에서 특정 개인을 알아볼 수 없기 때문에 의료법 위반은 아니라고 판단됨. 그러나 그 자체로 특정 개인을 식별할 수 있는 정보에 해당하지 않지만, 다른 정보와 쉽게 결합하여 특정 개인을 식별할 가능성이 있기 때문에 개인정보보호법상 개인정보에 해당할 가능성이 높음
데이터 구조
- 데이터 구성
- - 제공하고자 하는 데이터는 원천데이터 (.dcm), 그리고 레이블링 데이터와 임상정보를 결합시킨 어노테이션 데이터 (.json)의 두가지 형태로 제공 (수술영상 데이터의 경우 임상정보는 별도의 csv파일 형태로 제공)
- 어노테이션 포맷
어노테이션 포맷 표 No 항목 길이 타입 필수여부 비고 한글명 영문명 1 공통임상정보 Clinical Information (Global) Object Y 1-1 나이 Clinical Information (Global).age 1000 String Y 1-2 키 Clinical Information (Global).height 1000 String N 1-3 몸무게 Clinical Information (Global).weight 1000 String N 1-4 성별 Clinical Information (Global).gender 1000 String Y 1-5 코어 종양의 iPSA Clinical Information (Global).iPSA 1000 String Y Rt/Lt 1-6 MRI 시행일 Clinical Information (Global).MRI date 1000 String Y 1-7 Clinical Information (Global).PIRADS 1000 String Y 1-8 정낭 침범 Clinical Information (Global).SVI 1000 String Y 1-9 전립선피막외 침범 Clinical Information (Global).ECE 1000 String Y 1-10 Clinical Information (Global).ISUP grade 1000 String Y 1-11 수술 시행일 Clinical Information (Global).operation date 1000 String Y 1-12 Clinical Information (Global).pT stage 1000 String Y 2 영역별 정보 2-1 좌측 신장 Clinical Information (Local).prostate Object Y 2-1-1 부피 Clinical Information (Local).prostate.
Volume(mm³)1000 String N 3 영역좌표 roi_list Object 3-1 전립선 roi_list.prostate[] - List Y 좌표 (x,y,z) <표2. 어노테이션 포맷 예시 (MRI 여상에서의 전립선 영역 레이블링 정보와 임상정보가 결합된 JSON형태의 속성값 예시)>
-
데이터셋 구축 담당자
수행기관(주관) : 서울대학교병원
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김영곤 02-2072-4487 [email protected] · 원문 데이터 확보 및 제공 · 데이터 품질 검증 총괄 · 데이터 품질 품질 1,2차 검수 · AI 모델 개발 수행기관(참여)
수행기관(참여) 기관명 담당업무 부산대병원 · 원문 데이터 확보 및 제공
· 데이터 품질 1,2차 검수서울특별시 보라매병원 · 원문 데이터 확보 및 제공
· 데이터 품질 검증서르 · 레이블링 툴 제공
· 데이터 1차 가공SQI 소프트 · 웹기반 응용 서비스 개발 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 정창욱(서울대학교병원) 02-2072-3899 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.