※온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
폐암 진단 의료 영상
- 분야헬스케어
- 구분 안심존(온라인)
- 유형 비디오 , 이미지
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2021-06-30 데이터 최초 개방 소개
폐암 진단 및 치료 과정에서 필요한 영상·이미지 데이터
구축목적
의료 진단에서 활용될 수 있는 의료 인공지능 개발이 세계적으로 소개되고 있지만 민감한 의료 정보를 담고 있기 때문에 접근할 수 있는 오픈소스 의료 데이터의 종류가 제한적임. 따라서 폐암 진단에 활용할 수 있는 3종류의 폐암 의료 영상 데이터셋을 구축하여 영상 진단 판독을 보조할 수 있는 의료 인공지능 개발을 도모하고 의료 산업의 발전을 기대함.
-
메타데이터 구조표 데이터 영역 헬스케어 데이터 유형 비디오 , 이미지 데이터 형식 데이터 출처 라벨링 유형 라벨링 형식 데이터 활용 서비스 데이터 구축년도/
데이터 구축량2020년/224.1만 -
구축 내용 및 제공 데이터량
- 폐암 데이터셋은 병원으로부터 원본 의료 이미지 데이터 획득 후 익명화 및 비식별화 과정을 거친 뒤 전문의의 라벨링으로 구축되었다.
구축 내용 및 제공 데이터량 구조테이블 유형 구축 건수(건) 분류 환자수 영상 수 X-ray 양성 500명 500장 악성 3,000명 3,000장 정상 10,000명 10,000장 흉부 CT 양성 1,000명 160,000장 악성 2,500명 375,000장 정상 1,000명 180,000장 PET/CT 양성 500명 147,000장 악성 3,000명 891,000장 정상 1,000명 457,000장
- 폐암 데이터셋은 병원으로부터 원본 의료 이미지 데이터 획득 후 익명화 및 비식별화 과정을 거친 뒤 전문의의 라벨링으로 구축되었다.
-
-
AI 모델 상세 설명서 다운로드
AI 모델 다운로드 -
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 병변 종류(양성/악성) 구분 (x-ray) Image Classification Faster R-CNN AUC-ROC 0.8 단위없음 0.84 단위없음 2 병변 종류(양성/악성) 구분 (CT) Image Classification U-Net, Faster R-CNN AUC-ROC 0.8 단위없음 0.8 단위없음 3 병변 종류(양성/악성) 구분 (PET-CT) Image Classification Faster R-CNN AUC-ROC 0.8 단위없음 0.92 단위없음 4 병변 위치 검출 (CT) Object Detection U-Net, Faster R-CNN DSC 0.6 단위없음 0.65 단위없음 5 병변 위치 검출 (x-ray) Object Detection Faster R-CNN mAP 50 % 53 % 6 병변 위치 검출 (PET-CT) Object Detection Faster R-CNN mAP 50 % 57 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2021.06.30 데이터 최초 개방 구축 목적
- 의료 진단에서 활용될 수 있는 의료 인공지능 개발이 세계적으로 소개되고 있지만 민감한 의료 정보를 담고 있기 때문에 접근할 수 있는 오픈소스 의료 데이터의 종류가 제한적임.
- 따라서 폐암 진단에 활용할 수 있는 3종류의 폐암 의료 영상 데이터셋을 구축하여 영상 진단 판독을 보조할 수 있는 의료 인공지능 개발을 도모하고 의료 산업의 발전을 기대함.
활용 분야
- 의료 영상 판독 보조 소프트웨어 산업
소개
- 폐암 데이터셋은 폐암 진단에 가장 많이 활용되는 3가지 의료 이미지(흉부 X-ray, 흉부 CT, PET CT)로 구성되어 있음
- 폐암의 종양 감별을 위해 각 흉부 이미지 모달리티마다 양성, 악성, 정상 케이스를 포함한 데이터셋을 구축하였음
구축 내용 및 제공 데이터량
- 폐암 데이터셋은 병원으로부터 원본 의료 이미지 데이터 획득 후 익명화 및 비식별화 과정을 거친 뒤 전문의의 라벨링으로 구축되었다.
구축 내용 및 제공 데이터량 구조테이블 유형 구축 건수(건) 분류 환자수 영상 수 X-ray 양성 500명 500장 악성 3,000명 3,000장 정상 10,000명 10,000장 흉부 CT 양성 1,000명 160,000장 악성 2,500명 375,000장 정상 1,000명 180,000장 PET/CT 양성 500명 147,000장 악성 3,000명 891,000장 정상 1,000명 457,000장
대표도면
대표도면 표 모달리티 폐암 영상데이터 데이터 포맷 어노테이션 항목 메타데이터 JSON 형식 X-ray DICOM 단일 결절 부위
Bounding Box
체크· DICOM 파일
· (비식별화 후)
· age, sex, machine name
· Json 파일 - 환자:json = 1:1
· Excel 파일
-양성/악성정보 비식별 환자ID, 나이, 성별, 병리결과, 흡연력
(악성의 경우만 병리결과 수집)CT DICOM 단일 결절 부위
Polygon
체크· DICOM 파일 (비식별화 후)
· age, sex, matrix size, machine name, slice thickness, series
description
· Json 파일 - 환자:json = 1:n
· Excel 파일 - 양성/악성정보 비식별 환자ID, 나이, 성별, 병리결과,
흡연력
(악성의 경우만 병리결과 수집)PET CT DICOM 폐 결절 및
임파선 부위
Bounding box 체크· DICOM 파일 (비식별화 후)
age, sex, machine name
· Json 파일 - 환자:json = 1:1
· Excel 파일
- 양성/악성정보 비식별 환자ID, 나이, 성별, 병리결과, 흡연력
(악성의 경우만 병리결과 수집)필요성
- 폐암 데이터셋은 의료진이 폐암 환자를 진단할 때 사용하는 대표적인 영상 3가지(흉부 X-ray, CT,PET CT) 카테고리로 구성
- 현재 인공지능 기술은 오픈소스 활용 등으로 다양하게 발전하고 있으나, 의료 데이터는 의료 정보의특수성으로 확보가 어려움
- 따라서, 폐암 진단을 위한3가지 종류의 데이터셋을통해 의료 인공지능 기술 발전을 도모하고 인공지능 진단 모델을
- 활용하여 의료진의 종합적이고 효율적인 진단을 통한 의료 서비스의 질적 향상을 기대함
데이터 구조
- 데이터 구성
데이터 구성 테이블 모달리티 supercategory supercategory_name grp_id grp_name id name Chest CT CCT Chest CT 1 악성 1 악성 2 전이성_병변 2 양성 3 양성 4 섬유화반흔 5 폐경화 6 기흉 7 무기폐 8 흉막_삼출 9 폐섬유화 X-ray XRY X-ray 1 악성 1 악성 2 전이성_병변 2 양성 3 양성 4 섬유화반흔 5 폐경화 6 기흉 7 무기폐 8 흉막_삼출 9 폐섬유화 PET-CT PCT PET-CT 1 악성 1 악성_림프절 2 폐_병변_악성 2 양성 3 양성_림프절 4 폐_병변_양성 - X-ray
x-ray테이블 No 영문명 한글명 필수여부 타입 길이 비고 1 supercategory 슈퍼카테고리 Y string 3 XRY 2 grp_id 그룹 아이디 Y number 1~2 3 grp_name 그룹 이름 Y string 2 1 : 악성
2 : 양성4 id 아이디 Y number 1~9 5 name 이름 Y string 10 1 : 악성
2 : 전이성_병변
3 : 양성
4 : 섬유화반흔
5 : 폐경화
6 : 기흉
7 : 무기폐
8 : 흉막_삼출
9 : 폐섬유화 - Chest CT
Chest CT구성표 No 영문명 한글명 필수여부 타입 길이 비고 1 supercategory 슈퍼카테고리 Y string 3 PCT 2 grp_id 그룹 아이디 Y number 1~2 3 grp_name 그룹 이름 Y string 2 1 : 악성
2 : 양성4 id 아이디 Y number 1~4 5 name 이름 Y string 10 1 : 악성_림프절
2 : 폐_병변_악성
3 : 양성_림프절
4 : 폐_병변_양성 - JSON image 포맷
JSON image 포맷 표 No 영문명 한글명 필수여부 타입 길이 비고 1 id 이미지 아이디 Y number Default=1 2 file_name 이미지 파일명 Y string 50 영상이미지 파일명 3 patient_id 비식별환자아이디 Y string 7 비식별 환자 아이디 4 series_id 시리즈 번호 Y string 7 환자의 영상촬영 순번 5 image_id 이미지 번호 Y string 7 시리즈의 이미지 순번 6 width 가로길이 Y number 1~9999999 7 height 세로길이 Y number 1~9999999 8 date_captured 생성날짜 Y string 20 yyyy-mm-dd hh-mi-ss 9 modality 모달리티 Y string 3 CCT: Chest CT
PCT: PET CT
XRY: X-ray10 manufacturer 검사장비 Y string 300 영상촬영 장비 제조사 11 manufacturerModelName 검사장비 모델 Y string 300 영상촬영 장비 모델명 - JSON 어노테이션 포맷
JSON 어노테이션 포맷 표 No 영문명 한글명 필수여부 타입 길이 비고 1 id 어노테이션 아이디 Y number 어노테이션 아이디 2 image_id 이미지 아이디 Y number 시리즈의 이미지 순번 3 category_id 카테고리 아이디 Y number 1,2,3 5 iscrowd 어노테이션 싱글/멀티 유형 Y number 0: 싱글,
1: 멀티6 area 어노테이션 넓이 Y number v bbox를 활용한 넓이 7 bbox 어노테이션 최대Box 좌표 Y array [x1, y1, x2, y2]
x, y는 float형식8 toolname 어노테이션 툴 유형 Y string 300 어노테이션툴명 9 segmentation 어노테이션 좌표정보 Y array [x1, y1, x2, y2, ….., xn, yn]
x, y는 float형식10 width 세그먼트 가로길이 Y number 픽셀 길이 11 height 세그먼트 세로길이 Y number 픽셀 길이
-
데이터셋 구축 담당자
수행기관(주관) : 에이아이트릭스
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 유진규 02-569-5507 [email protected] · 데이터구축 총괄 수행기관(참여)
수행기관(참여) 기관명 담당업무 고신대복음병원 · 원본 데이터 제공 및 데이터 어노테이션 비알프레임 · 데이터 익명화 작업 및 데이터 어노테이션 툴 개발 에이엠스퀘어 · 폐암 데이터셋을 활용한 AI모델 개발 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 백원중(에이아이트릭스) 02-569-5507 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.