※온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
간암 진단 의료 영상
- 분야헬스케어
- 구분 안심존(온라인)
- 유형 이미지
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2021-06-30 데이터 최초 개방 소개
간암 진단 및 치료 과정에서 필요한 영상‧이미지 데이터
구축목적
간암 진단 및 치료 과정에서 필요한 의료 이미지 데이터셋 구축 의료 영상의 판독 결과와 진단 및 치료에 영향을 주는 임상 정보 등을 어노테이션한 학습용 데이터셋 구축 구축된 AI데이터를 이용하여 의료 단계별 의사결정에 직간접적 영향을 줄 수 있는 AI모델 제시
-
메타데이터 구조표 데이터 영역 헬스케어 데이터 유형 이미지 데이터 형식 데이터 출처 라벨링 유형 라벨링 형식 데이터 활용 서비스 데이터 구축년도/
데이터 구축량2020년/3만 -
구축 내용 및 제공 데이터량
- 간암의 DICOM 영상파일과 어노테이션 PNG파일, 임상정보의 JSON 파일을 수집
- 어노테이션을 통해 악성(malignant), 양성(benign), 정상(normal)로 구분
데이터 구성 표 데이터셋 목표수량(건수) 구축수량(건수) 간암 데이터셋 Malignant 11,000 55,367 Benign 6,000 18,892 Normal 13,000 18,991 -
-
AI 모델 상세 설명서 다운로드
AI 모델 다운로드 -
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 간암 분할 객체 검출 Object Detection CNN (U-Net based model) DSC 0.9 단위없음 0.9 단위없음
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2021.06.30 데이터 최초 개방 구축 목적
- 간암 진단 및 치료 과정에서 필요한 의료 이미지 데이터셋 구축
- 의료 영상의 판독 결과와 진단 및 치료에 영향을 주는 임상 정보 등을 어노테이션한 학습용 데이터셋 구축
- 구축된 AI데이터를 이용하여 의료 단계별 의사결정에 직간접적 영향을 줄 수 있는 AI모델 제시
활용 분야
- 국가차원의 의료 지식베이스 및 이용환경 제공으로 간암, 담낭암, 췌장암 관련 지능정보산업 활성화, 의료 질 향상, 우리나라의 데이터 경제를 가속화 하는데 기여
- 공공 및 민간의 지능정보기술 개발 촉진과 지능정보산업 육성을 위한 지능정보 데이터 인프라 구축 및 이용환경 제공
- 간암의 진단에 중요한 다양한 진단 영상과 임상 자료를 추가한 인공지능 학습용 데이터 구축
- 인공지능 학습을 통해 객관적이고 정확한 진단을 제시할 수 있는 인공지능 딥러닝 기반의 진단법 개발
소개
- 간암 진단 인공지능기술의 개발 확산을 위해 특정 질환의 영상 이미지 및 임상 정보와 전문의의 진단정보 등이 포함된 학습용 데이터셋 의료 지식 베이스 구축
구축 내용 및 제공 데이터량
- 간암의 DICOM 영상파일과 어노테이션 PNG파일, 임상정보의 JSON 파일을 수집
- 어노테이션을 통해 악성(malignant), 양성(benign), 정상(normal)로 구분
데이터 구성 표 데이터셋 목표수량(건수) 구축수량(건수) 간암 데이터셋 Malignant 11,000 55,367 Benign 6,000 18,892 Normal 13,000 18,991 대표도면
- 좌측 : dcm파일, 우측 : png파일(병변 라벨링)
- 임상정보 json 파일
필요성
- 고차원 의료영상(CT, MRI 등) 급증과 의료진의 부족
- 의료영상 분석 및 진단 보조 솔루션 개발의 도입과 복부 장기에 대한 분야의 적용 제한
- 기반구축 지원의 필요성 - 해외는 다양한 분야에서 인공지능 기술 개발에 활용할 인공지능 학습 데이터 및 학습 환경 등 기반 인프라가 활성화되어 있음. 반면, 국내의 경우 개인정보 침해, 저작권, 초상권 등 다양한 이슈로 양질의 데이터 개방 및 활용은 여전히 어려운 상황임
- 간담도 췌장암의 진단 향상 및 오진율 감소를 위한 영상진단 인공지능 학습용 데이터 구축 필요
- 전체 암종 중 사망률 2위로 사회경제적 부담이 가장 높은 암
- 간암 선별검사 시 검사자의 숙련도에 따라 진단에 차이가 발생하며 최근 영상 기법 발전 및 의료 접근성 증가로 CT, MRI등의 영상 검사가 증가하였으며 이에 따른 의료비 증가가 발생함
데이터 구조
- 데이터 구성
- DICOM 영상 파일, PNG 어노테이션 파일, JSON 임상 정보 파일
1. 폴더 구조
- M : 필수요소, M* : 조건하 필수요소, U : 부가정보
- 나뉘어진 개별 Mask의 구분이 PNG 내 Bit로 구분되어 기록됨
- PNG 내 8비트 활용 개별 마스크 매핑
- DICOM 파일 1개에 대해서 1개의 PNG 파일이 매핑됨.
- PNG 파일의 전체크기는 DICOM 파일 크기와 일치시켜, 어노테이션한 위치를 고정으로 가져감.
- 간 정상 CT의 경우, DICOM 파일 1개에 대해서 어노테이션되지 않은 1개의 PNG 파일이 매핑됨.
- PNG 파일 내 특정 분류 값 표현을 하도록 정의하며, Gray scale을 사용함.
- 암종별 카테고리에 따른 지정된 bit 자리를 사용함.
- 필수항목
・ 대분류 (정상, 악성, 양성)
・ 중분류 (normal, benign1~5, malignant)
・ 악성세부진단명(HCC, combined HCC, CCC, undifferentiated carcinoma, mets, other)
・ 모달리티(CT, MR, US)
・ 성별
・ 기본정보 (나이, 인종, 신장, 체중)
・ 영상정보(검사일, 촬영장비제조사, 모델명, 조영제, 판독결과)
・ 영상에서의 종양크기, 종양위치, 종양개수, 장기 외 침범 여부, 병기(TNMstage)
・ 수술 (검사여부, 시행일자, 수술방법, 병리검사결과지)부가항목 표 8bit - (RGB) 간 (Liver) 000000 (0,0,0) - (transparency) 800000 (128,0,0) NORMAL 008000 (0,128,0) BENIGN1 808000 (128,128,0) BENIGN2 000080 (0,0,128) BENIGN3 800080 (128,0,128) BENIGN4 008080 (0,128,128) BENIGN5 808080 (128,128,128) MALIGNANT
-
데이터셋 구축 담당자
수행기관(주관) : 국립암센터
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 우상명 031-920-0740 [email protected] · 지식베이스 구축 총괄 수행기관(참여)
수행기관(참여) 기관명 담당업무 (의료법인)길의료재단 · 간암 지식베이스 세부 책임 연세대학교 산학협력단 · 간암 영상 지식베이스 구축간암 영상 지식베이스 구축 인피니트헬스케어 · 인공지능 학습용 Imaging Platform 구축 및 어노테이션 저작도구 개발 피노맥스 · 간암과 간의 양성종양 구분 및 확인 AI알고리즘 개발 고려대학교 산학협력단 · 간암 영상 지식베이스 구축 연세대학교 원주산학협력단 · 간암 영상 지식베이스 구축 서울대학교 산학협력단 · 간암 분할 AI 모델 및 응용서비스 개발 모니터 코퍼레이션 · AI 모델을 통해 간암 데이터 학습 및 검증 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 이미영(국립암센터) 031-920-0740 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.