※온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2021-06-30 데이터 최초 개방 소개
유방암 및 부비동염의 조기진단을 통한 의료비 절감 및 진단의 오진율 감소를 위해 의료 지식베이스 데이터셋을 구축하여 진단보조 인공지능 모델 개발
구축목적
유방암,부비동염 진단을 위한 의료 인공지능 모델 개발에 활용 가능한 부비동 X-ray 영상과 유방조직 이미지 및 메타데이터의 의료 지식베이스 공개
-
메타데이터 구조표 데이터 영역 헬스케어 데이터 유형 이미지 데이터 형식 데이터 출처 라벨링 유형 라벨링 형식 데이터 활용 서비스 데이터 구축년도/
데이터 구축량2020년/유방암: 4,000케이스 (영상 이미지), 부비동: 8,000케이스 (dicom형식) -
구축 내용 및 제공 데이터량
유방암 조직 이미지
- 유방병리 영상이미지 4,000케이스 (100,000장)
- 악성(malignant): 3,000케이스 (75,000장)
- 비악성(non-malignant): 1,000케이스 (25,000장) - 20x배율의 512 x 512 pixel size 이미지 파일(png)
부비동 X-ray 이미지
- 부비동 X-ray 이미지 8,000케이스 (dicom 형식)
- Normal : 7,000케이스
- Mucosal thickening : 650케이스
- Air fluid : 200케이스
- Haziness : 150케이스
메타데이터
- 유방암 조직: 각 케이스별로 병리 이미지와 연령대, 검사장비 기기정보(제조사명, 모델명), 종양의 병기의 메타데이터 파일(xlsx)
- 부비동: X-ray 이미지 파일명 성별, 연령대, 검사 일자, 기기정보(제조사명)의 메타데이터 파일(xlsx)
- 유방병리 영상이미지 4,000케이스 (100,000장)
-
-
AI 모델 상세 설명서 다운로드
AI 모델 다운로드 -
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 진단정확율(유방암 조직) Estimation EfficientNet-B0 AUC-ROC 0.93 단위없음 0.9996 단위없음 2 진단정확율(부비동) Estimation EfficientNet-B3 AUC-ROC 0.87 단위없음 0.9914 단위없음 3 진단정확율(유방암 조직) Estimation EfficientNet-B0 Precision 90 % 99.83 % 4 진단정확율(부비동) Estimation EfficientNet-B3 Precision 85 % 92.04 % 5 양성진단률(유방암 조직) Estimation EfficientNet-B0 Sensitivity 90 % 99.3 % 6 양성진단률(부비동) Estimation EfficientNet-B3 Sensitivity 85 % 92.57 % 7 음성진단율(유방암 조직) Estimation EfficientNet-B0 Specificity 90 % 99.52 % 8 음성진단율(부비동) Estimation EfficientNet-B3 Specificity 85 % 98.46 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드데이터 변경이력
데이터 변경이력 버전 일자 변경내용 1.0 2021.06.30 데이터 최초 개방 구축목적
- 유방암,부비동염 진단을 위한 의료 인공지능 모델 개발에 활용 가능한 부비동 X-ray 영상과 유방조직 이미지 및 메타데이터의 의료 지식베이스 공개
활용분야
- 유방조직 이미지의 유방암 진단보조 인공지능 서비스를 탑재한 디지털 병리 솔루션 개발
- 부비동 X-ray 이미지의 부비동염 진단보조 인공지능 서비스를 탑재한 솔루션 개발
주요 키워드
- 의료영상, 유방병리, 부비동 방사선, 진단보조
소개
- 유방암 진단을 위한 의료 지식베이스 데이터셋으로 4,000케이스의 조직 병리검사 이미지 100,000장과 메타데이터 4,000개 구축을 목표로함
- 부비동염 진단을 위한 의료 지식베이스 데이터셋으로 부비동 X-ray 8,000케이스와 메타데이터 8,000개 구축을 목표로 함
구축 내용 및 제공 데이터량
유방암 조직 이미지
- 유방병리 영상이미지 4,000케이스 (100,000장)
- 악성(malignant): 3,000케이스 (75,000장)
- 비악성(non-malignant): 1,000케이스 (25,000장) - 20x배율의 512 x 512 pixel size 이미지 파일(png)
부비동 X-ray 이미지
- 부비동 X-ray 이미지 8,000케이스 (dicom 형식)
- Normal : 7,000케이스
- Mucosal thickening : 650케이스
- Air fluid : 200케이스
- Haziness : 150케이스
메타데이터
- 유방암 조직: 각 케이스별로 병리 이미지와 연령대, 검사장비 기기정보(제조사명, 모델명), 종양의 병기의 메타데이터 파일(xlsx)
- 부비동: X-ray 이미지 파일명 성별, 연령대, 검사 일자, 기기정보(제조사명)의 메타데이터 파일(xlsx)
대표도면
필요성
유방암 조직
- 전 세계적으로 의료에서 가장 핵심적인 질환은 현재는 암질환이며, 암에 의한 사망은 전체 사망의 26.5% (2018년 통계청)를 차지하며, 여성에서 유방암은 전 세계적으로 매년 200만명 이상이 발생
- 유방암의 조기진단은 사회 경제적으로 매우 중요한 문제이며 조직검사는 병리과 전문의 판독을 통하여 암 진단의 여부가 결정
- 유방조직 이미지를 이용하여 의료 인공지능 학습용 지식베이스를 구축하고 암 진단 보조 인공지능 모델을 개발하여 조기진단을 통한 의료비 절감 및 진단의 오진율을 감소하여 의료서비스 질 향상가능
부비동
- 부비동이 세균에 감염돼 발생하는 질환을 ‘부비동염’ 또는 ‘축농증’이라고 하며, 상악동에서 가장 빈번하게 발생됨
- 부비동염이 의심될 경우 1차적으로 X-ray를 이용해서 검사를 진행하지만, 진단 정확도가 70% 정도이고 이후 정밀 검사나 수술 계획을 위해 추가로 CT 검사를 시행
- 부비동 X-ray 이미지를 이용하여 의료 인공지능 학습용 지식베이스를 구축하고, 진단 보조 인공지능 모델을 개발하여 조기진단을 통한 의료비 절감 및 진단의 오진율을 감소하여 의료서비스 질 향상가능
데이터 구조
< 유방암 조직 데이터 구조 >
< 부비동 데이터 구조 >
[유방암 조직 메타데이터]
특허 데이터 구축내용 표 (구축년도,데이터종류,포함내용,제공방식) 컬럼명 데이터타입 null 예시 익명화 환자ID char N S00005745 연령대 char N 1 : 19 2 : 20~29, 3 : 30~39, 4 : 40~49, 5 : 50~59, 6 : 60~69, 7 : 70~79, 8 : 80~89, 9 : 90 이상 검사일시 date N 1999.01.01. 검사장비 제조사 char Y 3DHistech 검사장비 모델명 char Y P1000t GRP char N 0 : malignant 1 : non-malignant 종양의 병기 char Y 1a [부비동 메타데이터]
특허 데이터 구축내용 표 (구축년도,데이터종류,포함내용,제공방식) 컬럼명 데이터타입 null 예시 이미지파일명 char N 00000001_0_1.dcm 성별 char N 0 : 남자
1 : 여자연령대 date N 1 : 19
2 : 20~29,
3 : 30~39,
4 : 40~49,
5 : 50~59,
6 : 60~69,
7 : 70~79,
8 : 80~89,
9 : 90 이상검사일시 char N 1999-01-01 제조사명 char Y Samsung Electronics -
데이터셋 구축 담당자
수행기관(주관) : 국립암센터, 건양대학교병원
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 황보율(유방조직/국립암센터) 031-920-0572 [email protected] · 사업 총괄, 데이터 설계, 원천 데이터 수집 및 정제, 데이터 검수 김종엽(부비동/건양대학교병원) 042-600-8679 [email protected] · 데이터 설계, 원천 데이터 수집 및 정제, 데이터 검수 수행기관(참여)
수행기관(참여) 기관명 담당업무 인피니트 헬스케어 · 데이터 가공 딥노이드 · 저작도구 개발, AI 모델 개발 딥네츄럴 · 데이터 가공, 크라우드 소싱 유비즈정보기술 · 저작도구 개발 마인즈앤컴퍼니 · AI 모델 개발 네어비즈니스플랫폼 · 데이터 활용 오엠인터렉티브 · 응용 서비스 개발 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 이재동(유방조직/국립암센터) 031-920-0572 [email protected] 신현아(부비동/건양대학교병원) 042-600-8679 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.