※온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2022-07-13 데이터 최초 개방 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2023-09-15 안심존 온라인으로 수정 2022-07-13 콘텐츠 최초 등록 소개
세포병리검사 이미지를 이용한 암 진단시 병리의사 혹은 병리사의 진단업무를 보조할 수 있는 진단보조서비스, 세포병리검사 진단후 진단 정확도를 검사하고 오류를 찾아내는 질관리 보조서비스
구축목적
암 진단의 선별검사로 사용되는 체액세포병리검사 이미지를 분석하여 암과 정 상을 분류할 수 있는 인공지능을 개발, 훈련하기 위한 데이터셋
-
메타데이터 구조표 데이터 영역 헬스케어 데이터 유형 이미지 데이터 형식 jpg 데이터 출처 국내 200여개 대학, 종합병원,가톨릭대학교 의료 원, 연세의료원, 국립암센터의 3개 대형 대학병원 라벨링 유형 분류(이미지) 라벨링 형식 CSV 데이터 활용 서비스 세포병리검사 이미지를 이용한 암 진단시 병리의사 혹은 병리사의 진단업무를 보조할 수 있는 진단보조서비스, 세포병리검사 진단후 진단 정확도를 검사하고 오류를 찾아내는 질관 리 보조서비스 데이터 구축년도/
데이터 구축량2021년/207,037장 (5506 WSI) -
데이터 구축 규모
데이터 구축 규모 체액 진단 목표량 구축량 목표량 구축량 종류 (증례수) (증례수) (패치수) (패치수) 호흡 암 (폐암) 500 716 10000 10069 기계 정상 500 557 10000 20521 흉수 암 (폐암, 유방암) 500 501 10000 29952 정상 500 567 10000 19909 복수 암 (위암, 대장암, 난소암, 췌장암) 500 524 10000 24542 정상 500 507 10000 21527 소변 암 (방광암) 500 503 10000 20105 정상 500 503 10000 20382 세침 암 (갑상선암, 침샘, 폐암, 췌장암, 림프종) 500 539 10000 19925 흡인 정상 500 589 10000 20105 데이터 분포
- 데이터 제공 기관별 분포
데이터 분포 데이터 제공 기관별 분포 기관 데이터건수 비율 세포병리학회 정도관리슬라이드 1194 21.70% 가톨릭산단 2241 40.70% 연세대산단 1376 25.00% 국립암센터 695 12.60% 계 5506 100% - 진단클래스별 (정상/암) 분포
데이터 분포 진단클래스별 (정상/암) 분포 진단클래스 데이터건수 비율 정상 2723 49.50% 암 2783 50.50% 계 5506 100% - 체액종류별 분포
데이터 분포 체액종류별 분포 체액종류 데이터건수 비율 호흡기계 검체 1273 23.10% 흉수 1068 19.40% 복수 1031 18.70% 세침흡인 1128 20.50% 소변 1006 18.30% 계 5506 100% - 암종별 분포
데이터 분포 암종별 분포 암종별 데이터건수 비율 폐암 2084 37.80% 유방암 434 7.90% 난소암 239 4.30% 위암 226 4.10% 대장암 195 3.50% 췌장암 605 11.00% 방광암 1006 18.30% 갑상선암 306 5.60% 림프종/림프절전이암 222 4.00% 침샘종양 189 3.40% 계 5506 100% - 검체 종류별 (도말/액상세포) 분포
데이터 분포 검체 종류별 (도말/액상세포) 분포 검체종류 데이터건수 비율 고식적 도말 4456 80.90% 액상세포검사 1050 19.10% 계 5506 100% - 스캐너 종류별 분포
데이터 분포 스캐너 종류별 분포 스캐너 종류 데이터건수 비율 3DHistech (Pannoramic Flash III 250) 3682 66.90% Leica AT2 1402 25.50% Hamamatsu 422 7.70% 계 5506 100% - 염색법별 분포
데이터 분포 염색법별 분포 염색법 데이터건수 비율 H&E 1091 19.80% Pap 4411 80.10% DipQuik 4 0.10% 계 5506 100% - 원발병변/전이병변별 분포
데이터 분포 원발병변/전이병변별 분포 원발/전이 데이터건수 비율 원발 3508 63.70% 전이 1998 36.30% 계 5506 100% - 성별간 분포
- 나이대별 분포
데이터 분포 나이대별 분포 나이 데이터건수 비율 0-10 10 0.20% 11월 20일 39 0.70% 21-30 109 2.00% 31-40 215 3.90% 41-50 540 9.80% 51-60 1133 20.60% 61-70 1452 26.40% 71-80 1389 25.20% 81- 619 11.20% 계 5506 100% 기타 활용 통계
데이터 분포 기타 활용 통계 z-stacking level수 데이터건수 비율 3 3036 55.10% 5 2469 44.80% 6 1 0.00% 계 5506 100% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드모델1 - ㈜ 딥노이드
- 학습 모델
(1)세포 병리 이미지에서 정상/비정상을 분류하기 위해서는 해당 클래스의 확률을 표시하고, 분류하는 Image Classification 기능이 필요함 EfficientNet 알고리즘은 이미지의 특징(2) EfficientNet 알고리즘은 이미지의 특징(Feature)을 추출하고, 추출된 특징을 이용하여 정상과 비정상이 존재할 가능성을 예측하고, 클래스 분류를 출력함[EfficientNet-b1 네트워크 구조의 도식화](3) 아래의 표와 같은 형태로 데이터를 학습(training), 검증(validation), 평가(test)로 나누어서 학습모델을 개발[데이터셋 분리 표]학습 모델 데이터셋 분리 표 Class Data Split Negative Positive Total 흉수-폐암 train 15,953 16,448 32,401 validation 1,975 1,809 3,784 test 1,981 2,015 3,996 흉수-유방암 train 7,758 7,745 15,503 validation 989 975 1,964 test 933 960 1,893 소변-방광암 train 16,356 16,152 32,508 validation 2,058 2,321 4,379 test 1,968 1,632 3,600 (4) 학습 모델을 검증하기 위하여 전체 데이터를 학습용 (80%), 검증(10%), 평가(10%)로 나눠서 학습과 테스트 수행
(5) 인공지능 판독 모델의 성능 테스트는 정답을 알고 있는 테스트 데이터셋을 인공지능 알고리즘 모델에 입력하여 분류 정확도를 시험
(6) 인공지능 학습 알고리즘을 통해 분류된 결과값에 따라 정확도(Accuracy)를 산출나. 모델2 - ㈜ 엠티에스 컴퍼니
- 신경망 모델
(1) 신경망 구조 탐색
- 세포 분류를 위한 신경망 모델은 현재 이미지 분류 알고리즘으로 널리 사용하고 우수한 성능을 보여주는 9개의 알고리즘을 채택함
- 채택된 9가지 알고리즘을 각 학습 데이터 별로 적용하여 최적의 학습 모델을 탐색신경망 모델
특징
Inception-v4
- Inception 신경망을 더 효과적으로 넓고 깊게 만들기 위해 고안
- Inception-v3보다 단순, 획일화된 구조로 많은 Inception module을 사용
Resnet152
- Residual Block을 사용하여 더 깊은 신경망 구조를 가능하게 함
- 잔차(residual)를 최소가 되게 학습한 효과
DenseNet
- DenseNet은 ResNet과 Pre-Activation ResNet보다 적은 파라미터 수로 더 높은 성능을 가진 모델
- DensNet은 모든 레이어의 피쳐맵을 연결. 이전 레이어의 피쳐맵을 다음 모든 레이어의 피쳐맵에 연결
SENet
- 피쳐맵의 각 채널마다 가중치를 부여하여 피쳐맵의 각 채널에 곱셈 연산
- SENet은 채널 간의 가중치를 계산하여 성능을 최대화
Xception
- (Modified Depthwise Separable Convolution) 네트워크의 사이즈와 연산량을 줄이기 위한 방법 사용
- 같은 사이즈의 Inception 네트워크에 비해 연산량은 1/9
DPN
- DenseNet과 ResNet의 장점을 활용한 모델
- feature reuse, exploring new feature 효과를 활용하여 성능 향상
PNASNet
- SMBO(순차 모델 기반 최적화) 전략 을 사용 하여 구조 공간을 통해 검색을 안내하는 대리 모델을 학습
- 동일한 검색 공간에서 직접 비교하면 PNASNet이 Reinforcement Learning 방법보다 최대 5배 효율적이고 계산 측면에서 8배 빠름
Inception-ResNet
- Inception-v4에 residual connection을 결합
- 학습 속도 개선 효과
Mobilenet
- 스마트폰과 같은 환경에서는 CPU를 하나 정도 가지고 있는 경우도 많고, GPU가 없을 수도 있으며, 메모리도 부족
- 컴퓨터 성능이 제한되거나 배터리 퍼포먼스가 중요한 곳에서 사용될 목적으로 설계된 CNN 구조
- 9가지 알고리즘별 특징신경망 모델 9가지 알고리즘별 특징 신경망 모델 특징 Inception-v4 - Inception 신경망을 더 효과적으로 넓고 깊게 만들기 위해 고안 - Inception-v3보다 단순, 획일화된 구조로 많은 Inception module을 사용 Resnet152 - Residual Block을 사용하여 더 깊은 신경망 구조를 가능하게 함 - 잔차(residual)를 최소가 되게 학습한 효과 DenseNet - DenseNet은 ResNet과 Pre-Activation ResNet보다 적은 파라미터 수로 더 높은 성능을 가진 모델 - DensNet은 모든 레이어의 피쳐맵을 연결. 이전 레이어의 피쳐맵을 다음 모든 레이어의 피쳐맵에 연결 SENet - 피쳐맵의 각 채널마다 가중치를 부여하여 피쳐맵의 각 채널에 곱셈 연산 - SENet은 채널 간의 가중치를 계산하여 성능을 최대화 Xception - (Modified Depthwise Separable Convolution) 네트워크의 사이즈와 연산량을 줄이기 위한 방법 사용 - 같은 사이즈의 Inception 네트워크에 비해 연산량은 1/9 DPN - DenseNet과 ResNet의 장점을 활용한 모델 - feature reuse, exploring new feature 효과를 활용하여 성능 향상 PNASNet - SMBO(순차 모델 기반 최적화) 전략 을 사용 하여 구조 공간을 통해 검색을 안내하는 대리 모델을 학습 - 동일한 검색 공간에서 직접 비교하면 PNASNet이 Reinforcement Learning 방법보다 최대 5배 효율적이고 계산 측면에서 8배 빠름 Inception-ResNet - Inception-v4에 residual connection을 결합 - 학습 속도 개선 효과 Mobilenet - 스마트폰과 같은 환경에서는 CPU를 하나 정도 가지고 있는 경우도 많고, GPU가 없을 수도 있으며, 메모리도 부족 - 컴퓨터 성능이 제한되거나 배터리 퍼포먼스가 중요한 곳에서 사용될 목적으로 설계된 CNN 구조 - 선정 신경망 모델 (SENet, MobilenetV2) : 암종별 9개의 모델중에서 Accuracy 지표 값이 가장 높은 신경망 모델에 대한 설명 (폐암 - MobilenetV2, 유방암/방광암 - Senet154)
- 학습방법 - 3가지 학습 데이터셋(폐암,유방암,방광암)에 대하여 최적 학습 모델을 탐색하고 각 데이터 셋에 적합한 신경망 모델에 대하여 신경망 학습 진행
-
설치 요구사항 및 환경 구성
- 본 과제에서 제안된 모델을 학습하기 위해서는 NIA 데이터셋과 각 신경망 알고리즘 수행에 필요한 패키지 설치 과정이 필요함
- 가상환경(anaconda) 상에서 진행하며 필수 패키지는 아래와 같음
- 설치 방법
- 학습 및 테스트 방법
- 폐암 학습 및 테스트 사례
$ run.sh train LUNG <-- 폐암 9개 모델 생성
$ run.sh test LUNG <-- 폐암 9개 모델 테스트
$ run.sh train LUNG mobilenetv2 <-- 폐암 mobilenetv2 모델 생성
$ run.sh test LUNG mobilenetv2 <-- 폐암 mobilenetv2 모델 테스트- 유방암 학습 및 테스트 사례
$ run.sh train BRST <-- 유방암 9개 모델 생성
$ run.sh test BRST <-- 유방암 9개 모델 테스트
$ run.sh train BRST senet154 <-- 유방암 senet154 모델 생성
$ run.sh test BRST senet154 <-- 유방암 senet154 모델 테스트- 방광암 학습 및 테스트 사례
$ run.sh train BLAD <-- 방광암 9개 모델 생성
$ run.sh test BLAD <-- 방광암 9개 모델 테스트
$ run.sh train BLAD inceptionv4 <-- 방광암 inceptionv4 모델 생성
$ run.sh test BLAD inceptionv4 <-- 방광암 inceptionv4 모델 테스트서비스 활용 시나리오
(1) 암 관련 세포 검사 이미지를 통해 조기 진단 검사에 활용
(2) 해당 서비스를 활용하여 정상과 암을 구분하여 비정상 슬라이드를 우선적으로 판독한다면 병리의의 업무 효율과 검사 속도 및 정확도를 높일 수 있음 -
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 소변-방광암 세포진단 분류 모델 Image Classification Inception_v4, ResNet-152, DenseNet-161, SeNet-154, Xception, DPN, PnasNet5large, InceptionresNet_v2, MobileNet_v2 Accuracy 80 % 94.65 % 2 흉수-폐암 및 유방암 세포진단 분류 모델 (흉수-폐암 세포진단 분류 모델) Image Classification Inception_v4, ResNet-152, DenseNet-161, SeNet-154, Xception, DPN, PnasNet5large, InceptionresNet_v2, MobileNet_v2 Accuracy 80 % 94.63 % 3 흉수-폐암 및 유방암 세포진단 분류 모델 (흉수-유방암 세포진단 분류 모델) Image Classification Inception_v4, ResNet-152, DenseNet-161, SeNet-154, Xception, DPN, PnasNet5large, InceptionresNet_v2, MobileNet_v2 Accuracy 80 % 97.5 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드데이터 정보 요약
데이터 정보 요약 데이터 이름 체액 내 세포검사 이미지 데이터 활용 분야 세포병리검사 이미지를 이용한 암 진단시 병리의사 혹은 병리사의 진단업무를 보조할 수 있는 진단보조서비스, 세포병리검사 진단후 진단 정확도를 검사하고 오류를 찾아내는 질관리 보조서비스 데이터 요약 암 진단의 선별검사로 사용되는 체액세포병리검사 이미지를 분석하여 암과 정상을 분류할 수 있는 인공지능을 개발, 훈련하기 위한 데이터셋 데이터 출처 국내 200여개 대학, 종합병원, 검사센터의 세포병리검사실에서 익명화를 거쳐 대한세포병리학회 정도관리위원회로 확보된 정도관리 프로그램용 슬라이드 및 가톨릭대학교 의료원, 연세의료원, 국립암센터의 3개 대형 대학병원에서 수집된 세포병리검사 유리슬라이드를 디지털화 한 이미지 데이터셋 데이터 이력 배포버전 ver 1.0 개정이력 신규 작성자/ 배포자 정요셉 / 유종우 데이터 포맷
> jpg + csv file (어노테이션파일)PF-LUNG-078_0053.jpg
> CSV file 내용Dataset.identifier PF-LUNG-078 Dataset.path 072.체액 내 세포검사 이미지 데이터/06.품질검증/1.Dataset/1_원천데이터/02_POS/02_PF/01_LUNG/PF-LUNG-079 Dataset.institute 1 Dataset.researchNo BF-855 Dataset.class 2 Dataset.bodyfluid 2 Dataset.category 1 Dataset.cytocode 4.0.0.0 Dataset.cytodx Suspicious malignancy Dataset.histodx Small cell carcinoma Dataset.z_stack 3 Dataset.scandate 2021.8.30 Dataset.method 1 Dataset.scanner 1 Dataset.stain 2 Dataset.meta 2 Dataset.sex 1 Dataset.age 67 어노테이션 포맷
어노테이션 포맷 구분 항목명 타입 필수여부 설명 범위 비고 1 Dataset.identifier String M 데이터셋식별자 검체코드-암/정상코드-일련번호 2 Dataset.path String M 파일경로 3 Dataset.institute Number M 수집기관 01:정도관리용 02:가톨릭의대 03:연세의대 04:암센터 4 Dataset.researchNo String M 연구번호 5 Dataset.class Number M 클래스 01: 정상 02: 악성 6 Dataset.bodyfluid Number M 체액 종류 01:호흡기계검체 02:흉수 03:복수 04:세침흡인 05: 소변 7 Dataset.category Number M 진단명 01:폐암 02:유방암 03:난소암 04:위암 05:대장암 06:췌장암 07:방광암 08:갑상선암 09:림프종/전이암 10:침샘암 8 Dataset.cytocode String M 세포학적 진단코드 1.0.0.0:정상/양성 3.0.0.0:이형세포 4.0.0.0:암/악성 9 Dataset.cytodx String O 세포학적 진단명 세포학적 진단명 텍스트 10 Dataset.histodx String O 조직학적 진단명 조직학적 진단명 텍스트 11 Dataset.z_stack Number M z-stacking layer 수 0~20 12 Dataset.scandate String O 스캐닝 날짜 yyyy.mm.dd 13 Dataset.method Number M 도말/액상세포 01:액상 02:도말 14 Dataset.scanner Number M 스캐너 종류 01:3DHistech 02:Leica AT2 03:Hamamatsu 04:Roche 05:Philips 15 Dataset.stain Number M 염색법 01:H&E 02:PAP 03:DipQuik 16 Dataset.meta Number M 원발성/전이성 01:원발성 02:전이성 17 Dataset.sex Number M 성별 01:남자 02:여자 라. 데이터 구성
> 원천데이터 폴더구성
[원천데이터]
├[01_NEG] - (클래스명-정상)│├[01_RESP] - (체액명-호흡기계)
││├[(체액명)-NL-(슬라이드번호)]
││├[RESP-NL-001]
│││├(체액명)-NL-(슬라이드번호)_(이미지패치번호).jpg
│││├RESP-NL-001_0001..jpg
│││├RESP-NL-001_0002..jpg
│││├...
││├[RESP-NL-002]
││├[...]
│├[02_PF] - (체액명-흉수)
│├[03_ASC] - (체액명-복수)
│├[04_FNA] - (체액명-세침흡인)
│└[05_U] - (체액명-소변)
└[02_POS] - (클래스명-암)
├[01_RESP] - (체액명-호흡기계)
│└[01_LUNG] - (암종명-폐암)
│ ├[(체액명)-(암종명)-(슬라이드번호)]
│ ├[RESP-LUNG-001]
│ │├(체액명)-(암종명)-(슬라이드번호)_(이미지번호).jpg
│ │├RESP-LUNG-001_0001.jpg
│ │├RESP-LUNG-001_0002.jpg
│ │├...
│ ├[RESP-LUNG-002]
│ ├[...]
├[02_PF] - (체액명-흉수)
│├[01_LUNG] - (암종명-폐암)
│└[02_BRST] - (암종명-유방암)
├[03_ASC] - (체액명-복수)
│├[03_OVAR] - (암종명-난소암)
│├[04_STOM] - (암종명-위암)
│├[05_COLO] - (암종명-대장암)
│└[06_PANC] - (암종명-췌장암)
├[04_FNA] - (체액명-세침흡인)
│├[01_LUNG] - (암종명-폐암)
│├[06_PANC] - (암종명-췌장암)
│├[08_THYR] - (암종명-갑상선암)
│├[09_LYMP] - (암종명-림프종)
│└[10_SALI] - (암종명-침샘종양)
└[05_U] - (체액명-소변)
└[07_BLAD] - (암종명-방광암)* 모든 이미지는 256x256px의 타일 이미지들로 구성
> 라벨링데이터 폴더구성
[라벨링데이터]
└[01_NEG] - (정상)
└01_RESP.csv, 02_PF.csv, 03_ASC.csv, 04_FNA.csv, 05_U.csv - (체액명).csv
└[02_POS] - (암)
└01_RESP.csv, 02_PF.csv, 03_ASC.csv, 04_FNA.csv, 05_U.csv - (체액명).csv* CSV파일의 한 줄은 슬라이드 별로 생성되며, 환자 정보를 가진다.
-
데이터셋 구축 담당자
수행기관(주관) : 가톨릭대학교 산학협력단
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 정요셉 031-820-3160 [email protected] 문의사항 접수 파악 및 결과보고, AI허브 헬프 팀과 의사 소통 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜ 딥노이드 라벨링 데이터의 대한 문의사항, 인공지능 모델 관련 문의 사항 ㈜ 엠티에스컴퍼니 라벨링 데이터의 대한 문의사항, 인공지능 모델 관련 문의 사항
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.