콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
본 데이터는
온라인 안심존 데이터 ?

온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석

입니다.
#조기 진단 # 딥러닝 인공지능 # 영상데이터 # 이미지데이터 # 갑상선 초음파 # Neck CT # 병리 이미지 # 양성 # 악성 #헬스케어 건강서비스 #헬스케어 의료

갑상선암 진단 의료 영상

갑상선암 진단 의료 영상
  • 분야헬스케어
  • 구분 안심존(온라인)
  • 유형 비디오 , 이미지
구축년도 : 2020 갱신년월 : 2021-06 조회수 : 3,994 다운로드 : 75

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2021-06-30 원천데이터 수정

    소개

    갑상선암 진단 및 치료 과정에서 필요한 영상‧이미지 데이터

    구축목적

    의료 진단에서 활용될 수 있는 의료 인공지능 개발이 세계적으로 소개되고 있지만 민감한 의료 정보를 담고 있기 때문에 접근할 수 있는 오픈소스 의료 데이터의 종류가 제한적임.
    따라서 갑상선암 진단에 활용할 수 있는 3종류의 갑상선암 의료 영상 데이터셋을 구축하여 영상 진단 판독을 보조할 수 있는 의료 인공지능 개발을 도모하고 의료 산업의 발전을 기대함.
  • 구축 내용 및 제공 데이터량

    • 갑상선암 데이터셋은 병원으로부터 원본 의료 이미지 데이터 획득 후 익명화 및 비식별화 과정을 거친 뒤 전문의의 라벨링으로 구축되었다.

       

      구축 내용 및 제공 데이터량 구조테이블
      유형 구축 건수(건)
      분류 환자수 영상 수
      초음파 양성 1.040명 25,790장
      악성 3,960명 3,116,128명
      Neck CT 전이있음 232명 45,143장
      전이없음 270명 56,030장
      병리 이미지 양성 1,585명 2,731장
      악성 1,190명 2,111장
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 다운로드
  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 약성/양성 감별 Image Classification DeepLabV3 architecture 기반 deep semantic segmentation model AUC-ROC 0.77 단위없음 0.87 단위없음
    2 암 전이 유무 판단 Image Classification DeepLabV3 architecture 기반 deep semantic segmentation model AUC-ROC 0.88 단위없음 0.9 단위없음
    3 악성정도 감별(이진) Image Classification DeepLabV3 architecture 기반deep semantic segmentation model AUC-ROC 0.89 단위없음 0.9 단위없음
    4 병변(결절) 위치 검출 Object Detection DeepLabV3 architecture 기반deep semantic segmentation model DSC 0.76 단위없음 0.78 단위없음
    5 갑상선암 위치 추정 Object Detection DeepLabV3 architecture 기반deep semantic segmentation model DSC 0.75 단위없음 0.78 단위없음
    6 악성 종양세포 위치 검출 Object Detection DeepLabV3 architecture 기반deep semantic segmentation model DSC 0.78 단위없음 0.79 단위없음

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2021.06.30 데이터 최초 개방  

    구축 목적

    • 의료 진단에서 활용될 수 있는 의료 인공지능 개발이 세계적으로 소개되고 있지만 민감한 의료 정보를 담고 있기 때문에 접근할 수 있는 오픈소스 의료 데이터의 종류가 제한적임.
    • 따라서 갑상선암 진단에 활용할 수 있는 3종류의 갑상선암 의료 영상 데이터셋을 구축하여 영상 진단 판독을 보조할 수 있는 의료 인공지능 개발을 도모하고 의료 산업의 발전을 기대함.

    활용 분야

    • 의료 영상 판독 보조 소프트웨어 산업

    소개

    • 갑상선암 데이터셋은 갑상선암 진단에 가장 많이 활용되는 3가지 의료 이미지(갑상선 초음파, Neck CT, 병리 이미지)로 구성되어 있음
    • 갑상선암의 종양 감별을 위해 갑상선 초음파의 양/악성 데이터셋을 구축하였으며, 전이 유무 판단을 할 수 있는 갑상선 CT(Neck CT), 갑상선암의 세포병리학적 진단 기준인 베데스다 클래스를 활용하여 진단한 병리 이미지로 구성되어 있음

    구축 내용 및 제공 데이터량

    • 갑상선암 데이터셋은 병원으로부터 원본 의료 이미지 데이터 획득 후 익명화 및 비식별화 과정을 거친 뒤 전문의의 라벨링으로 구축되었다.

       

      구축 내용 및 제공 데이터량 구조테이블
      유형 구축 건수(건)
      분류 환자수 영상 수
      초음파 양성 1.040명 25,790장
      악성 3,960명 3,116,128명
      Neck CT 전이있음 232명 45,143장
      전이없음 270명 56,030장
      병리 이미지 양성 1,585명 2,731장
      악성 1,190명 2,111장

    대표도면

    대표도면 표
    모달리티 갑상선암 영상데이터 데이터
    포맷
    어노테이션
    항목
    메타데이터
    JSON 형식
    갑상선
    초음파
    갑상선암 진단 의료 영상-대표도면_1_갑상선암 영상데이터(갑상선 초음파) DICOM 단일 결절 부위
    Bounding Box
    체크
    · DICOM 파일(비식별화 후)
     - age, sex, manufacture, machine name
    · Json 파일
     - 환자:json = 1:n
    · Excel 파일
    - 양성/악성정보 비식별 환자ID, 나이, 성별
    Nect CT 갑상선암 진단 의료 영상-대표도면_2_갑상선암 영상데이터(Nect CT) DICOM 단일 결절 부위
    Bounding Box
    체크
    · DICOM 파일 (비식별화 후)
     - age, sex, matrix size, machine name, slice thickness, series description
    · Json 파일    - 환자:json = 1:n
    · Excel 파일 - 전이/비전이 정보, 비식별 환자ID, 나이, 성별, 병리결과, 흡연력
    병리
    이미지
    갑상선암 진단 의료 영상-대표도면_3_갑상선암 영상데이터(병리 이미지) Tif 세포 cluster
    Polygon
    Segmentation
    · Tif 파일
     - Scan machine name, scanning parameter, scanner manufacture
    · Json 파일
     - 환자:json = 1:n
    · Excel 파일
     - 양성/악성정보,
    비식별 환자ID, 나이, 성별

    필요성

    • 갑상선암 데이터셋은 의료진이 갑상선암 환자를 진단할 때 사용하는 대표적인 영상 3가지(갑상선 초음파, Neck CT, 병리 이미지) 카테고리로 구성
    • 현재 인공지능 기술은 오픈소스 활용 등으로 다양하게 발전하고 있으나, 의료 데이터는 의료 정보의특수성으로 확보가 어려움
    • 따라서, 갑상선암 진단을 위한3가지 종류의 데이터셋을 통해 의료 인공지능 기술 발전을 도모하고 인공지능 진단 모델을
    • 활용하여 의료진의 종합적이고 효율적인 진단을 통한 의료 서비스의 질적 향상을 기대함

    데이터 구조

    • 데이터구성
      데이터 구성 표
      모달리티 super
      category
      super
      category_
      name
      grp_id grp_name id name
      초음파 ULS Ultra
      sound
      1 악성 1 악성_K-TIRADS_1
      2 악성_K-TIRADS_2
      3 악성_K-TIRADS_3
      4 악성_K-TIRADS_4
      5 악성_K-TIRADS_5
      2 양성 6 양성_K-TIRADS_1
      7 양성_K-TIRADS_2
      8 양성_K-TIRADS_3
      9 양성_K-TIRADS_4
      10 양성_K-TIRADS_5
      Neck
      CT
      NCT Neck
      CT
      1 악성 1 악성_림프절
      2 양성 2 양성_림프절
      병리 PTH Pathology 1 악성 1 malignant(PTC)
      2 malignant
      (medullary_ca)
      3 malignant
      (anaplastic)
      4 malignant
      (etc_type)
      2 양성 5 benign
      6 atypical
      3 기타 7 cluster_box
      1. 1) 갑상선 초음파
        갑상선초음파 데이터구성 표
        No 영문명 한글명 필수여부 타입 길이 비고
        1 supercategory 슈퍼카테고리 Y string 3 ULS
        2 grp_id 그룹 아이디 Y number   1~2
        3 grp_name 그룹 이름 Y string 2 1 : 악성
        2 : 양성
        4 id 아이디 Y number   1~10
        5 name 이름 Y string 6 1 :
        악성_K-TIRADS_1
        2 :
        악성_K-TIRADS_2
        3 :
        악성_K-TIRADS_3
        4 :
        악성_K-TIRADS_4
        5 :
        악성_K-TIRADS_5
        6 :
        양성_K-TIRADS_1
        7 :
        양성_K-TIRADS_2
        8 :
        양성_K-TIRADS_3
        9 :
        양성_K-TIRADS_4
        10 :
        양성_K-TIRADS_5
      2. 2) 갑상선 CT
        갑상선 CT 데이터구성 표
        No 영문명 한글명 필수여부 타입 길이 비고
        1 supercategory 슈퍼카테고리 Y string 3 NCT
        2 grp_id 그룹 아이디 Y number   1~2
        3 grp_name 그룹 이름 Y string 2 1 : 악성
        2 : 양성
        4 id 아이디 Y number   1~2
        5 name 이름 Y string 6 1 : 악성_림프절
        2 : 양성_림프절
      3. 3) 병리 이미지
        병리 이미지 데이터구성 표
        No 영문명 한글명 필수여부 타입 길이 비고
        1 supercategory 슈퍼카테고리 Y string 3 PTH
        2 grp_id 그룹 아이디 Y number   1~3
        3 grp_name 그룹 이름 Y string 2 1 : 악성
        2 : 양성
        3 : 기타
        4 id 아이디 Y number   1~7
        5 name 이름 Y string 30 1 : malignant(PTC)
        2 : malignant(medullary_ca)
        3 : malignant(anaplastic)
        4 : malignant(etc_type)
        5 : benign
        6 : atypical
        7 : cluster_box
    • JSON image 포맷
      1. 1) 갑상선 초음파 및 갑상선 CT
        갑상선 초음파 및 CT JSON image 포맷 표
        No 영문명 한글명 필수여부 타입 길이 비고
        1 id 이미지 아이디 Y number   Default=1
        2 file_name 이미지 파일명 Y string 50 영상이미지
        파일명
        3 patient_id 비식별
        환자아이디
        Y string 7 비식별
        환자아이디
        4 series_id 시리즈 번호 Y string 7 환자의
        영상촬영 순번
        5 image_id 이미지 번호 Y string 7 시리즈의
        이미지 순번
        6 width 가로길이 Y number   1~9999999
        7 height 세로길이 Y number   1~9999999
        8 date_
        captured
        생성날짜 Y string 20 yyyy-mm-dd
        hh-mm-ss
        9 modality 모달리티 Y string 3 NCT : Neck CT
        ULS : Ultrasound
        10 manufacturer 검사장비 Y string 300 영상촬영
        장비 제조사
        11 manufacturer
        ModelName
        검사장비 모델 Y string 300 영상촬영
        장비 모델명
      2. 2) 갑상선 병리 이미지
        갑상선 병리 이미지 JSON image 포맷 표
        No 영문명 한글명 필수여부 타입 길이 비고
        1 id 이미지 아이디 Y number   Default=1
        2 file_name 이미지 파일명 Y string 50 영상이미지
        파일명
        3 patient_id 비식별
        환자아이디
        Y string 7 비식별
        환자아이디
        4 slide_id 슬라이드 번호 Y string 3 조직 부위의 번호
        5 scene_id 씬 번호 Y string 3 슬라이드의
        씬 순번
        6 width 이미지 가로길이 Y number   1~9999999
        7 height 이미지 세로길이 Y number   1~9999999
        8 modality 모달리티 Y string 3 PTH : Pathology
        9 microscope 현미경 Y string 300 현미경 이름
        10 imaging_
        device
        이미지 장비 Y string 300 이미지 처리 장비
        11 camera_
        adapter
        카메라 렌즈 Y string 300 렌즈모델명
    • JSON 어노테이션 포맷
      JSON 어노테이션 포맷 표
      No 영문명 한글명 필수여부 타입 길이 비고
      1 id 어노테이션
      아이디
      Y number   어노테이션
      아이디
      2 image_id 이미지 아이디 Y number   시리즈의
      이미지 순번
      3 category_id 카테고리
      아이디
      Y number   1,2,3
      5 iscrowd 어노테이션
      싱글/멀티 유형
      Y number   0 : 싱글, 1 : 멀티
      6 area 어노테이션
      넓이
      Y number   bbox를 활용한 넓이
      7 bbox 어노테이션
      최대 Box 좌표
      Y array   [x1, y1, x2, y2]
      x,y는 float형식
      8 toolname 어노테이션
      툴 유형
      Y string 300 어노테이션 툴명
      9 segmentation 어노테이션
      좌표정보
      Y array   [x1, y1, x2, y2,
      ...., xn, yn]
      x,y는 float형식
      10 width 세그먼트
      가로길이
      Y number   픽셀 길이
      11 height 세그먼트
      세로길이
      Y number   픽셀 길이
  • 데이터셋 구축 담당자

    수행기관(주관) : 에이아이트릭스
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    유진규 02-569-5507 [email protected] · 데이터구축 총괄 · 갑상선암 데이터셋을 활용한 AI모델 개발
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    고신대복음병원 · 원본 데이터 제공 및 데이터 어노테이션
    비알프레임 · 데이터 익명화 작업 및 데이터 어노테이션 툴 개발
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    백원중(에이아이트릭스) 02-569-5507 [email protected]
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.