※온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
퇴행성 척추질환 진단 및 치료를 위한 멀티모달리티 데이터
- 분야헬스케어
- 구분 안심존(온라인)
- 유형 이미지
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2022-07-13 데이터 최초 개방 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2022-07-13 콘텐츠 최초 등록 소개
8개의 의료기관에서 획득한 4가지 퇴행성 척추질환 1,393,475건 이상의 다양한 영상을 Annotaion한 데이터셋으로, 개인정보를 비식별처리하여 개인정보 보호이슈를 해결한 퇴행성 척추질환 진단 및 치료를 위한 학습용 데이터 확보
구축목적
경추, 흉추, 요추의 퇴행성 척추질환(추간판 질환 및 협착증 질환)에 대한 정상 및 질환 빅데이터를 확보하고 인공지능을 기반으로 하여 영상의학적 진단과 환자의 주증상과 관련있는 임상적 진단의 상관관계 분석을 위한 학습용 데이터셋
-
메타데이터 구조표 데이터 영역 헬스케어 데이터 유형 이미지 데이터 형식 jpg 데이터 출처 의료기관 라벨링 유형 세그멘테이션(이미지) 라벨링 형식 JSON 데이터 활용 서비스 AI 기반 퇴행성 척추질환 치료 분석 의료 서비스 제공 데이터 구축년도/
데이터 구축량2021년/8,236명(1,393,475건) -
1. 데이터셋 규모
- 3가지 퇴행성 척추질환 대상자 3,000명 이상, 10,000건 이상의 이미지 데이터
- 4종 이상의 퇴행성 척추질환 포함
1. 데이터셋 규모 임상질환 목표 건수
(명)X-ray
(영상)MRI
(영상)CT
(영상)퇴행성 경추협착증 (DCS) 환자: 1,371
정상: 1,000환자: 2,431
정상: 3,507환자: 62,137
정상: 41,787환자: 126,650
정상: 69,306흉추 척수증 (DTM) 환자: 217 환자: 14,440 환자: 49,397 퇴행성 요추디스크 질환 (DLD) 환자: 2,533 환자: 4,794 환자: 115,652 환자: 380,883 퇴행성 요추 협착증 질환 (DLS) 환자 3,115 환자: 5,573 환자: 129,861 환자: 387,057 합계 8,236 16,305 363,877 1,013,293 2. 데이터 분포
- 연령, 성별 등 인구학적 특성을 고려하여 편중되지 않는 데이터를 수집할 수 있도록 설계
환자군이 퇴행성 질환 특성상 고연령층에 분포되어 있어, 실제 유병율을 고려하여 연령대 분포를 설정
2. 데이터 분포 구분 정상/질환군 분포 연령대 분포 성별분포 퇴행성 경추협착증 (DCS)A11:D25B18A11A11:D24 정상군:42%(1,000)
질환군:58%(1,371)
검진용 데이터, 단순 요추
염좌 등 경증 데이터50세이하:38%(906)
57-62세:36%(843)
63세이상:26%(622)남:여 (1:1) 흉추 척수증 (DTM) 해당 없음 56세이하:29%(64)
57-71세:36%(78)
72세이상:35%(75)남:여 (1:1) 퇴행성 요추디스크 질환 (DLD) 검진용 데이터, 단순 요추
염좌 등 경증 데이터53세이하:34%(838)
54-67세:33%(847)
68세이상:32%(818)남:여 (1:1) 퇴행성 요추 협착증 질환 (DLS) 해당 없음 59세이하:32%(937)
60-69:32%(953)
70세이상:36%(1,057)남:여 (1:1) -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드1. 후종인대골화증 검출 알고리즘
- 모델 학습
- 데이터는 입력 CT 영상과 골화증 영역을 가리키는 annotation 지표를 사용. 특징 추출 모델로 사용된 YOLO는 하나의 convolutional network가 한 번에 여러개의 영상 내 영역을 예측해내고, class probability를 single regression을 통해 분석. 모델 내 복잡한 파이프라인이 없어 학습 속도가 빠르며, 전체 이미지를 보고 결과를 추정하기 때문에 class에 대한 맥락적 이해도가 높고, R-CNN 계열 모델보다 검출 성능이 높다고 보고됨.
1. 후종인대골화증 검출 알고리즘 모델 학습 학습(Training) 검증(Validation) 시험(Test) 개요 – YOLO사용 – 학습도중 모델의 성능 평가 – 학습 이후 모델의 성능평가
– PR Curve 등데이터 비율 648장(60%) 216장(20%) 216장(20%)
2. 요추 분할 모델 및 디스크 높이 측정 알고리즘
- 모델 학습
- 기존에 널리 이용되는 Segmentation 모델인 U-net architecture를 기반으로 하며, 모델의 Feature 를 찾기 위해 데이터를 다운 샘플링 할때 Crop 및 복사를 해둔 데이터에 Attention Gate 를 적용한 모델.
- 전체 데이터의 20%를 Test에 사용하고, 남은 80%를 10배수 Augmentation 하고, 그 중 60%를 학습에 사용
[사용된 Attention U-Net 아키텍처]
2. 요추 분할 모델 및 디스크 높이 측정 알고리즘 학습(Training) 검증(Validation) 시험(Test) 개요 – Attention U-net 사용 – 학습도중 모델의 성능 평가
– Dice Coefficient Loss 등– 학습 이후 모델의 성능평가
– Dice Coefficient Score 등데이터 비율 23776장 5944장 746장 - Predict 결과물의 각도와 거리 측정
- Predict mask 이미지의 외곽선을 추출하는 contour 기능을 이용하여 4번 5번 요추를 검출하고, 해당 데이터의 각도와 거리 측정
- 측정된 각도와 거리를 실제 측정값과 비교하여 Pearson-Correlation 분석
[요추 4, 5번 간의 디스크 높이 및 각도 측정]
3. T2 Axial에서의 척수 영역 분할 및 면적 측정 모델
- 모델 학습
- 바이오 의료 영상 분야에서 분할을 목적으로 만들어진 모델을 사용하여 학습을 진행.
- Erode 및 Dilate, Median Blur를 이용해 이미지 후처리. Noise 및 Hole 제거
[T2 MRI에서 척수 영역 분할 모델 개요]
- 척추 면적 측정
- Dicom Header의 Pixel Spacing 정보를 통해 AI 결과에 대한 면적(mm2) 측정
[척추 영역 면적 측정]
4. 서비스 활용 시나리오
- AI 기반 퇴행성 척추질환 치료 분석 의료 서비스 제공
– 퇴행성 척추질환 분야에서 멀티모달리티 학습 데이터를 활용하여 실제 의료현장에서 의료진의 효용성을 높일 수 있는 분야
– 개별적 연구진이 도출할 수 없는 연구 분야에 AI 빅데이터 기반의 연구로 최적의 치료 모델 구축 가능하며 표준 치료를 위한 가이드라인을 제시할 수 있음.
– 오랜 수련 기간 (의과대학 6년, 수련의/전공의 5년, 임상강사 2년)이 걸리는 의학도제식 의학교육에서 인공지능 기반 예후 예측 모델 도입으로 빠른 시간 안에 정확한 진단을 내릴 수 있는 진단 툴 개발 가능
– 다양한 척추 질환 관련 인공지능 연구개발에 활용 될 수 있음
– 주요 척추질환의 멀티모달리티 영상데이터와 CDW에서 추출된 임상 데이터를 이용한 다양한 진단 프로토콜, 약물 사용 패턴 연구, 의료비용 연관성 (cost-effectiveness)
– 연구가 가능하여 수가, 보험등재 여부 등 주요 의료 정책 결정에 반영 가능함 - 수익 모델 개발 및 서비스 제공
– 직접 수익 모델 개발
: 원시 및 가공 데이터셋 판매, 데이터 이용 기간제 가입료 및 수수료, 관련 컨설팅, 수요 요청기반 데이터 분석료, 분석 API 사용료 등 수익 모델 적용
– 부가 수익 모델 개발
: 공공 기관의 정책 발굴, 산업 현황 조사 등의 통계 조사비, 대국민 서비스 이용 수수료 등의 부가 수익 모델 추진 - 연관 산업 관련 AI 생태계 구축
– 연관 산업 관련 한국의료기기산업진흥재단, 척추치료기기명품화연구회, 생체의료소재부품센터, 헬스케어로봇실증센터, 생활지원로봇센터, 스마트가전혁신지원센터, 고령친화산업지원센터 등 연계 산업 인프라를 활용한 지역 연계 활성화 추진
- 모델 학습
-
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 척추 면적 측정(T2 Axial) Object Detection U-Net Correlation 0.75 단위없음 0.83 단위없음 2 디스크 높이 측정 Object Detection U-Net, Attention U-Net Correlation 0.7 단위없음 0.71 단위없음 3 척수 영역 분할(T2 Axial) Image Classification U-Net DSC 0.8 단위없음 0.95 단위없음 4 요추 분할 결과 Image Classification U-Net, Attention U-Net DSC 0.85 단위없음 0.92 단위없음 5 후종인대 골화증 영역 검출 모델 Object Detection YOLO Sensitivity 75 % 81 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드대표도면
- 데이터 종류 예시
대표도면 데이터 종류 예시 데이터 종류 경추x-ray 흉추 MRI 흉추CT 예시 데이터 구성 경추 디스크의 높이
경추 각 추체에 대한 bounding boxT2 axial image에서 흉추5-6번 구간의 면적
T2 axial image에서 척수 영역에 대한 외곽선흉추골화증평가
흉추골화증 병변에 대한 bounding box데이터 포맷 원본: dicom,
학습데이터: jpg
어노테이션: txt
ROI: JSON원본: dicom
학습데이터: jpg
어노테이션: txt
ROI: NIfTI원본: dicom
학습데이터: jpg
어노테이션: txt
ROI: JSON - 질환별 라벨링 예시
대표도면 질환별 라벨링 예시 구분 X-ray MRI CT 퇴행성 경추협착증 (DCS) 데이터 포맷 dicom 포맷, json 포맷 dicom 포맷, json 포맷 dicom 포맷, json 포맷 대표도면 질환별 라벨링 예시 구분 MRI CT 흉추 척수증 (DTM) 데이터 포맷 dicom 포맷, json 포맷 dicom 포맷, json 포맷 대표도면 질환별 라벨링 예시 구분 X-ray MRI CT 퇴행성 요추디스크 질환 (DLD) 데이터 포맷 dicom 포맷, json 포맷 dicom 포맷, json 포맷 dicom 포맷, json 포맷 대표도면 질환별 라벨링 예시 구분 X-ray MRI CT 퇴행성 요추 협착증 질환 (DLS) 데이터 포맷 dicom 포맷, json 포맷 dicom 포맷, json 포맷 dicom 포맷, json 포맷 - DCS 라벨링데이터 실제예시
- Json 형식
- 속성 정의
DCS 라벨링데이터 실제예시 속성 정의 No 항목 길이 타입 필수여부 한글명 영문명 1 어노테이션 정보 annotation Object 1–1 데이터 분류 DATA_CATEGORY Array 1–1–1 후종인대 C2 유무 C2 Number 1–1–2 후종인대 C3 유무 C3 Number 1–1–3 후종인대 C4 유무 C4 Number 1–1–4 후종인대 C5 유무 C5 Number 1–1–5 후종인대 C6 유무 C6 Number 1–1–6 후종인대 C7 유무 C7 Number 1–1–7 탈출증 유무 C3-4 유무 C34 Number 1–1–8 탈출증 유무 C4-5 유무 C45 Number 1–1–9 탈출증 유무 C5-6 유무 C56 Number 1–1–10 탈출증 유무 C6-7 유무 C67 Number 1–1–11 추간판 탈출증 C3-4 유무 C34disk Number 1–1–12 추간판 탈출증 C4-5 유무 C45disk Number 1–1–13 추간판 탈출증 C5-6 유무 C56disk Number 1–1–14 추간판 탈출증 C6-7 유무 C67disk Number 1–2 어노테이션 질병분류 disease_category String Y 1–3 어노테이션 결과 데이터 ANNOTATION_DATA Array 1–3–1 저작도구 식별자 id Number 1–3–2 저작도구 타입 type String 1–3–3 라벨 label String 1–3–4 사각형 시작점 vMin Object 1–3–4–1 사각형 시작점 x 좌표 x Number 1–3–4–2 사각형 시작점 y 좌표 y Number 1–3–5 사각형 끝점 vMax Object 1–3–5–1 사각형 끝점 x 좌표 x Number 1–3–5–2 사각형 끝점 y 좌표 y Number 1–3–6 면적 area Number 1–3–7 거리 distMm Number 1–3–8 시작점 vs Object 1–3–8–1 시작점 x 좌표 x Number 1–3–8–2 시작점 y 좌표 y Number 1–3–9 끝점 ve Object 1–3–9–1 끝점 x 좌표 x Number 1–3–9–2 끝점 y 좌표 y Number 1–3–10 각도 angle Number 1–3–11 점 좌표 points Array 1–3–11–1 점 x 좌표 x Number 1–3–11–2 점 y 좌표 y Number 1–3–12 폴리건 범위 m_area Number 1–3–13 폴리건 범위 좌표 m_points Array 1–3–13–1 폴리건 범위 x좌표 x Number 1–3–13–2 폴리건 범위 y좌표 y Number 1–3–14 폴리건 개방 여부 m_isClosed Boolean 1–4 임상의료데이터 clinic Object Y 1–4–1 식별자 id String Y 1–4–2 진단명 name String Y 1–4–3 나이 age Number Y 1–4–4 성별 sex Number Y 2 데이터셋 정보 Dataset Object Y 2–1 데이터셋 식별자 identifier String Y 2–2 데이터셋 이름 name String Y 2–3 데이터셋 폴더 위치 src_path String Y 2–4 데이터셋 레이블 폴더 위치 label_path String Y 2–5 데이터셋 질병분류 diseases Number Y 2–6 데이터셋 카테고리 category Number Y 2–7 데이터셋 타입 type Number Y 3 이미지정보 Images Object 3–1 이미지 식별자 (파일명) identifier String 3–2 이미지 파일 확장자 type String 3–3 이미지 가로 크기 (픽셀) width Number 3–4 이미지 세로 크기 (픽셀) height Number 3–5 이미지 생성 일자 dataCaptured String
- Json 형식
- 데이터 종류 예시
-
데이터셋 구축 담당자
수행기관(주관) : 가톨릭대학교 산학협력단
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김진성 02-2258-6844 [email protected] · 데이터 구축 총괄 · 데이터 획득, 정제, 가공, 품질관리, 모델 개발 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜미소정보기술 · 데이터 저작도구 ㈜이너웨이브 · 데이터 품질 ㈜평화이즈 · 데이터 수집, 비식별 차의과대학교 산학협력단 · 데이터 획득, 정제 삼성서울병원 · 데이터 획득, 정제 경희대학교 산학협력단 · 데이터 획득, 정제 길의료재단 · AI 모델 개발 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 김진성 02-2258-6844 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.