※온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
NEW 무릎 관절염 켈그렌-로렌스 분류(K-L grade) 데이터
- 분야헬스케어
- 구분 안심존(온라인)
- 유형 센서 , 이미지
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2024-10-30 데이터 최종 개방 1.0 2024-06-28 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-06-28 산출물 공개 Beta Version 소개
- 무릎의 퇴행성 관절염 진단을 위한 켈그렌-로렌스 분류(K-L grade)가 라벨링된 무릎 AP X-Ray 이미지 데이터
구축목적
- 이미지 기반의 영상의학적 진단명과 환자의 증상 중심의 임상진단명의 상관관계 분석을 인공지능 머신러닝 시스템으로 분류하고 의료진의 최적인 진단 및 치료를 돕는 알고리즘 생성
-
메타데이터 구조표 데이터 영역 헬스케어 데이터 유형 센서 , 이미지 데이터 형식 txt 데이터 출처 병원 라벨링 유형 바운딩박스(이미지) 라벨링 형식 json 데이터 활용 서비스 무릎 질환 환자의 개인 맞춤형 치료를 위한 AI 개발 기회 제공, 치료 후 경과, 재활 모니터링을 위한 치료 수준 향상과 인공지능을 통한 질환 예후 예측 데이터 구축년도/
데이터 구축량2023년/54,942건 -
- 원천 데이터
원천 데이터 1차 경로 2차 경로 파일 포맷 제출 수량 최종 K 가명화된 환자 ID .dcm 54,942 총 수량 54,942 - 라벨링 데이터
라벨링 데이터 1차 경로 2차 경로 파일 포맷 제출 수량 최종 K 가명화된 환자 ID .json 54,942 총 수량 54,942 - K-L Grade 데이터 통계
K-L Grade 데이터 통계 No. 분류 데이터 수 비율 1 GRADE 1 21,372 38.90% 2 GRADE 2 11,255 20.49% 3 GRADE 3 9,962 18.13% 4 GRADE 0 9,061 16.49% 5 GRADE 4 3,292 5.99% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드- 무릎 AP X-Ray 이미지에서 무릎 관절염의 진단을 위한 K-L grade 등급 판정을 보조하는 인공지능 모델 개발
● 활용 모델
- 무릎 AP X-Ray 이미지로부터 K-L grade를 4 class(grade 1~4)로 진단하는 인공지능 모델을 개발함
- YOLOv5 official code에서 제공하는 classify 코드를 기반으로 학습을 수행함 (Jocher, G. (2020). YOLOv5 by Ultralytics (Version 7.0) [Computer software]. https://doi.org/10.5281/zenodo.3908559)● 학습 데이터
- 무릎 AP X-ray 데이터 및 K-L 등급을 포함하는 레이블링 데이터
- 학습 전처리를 위한 골극 바운딩 박스 레이블링 데이터● 전체 구축데이터 비율
- grade 1 : 38.90% (21,372)
- grade 2 : 20.49% (11,255)
- grade 3 : 18.13% (9,962)
- grade 4 : 6.00% (3,292)
- 정상 데이터(grade 0)는 학습에서 제외함● 모델 학습 과정별 데이터 비율
Train : Validation : Test = 37,163 : 4,589 : 4,129 (8:1:1)
■ Train
- grade 1 : 17,311
- grade 2 : 9,116
- grade 3 : 8,069
- grade 4 : 2,667
■ Validation
- grade 1 : 2138
- grade 2 : 1126
- grade 3 : 996
- grade 4 : 329
■ Test
- grade 1 : 1923
- grade 2 : 1013
- grade 3 : 897
- grade 4 : 296● 전처리
- 무릎 AP X-ray DICOM 데이터로부터 pixel_data를 추출하여 jpg 이미지로 변환함.
- 변환된 이미지로부터 골극 바운딩 박스 영역 내의 관심 영역을 추출하여 저장함.
- CLAHE(Contrast Limited Adaptive Histogram Equalization) 수행
- Zeropadding● 학습 방법
- yolov5 기반 사전학습된 분류 모델 이외에 다양한 CNN 모델을 적용하여 학습 모델을 개발함.
- 가장 높은 성능을 보인 DenseNet201 모델을 선정하여 하이퍼파라미터 튜닝을 통해 최종 모델을 개발함.
- loss function : CrossEntropy
- optimizer : Adam
- imgs : 512
- pretrained : True
- epoch : 100
- learning rate : 0.0001
- batch size : 8- 무릎 AP X-Ray 이미지에서 연골하 경화 등급 진단 모델 개발
● 활용 모델
- 무릎 AP X-Ray 이미지로부터 연골하 경화 등급을 3 class(grade 0~2)로 진단하는 인공지능 모델을 개발함
- YOLOv5 official code에서 제공하는 classify 코드를 기반으로 학습을 수행함 (Jocher, G. (2020). YOLOv5 by Ultralytics (Version 7.0) [Computer software]. https://doi.org/10.5281/zenodo.3908559)● 학습 데이터
- 무릎 AP X-ray 데이터 및 K-L 등급을 포함하는 레이블링 데이터
- 학습 전처리를 위한 연골하 경하 바운딩 박스 레이블링 데이터● 전체 구축데이터 비율
- grade 0 : 76.27% (41,903)
- grade 1 : 16.13% (8,863)
- grade 2 : 7.60% (4,176)● 모델 학습 과정별 데이터 비율
Train : Validation : Test = 43953 : 5494 : 5495 (8 : 1 : 1)
■ Train
- grade 0 : 33,569
- grade 1 : 7,089
- grade 2 : 3,295
■ Validation
- grade 0 : 4,133
- grade 1 : 916
- grade 2 : 445
■ Test
- grade 0 : 4,201
- grade 1 : 858
- grade 2 : 436● 전처리
- 무릎 AP X-ray DICOM 데이터로부터 pixel_data를 추출하여 jpg 이미지로 변환함.
- 변환된 이미지로부터 연골하 경하 바운딩 박스 영역 내의 관심 영역을 추출하여 저장함.
- CLAHE(Contrast Limited Adaptive Histogram Equalization) 수행
- Zeropadding● 학습 방법
- yolov5 기반 사전학습된 분류 모델 이외에 다양한 CNN 모델을 적용하여 학습 모델을 개발함.
- 가장 높은 성능을 보인 DenseNet201 모델을 선정하여 하이퍼파라미터 튜닝을 통해 최종 모델을 개발함.
- loss function : CrossEntropy
- optimizer : Adam
- imgs : 512
- pretrained : True
- epoch : 100
- learning rate : 0.0001
- batch size : 8 -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드- 데이터 구성
데이터 구성 Key Description Type annotation - array {} object area 바운딩박스 크기 number vMax 바운딩박스 좌표값 object x 바운딩박스 시작점 x좌표 number y 바운딩박스 시작점 y좌표 number vMin 바운딩박스 좌표값 object x 바운딩박스 시작점 x좌표 number y 바운딩박스 시작점 y좌표 number widtth 바운딩박스 가로 길이 number height 바운딩박스 세로 길이 number label 바운딩박스 라벨 string type 바운딩박스 타입 string id 바운딩박스 식별ID number images 이미지 object width 이미지 가로크기 number dataCaptured 이미지 생성일자 string height 이미지 세로크기 number dataInfo - array {} object Osteophyte 골극 number Subchondral_sclerosis 연골하 경화 number Joint_Space_Narrowing 관절강 협소화 number KL_Grade KL_Grade 정도 number Clinic_info 임상정보 object PatientID 식별 ID 정보 string Age 나이 number Sex 성별 number Diagnosis 진단명 number Institution string string L/R number number - 어노테이션 포맷
어노테이션 포맷/caption> 구분 속성명 타입 필수여부 설명 범위 비고 1 annotation array Y - {} object 1-1 area number Y 바운딩박스 크기 1-2 vMax object Y 바운딩박 좌표값 1-2-1 x number Y 바운딩박스 시작점 x좌표 1 1-2-2 y number Y 바운딩박스 시작점 y좌표 1 1-3 vMin object Y 바운딩박 좌표값 1-3-1 x number Y 바운딩박스 시작점 x좌표 1 1-3-2 y number Y 바운딩박스 시작점 y좌표 1 1-4 widtth number Y 바운딩박스 가로 길이 3 1-5 height number Y 바운딩박스 세로 길이 3 1-6 label string Y 바운딩박스 라벨 1-7 type string Y 바운딩박스 타입 rect 1-8 id number Y 바운딩박스 식별ID 2 images object Y 이미지 2-1 width number Y 이미지 가로크기 512 2-2 dataCaptured string Y 이미지 생성일자 20200101 2-3 height number Y 이미지 세로크기 512 3 dataInfo array Y - {} object 3-1 Osteophyte number 골극 0=No
1=Possible
2=Definite
3=Moderate
4=Large3-2 Subchondral_sclerosis number 연골하 경화 0=No
1=Some
2=Severe3-3 Joint_Space_Narrowing number 관절강 협소화 0=No
1=Doubtful
2=Possible
3=Definite
4=Marked3-4 KL_Grade number KL_Grade 정도 0
1
2
3
44 Clinic_info object Y 임상정보 - 4-1 PatientID string Y 식별 ID 정보 6781904400 4-2 Age number Y 나이 40 4-3 Sex number Y 성별 1=남
2=여4-4 Diagnosis number Y 진단명 1=정상
2=퇴행성슬관절4-5 Institution string Y 기관 01=서울성모병원
02=은평성모병원
03= 성빈센트병원
05=서울보라매병원4-6 L/R number Y 좌/우 1=left
2=right- 데이터 포맷
데이터 포맷 데이터 포맷 임상 데이터 : 텍스트
영상 이미지 : DICOM임상 데이터 : 텍스트
영상 이미지 : DICOM임상 데이터 : txt
영상 이미지 : DICOM
라벨링 : json*CSV,
DCM
json- 실제예시
-
데이터셋 구축 담당자
수행기관(주관) : 가톨릭대학교 산학협력단
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 정준용 02-2258-6254 [email protected] 데이터 수집, 추출 및 정제, 가공 및 검수, 주관 행정 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜미소정보기술 데이터 가공/검수, 저작도구 툴 제공 (의료) 길의료재단 AI 모델 개발 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 정준용 02-2258-6254 [email protected] AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 김광기 032-458-2879 [email protected] 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 박원형 02-2205-0552 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.