※오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
측면두부규격방사선사진(cephalography) 데이터
- 분야헬스케어
- 구분 안심존(오프라인)
- 유형 이미지
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2022-07-28 데이터 최초 개방 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2022-07-28 콘텐츠 최초 등록 소개
측면두부규격방사선 영상 이미지의 DICOM 데이터셋 구축 및 AI 모델 생성 시 활용 가능한 치아의 성별, 나이대 정보 제공 (12세 이상, 남/여)
구축목적
한국인의 골격적인 안면 분석 및 계측에 도움을 줄 수 있는 인공지능 기술 개발을 통한 부정교합 진단을 위한 데이터셋
-
메타데이터 구조표 데이터 영역 헬스케어 데이터 유형 이미지 데이터 형식 JPEG, JSON 데이터 출처 컨소시엄 병원 HIS/PACS 라벨링 유형 세그멘테이션 (계측점) 라벨링 형식 JSON 데이터 활용 서비스 부정교합 진단 AI 데이터 구축년도/
데이터 구축량2021년/이미지 30,199장, 어노테이션 파일 30,199장 -
1. 데이터 구축 규모
- 최종 데이터: 이미지 30,199장 어노테이션 파일 30,199장
1. 데이터 구축 규모 데이터명 포맷 구축량 데이터 설명 측면두부규격방사선사진 데이터 JPEG,JSON 가공데이터 30,199장 측면두부규격방사선사진 데이터는 부정교합 환자의 형태분석, 성장분석, 기능분석 및 치료분석을 위해 필요. 악안면 부위의 복잡성을 기하학적 도해로 요약한 것
2. 데이터 분포 : 하단 표 참조
2. 데이터 분포 구분 I급 부정교합 II급 부정교합 III급 부정교합 총합 (단위: 장) 남 여 합 남 여 합 남 여 합 10대 2,695 3,926 6,621 1,855 2,991 4,846 1,282 1,338 2,620 14,087 20대 1,890 2,495 4,385 1,302 2,655 3,957 979 976 1,955 10,297 총합 5,567 7,947 13,514 4,063 7,285 11,348 2,619 2,718 5,337 30,199 - 최종 데이터: 이미지 30,199장 어노테이션 파일 30,199장
-
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드가. AI 기반 측면두부규격방사선 분석모델
- 관련 연구
– AI의 정밀한 학습을 위해 필수적인 학습용 데이터의 수와 환자의 임상정보(나이, 성별)은 고려되지 않았고, 제시조차 되지 않았음
– 후향적 학습 데이터로 제한되어 계측점이 측정되었으며, AI 모델을 검증할 수 있는 전향적 분석은 연구되지 않았음
– 대부분의 모델은 4mm 미만의 허용 오차 안에서 개발되었고, 두개골 영역과 gonion과 같이 파생된 계측점의 정확도는 매우 낮음
– 문헌에 보고된 인간과 AI간 계측점 측정시 오차는 평균 1.46-2.97mm 범위이며, 이는 임상적으로 유의미하고 환자의 진단 및 치료계획 수립의 변화를 가져옴(표 1.)
- 필요성
– 정밀한 AI 기반 측면두부규격방사선 분석모델과 같은 부정교합의 분석, 판독 진단등을 결합한 학습용 데이터의 구축 및 AI 응용 모델을 개발하기 위해서는 체계적으로 데이터의 획득, 가공 및 활용이 필요함
– 본 과제를 통해 정련된 데이터를 활용하여 비교적 객관적이고 robust한 AI 모델 개발이 요구됨
- 개발내용
– 다양한 의료기관에서 수집된 측면두부규격 방사선사진 및 전문가들이 직접 어노테이션 및 검수가 완료된 데이터를 학습하여 부정교합 진단에 필요한 19가지 랜드마크를 탐지하는 모델을 개발하였음
– 다양한 태스크에 대해 문제점을 파악하고 AI 모델을 설계 및 개발하는 과정을 학습동영상으로 제작하여 초보자들도 쉽게 AI 모델을 개발할 수 있도록 하였음
- 방법론
– 부정교합 진단에 필요한 측면두부규격 방사선사진에서의 19개 랜드마크를 탐지하기 위한 방법은 다양하지만 대표적으로 2가지 방법이 많이 채택되어 사용되고 있음
– Coordinate Regression : 이미지 분류 알고리즘에서 주로 사용되는 마지막 N개의 랜드마크의 x,y 좌표를 구하기 위한 Fully Connected Layer를 활용하여 값을 Regression 하는 방법임. 이 방법은 계산속도는 빠르지만 부정확하고 일반화하기 어려움
– Heatmap Regression : 이미지 분할 알고리즘에서 주로 사용되는 각 픽셀의 Class를 분리하여 값을 Regression 하는 방법임. 이 방법은 정확도가 높지만 계산량이 많음
– 본 사업에서는 다양하고 최대한 많은 측면두부규격 방사선사진을 확보하고 어노테이션하는 것이 목적이기 때문에, 계산량이 많은 모델을 개발하는 것이 비효율적이라 판단되어 Coordinate Regression 방법을 채택하여 모델을 설계하였음
- 모델 설계
– Coordinate Regression은 비교적 정확도가 낮음. 이러한 단점을 해결하기 위해 랜드마크를 탐지하는 모델을 2단계로 분할하여 설계하였음
– 1단계에서는 19개의 랜드마크 위치를 대략적으로 추출함. 해당 단계에서 추출된 랜드마크 좌표를 중심으로 일정 크기만큼의 관심영역(RoIs)을 추출하고 각 관심영역은 정확한 랜드마크를 탐지하는 모델의 학습데이터로 사용됨(그림 3.)
그림 3. 대략적인 랜드마크 좌표 추출 모델(1단계)
– 2단계에서는 1단계에서 추출된 대략적인 랜드마크를 포함한 관심영역에서 정확한 랜드마크 위치를 추출함. 각 영역에서 추출된 랜드마크 위치는 원본 영상에 투영되어 최종 랜드마크 위치가 결정되어짐(그림 4.)
그림 4. 정확한 랜드마크 좌표 추출 모델(2단계)
– 최종적으로 모든 단계를 거친 측면두부규격 방사선사진에서 부정교합 진단을 위한 19개 랜드마크를 탐지하는 모델 구조는 아래와 같음(그림 5.)
그림 5. 측면두부규격 방사선사진에서의 랜드마크 탐지 모델 구조
- 성능 향상 기법
– 측면두부규격 방사선사진에서 랜드마크를 탐지하는 모델의 정확도를 향상시키기 위하여 각 단계별 성능 향상 기법을 적용하였음
– 먼저 다양한 기관에서 수집된 데이터의 질을 향상시키기 위하여 Contrast Limited Adaptive Histogram Equalization(CLAHE) 알고리즘을 적용하였음. CLAHE 알고리즘은 이미지를 일정한 크기를 가진 작은 블록으로 구분하고, 블록별로 히스토그램 균일화를 시행하여 이미지 전체에 대해 균일화를 달성하는 알고리즘임. 해당 알고리즘을 활용하여 뼈와 배경의 간격을 명확히 하는 성과를 달성하였음(그림 6.)
그림 6. 히스토그램 적용 예시(왼쪽 원본, 오른쪽 적용 결과)
– 1단계에서는 대략적인 랜드마크의 좌표를 추출하는 것이 중요하므로 컨볼루션 신경망에서 최대한 넓은 영역의 특징을 확보하는 것이 중요함. 따라서 Dilated 컨볼루션 기법을 적용하여 해상도의 손실없이 receptive field의 크기를 확장하여 합성곱 연산을 수행할 때 최대한 넓은 영역의 특징을 고려하도록 설계함(그림 7.)
그림 7. Dilated 컨볼루션 예시
– 2단계에서는 Learning Rate가 스케쥴되어 감소하면서 학습되게 되는 Weight Decay 기법을 적용하였음. Weight Decay를 적용하게 되면 학습과정중 Learning rate가 서서히 감소되어 비교적 손실함수의 값이 Global minimum에 도달할 확률이 높아지게 되고, 과적합 방지의 효과를 얻을 수 있음 - 평가 지표
– 측면두부규격 방사선사진에서 랜드마크를 탐지하는 모델의 성능을 평가하기 위하여 모델이 예측한 랜드마크와 정답 랜드마크와의 거리인 Mean Radial Error를 적용함. Mean Radial Error의 계산식은 아래와 같음(그림 8.)
그림 8. Mean Radial Error 계산식
- 성능 평가 결과
– 테스트 데이터셋 2000장에 대하여 19개 랜드마크에 대한 평균 Mean Radial Error를 계산한 결과는 아래 표와 같음(표 2.)성능 평가 결과 표 2. 19개 랜드마크에 대한 Mean Radial Error Landmarks Mean Radial Error (mm) Landmarks Mean Radial Error (mm) 1. Nasion 1.35 11. Constrcted conion 4.08 2, Sella 0.94 12. Pogonion 1.29 3. Articulare 1.58 12. Menton 1.18 4. Orbitale 2.35 14. Anterior nasal spine 1.67 5. Porion 2.39 15. Posterior nasal spine 1.74 6. A Point 1.8 16. Gnathion 1.16 7. B Point 2.63 17. L1 incisal tip 0.96 8. U1 incisal tip 0.86 18. Labrale inferius 2.08 9. Labrale superius 2.2 19. Pronasale 1.47 10. Soft tissue Pogonion 3.41 Average 1.85
– 모델 성능 평가 결과, 평균 1.85mm로 목표로 설정한 2,5mm 이하를 달성함
– 성능 평가 과정중, 테스트 데이터셋 2000장 중에서 이상치 데이터 2장을 발견하여 2장을 제외한 평균 Mean Radial Error 결과는 아래와 같음(표 3.)성능 평가 결과 표 3. 이상치 데이터 2장을 제외한 Mean Radial Error 결과 Landmarks Mean Radial Error (mm) Landmarks Mean Radial Error (mm) 1. Nasion 1.35 11. Constrcted conion 1.96 2, Sella 0.94 12. Pogonion 1.29 3. Articulare 1.58 12. Menton 1.18 4. Orbitale 2.35 14. Anterior nasal spine 1.67 5. Porion 2.39 15. Posterior nasal spine 1.74 6. A Point 1.8 16. Gnathion 1.16 7. B Point 2.63 17. L1 incisal tip 0.96 8. U1 incisal tip 0.86 18. Labrale inferius 2.08 9. Labrale superius 2.2 19. Pronasale 1.47 10. Soft tissue Pogonion 3.41 Average 1.74
– 11번 랜드마크인 Constructed conion의 Mean Radial Error가 4.08mm에서 1.96mm로 감소하였고, 이에 따라 평균은 1.85mm에서 1.74mm로 감소하였음
- 관련 연구
-
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 측면두부규격 방사선사진 랜드마크 Dectection AI 성능 Object Detection ResNet-50 MRE 2.5 mm 1.737 mm 2 측면두부규격 방사선사진 랜드마크 Dectection AI 성능 Object Detection ResNet-50 SDR 90 % 94.7 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드그림1. 어노테이션 표시 예시
그림2. json 형식
데이터 구성
데이터 구성 Key Description Type _id 히스토리 아이디 ObjectId annotationId 어노테이션 아이디 String readingStatus 상태코드 String userId 생성자 String createDtime 생성시간 String object 어노테이션 객체 Array 어노테이션 포맷
어노테이션 포맷 Key Description Type 어노테이션 객체 정보 object 어노테이션 객체 Array itemId 아이템 아이디 String type 아이템 타입 String creator 아이템 생성자 String createDtime 생성시간 String updateDtime 수정시간 String roles 권한 Array isFlipV 이미지 회전여부(Vertical) Boolean isFlipH 이미지 회전여부(Horizontal) Boolean angle 이미지 회전율(rotate) Int32 properties 아이템 정보 Object position 아이템 좌표 Array color 아이템 색상 String item 텍스트 정보 Array type 텍스트 타입 String properties 텍스트 정보 Object position 텍스트 좌표 Array color 텍스트 색상 String font 텍스트 글꼴 String fontSize 텍스트 크기 String text 텍스트 데이터 String 실제 예시
-
데이터셋 구축 담당자
수행기관(주관) : 연세대학교 산학협력단
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 최윤정 02-2228-3101 [email protected] · 총괄책임자 수행기관(참여)
수행기관(참여) 기관명 담당업무 국민보험공단일산병원 · 데이터 획득, 구축, 검수 서울아산병원 · 데이터 검수 헬스허브 · AI 모델 개발, AI 개발 지원, 외부 품질검증 대응 연세고운미소치과의원 · 데이터 획득, 구축 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 최윤정 02-2228-3101 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.