AI-Hub

본 데이터는

오프라인 안심존 데이터

※오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

입니다.

#헬스케어 의료 # 헬스케어 건강서비스 # 측면두부규격방사선사진 # 부정교합 # 빅데이터 # 진단 및 치료계획 자동화 # 치아

측면두부규격방사선사진(cephalography) 데이터

분야헬스케어
구분 안심존(오프라인)
유형 이미지

구축년도 : 2021 갱신년월 : 2022-07 조회수 : 4,526 다운로드 : 51

소개 이용신청

※ 내국인만 데이터 신청이 가능합니다.

문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.0	2022-07-28	데이터 최초 개방

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2022-07-28	콘텐츠 최초 등록

소개

측면두부규격방사선 영상 이미지의 DICOM 데이터셋 구축 및 AI 모델 생성 시 활용 가능한 치아의 성별, 나이대 정보 제공 (12세 이상, 남/여)

구축목적

한국인의 골격적인 안면 분석 및 계측에 도움을 줄 수 있는 인공지능 기술 개발을 통한 부정교합 진단을 위한 데이터셋

메타데이터 구조표
데이터 영역	헬스케어	데이터 유형	이미지
데이터 형식	JPEG, JSON	데이터 출처	컨소시엄 병원 HIS/PACS
라벨링 유형	세그멘테이션 (계측점)	라벨링 형식	JSON
데이터 활용 서비스	부정교합 진단 AI	데이터 구축년도/ 데이터 구축량	2021년/이미지 30,199장, 어노테이션 파일 30,199장

1. 데이터 구축 규모

최종 데이터: 이미지 30,199장 어노테이션 파일 30,199장

1. 데이터 구축 규모
데이터명	포맷	구축량	데이터 설명
측면두부규격방사선사진 데이터	JPEG,JSON	가공데이터 30,199장	측면두부규격방사선사진 데이터는 부정교합 환자의 형태분석, 성장분석, 기능분석 및 치료분석을 위해 필요. 악안면 부위의 복잡성을 기하학적 도해로 요약한 것

2. 데이터 분포 : 하단 표 참조

2. 데이터 분포
구분	I급 부정교합			II급 부정교합			III급 부정교합			총합
(단위: 장)	남	여	합	남	여	합	남	여	합	총합
10대	2,695	3,926	6,621	1,855	2,991	4,846	1,282	1,338	2,620	14,087
20대	1,890	2,495	4,385	1,302	2,655	3,957	979	976	1,955	10,297
총합	5,567	7,947	13,514	4,063	7,285	11,348	2,619	2,718	5,337	30,199

저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드

AI 모델 상세 설명서 다운로드

가. AI 기반 측면두부규격방사선 분석모델

관련 연구
– AI의 정밀한 학습을 위해 필수적인 학습용 데이터의 수와 환자의 임상정보(나이, 성별)은 고려되지 않았고, 제시조차 되지 않았음
– 후향적 학습 데이터로 제한되어 계측점이 측정되었으며, AI 모델을 검증할 수 있는 전향적 분석은 연구되지 않았음
– 대부분의 모델은 4mm 미만의 허용 오차 안에서 개발되었고, 두개골 영역과 gonion과 같이 파생된 계측점의 정확도는 매우 낮음
– 문헌에 보고된 인간과 AI간 계측점 측정시 오차는 평균 1.46-2.97mm 범위이며, 이는 임상적으로 유의미하고 환자의 진단 및 치료계획 수립의 변화를 가져옴(표 1.)
필요성
– 정밀한 AI 기반 측면두부규격방사선 분석모델과 같은 부정교합의 분석, 판독 진단등을 결합한 학습용 데이터의 구축 및 AI 응용 모델을 개발하기 위해서는 체계적으로 데이터의 획득, 가공 및 활용이 필요함
– 본 과제를 통해 정련된 데이터를 활용하여 비교적 객관적이고 robust한 AI 모델 개발이 요구됨
개발내용
– 다양한 의료기관에서 수집된 측면두부규격 방사선사진 및 전문가들이 직접 어노테이션 및 검수가 완료된 데이터를 학습하여 부정교합 진단에 필요한 19가지 랜드마크를 탐지하는 모델을 개발하였음
– 다양한 태스크에 대해 문제점을 파악하고 AI 모델을 설계 및 개발하는 과정을 학습동영상으로 제작하여 초보자들도 쉽게 AI 모델을 개발할 수 있도록 하였음
방법론
– 부정교합 진단에 필요한 측면두부규격 방사선사진에서의 19개 랜드마크를 탐지하기 위한 방법은 다양하지만 대표적으로 2가지 방법이 많이 채택되어 사용되고 있음
– Coordinate Regression : 이미지 분류 알고리즘에서 주로 사용되는 마지막 N개의 랜드마크의 x,y 좌표를 구하기 위한 Fully Connected Layer를 활용하여 값을 Regression 하는 방법임. 이 방법은 계산속도는 빠르지만 부정확하고 일반화하기 어려움
– Heatmap Regression : 이미지 분할 알고리즘에서 주로 사용되는 각 픽셀의 Class를 분리하여 값을 Regression 하는 방법임. 이 방법은 정확도가 높지만 계산량이 많음
– 본 사업에서는 다양하고 최대한 많은 측면두부규격 방사선사진을 확보하고 어노테이션하는 것이 목적이기 때문에, 계산량이 많은 모델을 개발하는 것이 비효율적이라 판단되어 Coordinate Regression 방법을 채택하여 모델을 설계하였음
모델 설계
– Coordinate Regression은 비교적 정확도가 낮음. 이러한 단점을 해결하기 위해 랜드마크를 탐지하는 모델을 2단계로 분할하여 설계하였음
– 1단계에서는 19개의 랜드마크 위치를 대략적으로 추출함. 해당 단계에서 추출된 랜드마크 좌표를 중심으로 일정 크기만큼의 관심영역(RoIs)을 추출하고 각 관심영역은 정확한 랜드마크를 탐지하는 모델의 학습데이터로 사용됨(그림 3.)

그림 3. 대략적인 랜드마크 좌표 추출 모델(1단계)

– 2단계에서는 1단계에서 추출된 대략적인 랜드마크를 포함한 관심영역에서 정확한 랜드마크 위치를 추출함. 각 영역에서 추출된 랜드마크 위치는 원본 영상에 투영되어 최종 랜드마크 위치가 결정되어짐(그림 4.)

그림 4. 정확한 랜드마크 좌표 추출 모델(2단계)

– 최종적으로 모든 단계를 거친 측면두부규격 방사선사진에서 부정교합 진단을 위한 19개 랜드마크를 탐지하는 모델 구조는 아래와 같음(그림 5.)

그림 5. 측면두부규격 방사선사진에서의 랜드마크 탐지 모델 구조
성능 향상 기법
– 측면두부규격 방사선사진에서 랜드마크를 탐지하는 모델의 정확도를 향상시키기 위하여 각 단계별 성능 향상 기법을 적용하였음
– 먼저 다양한 기관에서 수집된 데이터의 질을 향상시키기 위하여 Contrast Limited Adaptive Histogram Equalization(CLAHE) 알고리즘을 적용하였음. CLAHE 알고리즘은 이미지를 일정한 크기를 가진 작은 블록으로 구분하고, 블록별로 히스토그램 균일화를 시행하여 이미지 전체에 대해 균일화를 달성하는 알고리즘임. 해당 알고리즘을 활용하여 뼈와 배경의 간격을 명확히 하는 성과를 달성하였음(그림 6.)

그림 6. 히스토그램 적용 예시(왼쪽 원본, 오른쪽 적용 결과)

– 1단계에서는 대략적인 랜드마크의 좌표를 추출하는 것이 중요하므로 컨볼루션 신경망에서 최대한 넓은 영역의 특징을 확보하는 것이 중요함. 따라서 Dilated 컨볼루션 기법을 적용하여 해상도의 손실없이 receptive field의 크기를 확장하여 합성곱 연산을 수행할 때 최대한 넓은 영역의 특징을 고려하도록 설계함(그림 7.)

그림 7. Dilated 컨볼루션 예시

– 2단계에서는 Learning Rate가 스케쥴되어 감소하면서 학습되게 되는 Weight Decay 기법을 적용하였음. Weight Decay를 적용하게 되면 학습과정중 Learning rate가 서서히 감소되어 비교적 손실함수의 값이 Global minimum에 도달할 확률이 높아지게 되고, 과적합 방지의 효과를 얻을 수 있음
평가 지표
– 측면두부규격 방사선사진에서 랜드마크를 탐지하는 모델의 성능을 평가하기 위하여 모델이 예측한 랜드마크와 정답 랜드마크와의 거리인 Mean Radial Error를 적용함. Mean Radial Error의 계산식은 아래와 같음(그림 8.)

그림 8. Mean Radial Error 계산식

성능 평가 결과
– 테스트 데이터셋 2000장에 대하여 19개 랜드마크에 대한 평균 Mean Radial Error를 계산한 결과는 아래 표와 같음(표 2.)

성능 평가 결과 표 2. 19개 랜드마크에 대한 Mean Radial Error
Landmarks	Mean Radial Error (mm)	Landmarks	Mean Radial Error (mm)
1. Nasion	1.35	11. Constrcted conion	4.08
2, Sella	0.94	12. Pogonion	1.29
3. Articulare	1.58	12. Menton	1.18
4. Orbitale	2.35	14. Anterior nasal spine	1.67
5. Porion	2.39	15. Posterior nasal spine	1.74
6. A Point	1.8	16. Gnathion	1.16
7. B Point	2.63	17. L1 incisal tip	0.96
8. U1 incisal tip	0.86	18. Labrale inferius	2.08
9. Labrale superius	2.2	19. Pronasale	1.47
10. Soft tissue Pogonion	3.41	Average	1.85

표 2. 19개 랜드마크에 대한 Mean Radial Error

– 모델 성능 평가 결과, 평균 1.85mm로 목표로 설정한 2,5mm 이하를 달성함
– 성능 평가 과정중, 테스트 데이터셋 2000장 중에서 이상치 데이터 2장을 발견하여 2장을 제외한 평균 Mean Radial Error 결과는 아래와 같음(표 3.)

성능 평가 결과 표 3. 이상치 데이터 2장을 제외한 Mean Radial Error 결과
Landmarks	Mean Radial Error (mm)	Landmarks	Mean Radial Error (mm)
1. Nasion	1.35	11. Constrcted conion	1.96
2, Sella	0.94	12. Pogonion	1.29
3. Articulare	1.58	12. Menton	1.18
4. Orbitale	2.35	14. Anterior nasal spine	1.67
5. Porion	2.39	15. Posterior nasal spine	1.74
6. A Point	1.8	16. Gnathion	1.16
7. B Point	2.63	17. L1 incisal tip	0.96
8. U1 incisal tip	0.86	18. Labrale inferius	2.08
9. Labrale superius	2.2	19. Pronasale	1.47
10. Soft tissue Pogonion	3.41	Average	1.74

표 3. 이상치 데이터 2장을 제외한 Mean Radial Error 결과

– 11번 랜드마크인 Constructed conion의 Mean Radial Error가 4.08mm에서 1.96mm로 감소하였고, 이에 따라 평균은 1.85mm에서 1.74mm로 감소하였음

데이터 성능 점수

측정값 (%)

기준값 (%)

데이터 성능 지표

데이터 성능 지표
번호	측정항목	AI TASK	학습모델	지표명	기준값 점수	측정값 점수
1	측면두부규격 방사선사진 랜드마크 Dectection AI 성능	Object Detection	ResNet-50	MRE	2.5 mm	1.737 mm
2	측면두부규격 방사선사진 랜드마크 Dectection AI 성능	Object Detection	ResNet-50	SDR	90 %	94.7 %

※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

측면두부규격방사선사진(cephalography)-어노테이션 표시 예시 이미지 그림1. 어노테이션 표시 예시

측면두부규격방사선사진(cephalography)-Json 형식 이미지

그림2. json 형식

데이터 구성

데이터 구성
Key	Description	Type
_id	히스토리 아이디	ObjectId
annotationId	어노테이션 아이디	String
readingStatus	상태코드	String
userId	생성자	String
createDtime	생성시간	String
object	어노테이션 객체	Array

어노테이션 포맷

어노테이션 포맷
Key	Description	Type
	어노테이션 객체 정보
object	어노테이션 객체	Array
itemId	아이템 아이디	String
type	아이템 타입	String
creator	아이템 생성자	String
createDtime	생성시간	String
updateDtime	수정시간	String
roles	권한	Array
isFlipV	이미지 회전여부(Vertical)	Boolean
isFlipH	이미지 회전여부(Horizontal)	Boolean
angle	이미지 회전율(rotate)	Int32
properties	아이템 정보	Object
position	아이템 좌표	Array
color	아이템 색상	String
item	텍스트 정보	Array
type	텍스트 타입	String
properties	텍스트 정보	Object
position	텍스트 좌표	Array
color	텍스트 색상	String
font	텍스트 글꼴	String
fontSize	텍스트 크기	String
text	텍스트 데이터	String

실제 예시

측면두부규격방사선사진(cephalography)-어노테이션 포맷 실제 예시 이미지

데이터셋 구축 담당자

수행기관(주관) : 연세대학교 산학협력단

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
최윤정	02-2228-3101	[email protected]	· 총괄책임자

수행기관(참여)

수행기관(참여)
기관명	담당업무
국민보험공단일산병원	· 데이터 획득, 구축, 검수
서울아산병원	· 데이터 검수
헬스허브	· AI 모델 개발, AI 개발 지원, 외부 품질검증 대응
연세고운미소치과의원	· 데이터 획득, 구축

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
최윤정	02-2228-3101	[email protected]

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.

파일 목록

전체 다운로드 AI 허브 Shell 다운로드 AI 허브 오픈 API 이용안내

연관 데이터

비대면 진료를 위한 의료진 및 환자 음성

구음장애인 명령어 데이터

질병진단(유방암 조직, 부비동) 이미지

열화상 체온정보

근골격계 질환자 운동훈련 동영상 데이터

경동맥 혈관 CT 및 MRI 데이터

만성질환 관련 임상 및 생활습관 데이터

주요질환 이미지 합성데이터(CT)

측면두부규격방사선사진(cephalography) 데이터

데이터 개요

데이터 변경이력

데이터 히스토리

소개

구축목적

메타데이터 구조표

데이터 통계

교육활용 동영상

저작도구

저작도구 설명서 및 저작도구 다운로드

활용 AI 모델 및 코드

AI 모델 상세 설명서 다운로드

데이터 성능 지표

데이터 성능 점수

데이터 성능 지표

어노테이션 포맷 및 데이터 구조

설명서 및 활용가이드 다운로드

구축 업체

데이터셋 구축 담당자

수행기관(주관) : 연세대학교 산학협력단

수행기관(참여)

데이터 관련 문의처

안심존 소개

안심존 이용절차

안심존사용신청서 및 첨부서류목록

안심존 이용문의

파일 목록

연관 데이터