※온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2023-12-20 데이터 최종 개방 1.0 2023-07-27 데이터 개방(Beta Version) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-03-07 AI모델 수정 2024-01-12 산출물 전체 공개 소개
치과교정 분야에서 촬영 규격화된 임상사진 중 치과교정 및 보철분야 진단에 필요한 임상 정보 6종(구내사진 정면, 좌측면, 우측면, 상교합면, 하교합면 및 스마일 사진)에 대한 데이터셋
구축목적
공공 및 민간 인공지능 정보기술의 개발을 촉진하기 위한 치과 임상사진 이미지의 인공지능 학습용 데이터셋 구축 및 이용 환경의 제공 - 선제적인 치과 임상사진 이미지 데이터셋의 구축과 이에 기반한 기술개발 및 사업화로 국내 기업의 글로벌 경쟁력 선점
-
메타데이터 구조표 데이터 영역 헬스케어 데이터 유형 이미지 데이터 형식 데이터 출처 컨소시엄 병원 PACS 라벨링 유형 세그멘테이션(이미지) / 폴리라인(이미지) / 분류태그(이미지) 라벨링 형식 JSON 데이터 활용 서비스 부정교합 진단 AI 데이터 구축년도/
데이터 구축량2022년/이미지 7,092명 분(총 42,552장 이미지) -
1. 데이터 구축 규모
1. 데이터 구축 규모 데이터 유형 구축 데이터량 원천데이터 형식 라벨링 형식 라벨링 유형 이미지 7,092명 jpg json 세그멘테이션 (42,552 장) 폴리라인 분류태그 2. 데이터 분포
2. 데이터 분포 A자료 B자료 총합 10대 20대 30대 40대 총계 총계 1,455명 1,723명 1,401명 1,402명 5,981명 1,111명 7,092명 (8,730장) (10,338장) (8,406장) (8,412장) (35,886장) (6,666장) (42,552장) * 1명의 데이터셋은 6장의 이미지로 구성
* 치료 후 자료 1,111명의 데이터셋은 치료 전 자료에 pair가 존재함
-
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드학습모델 후보군
학습모델 후보군 데이터명 라벨링 대상 라벨링 방법 학습모델 후보군 구내 임상사진 치아경계 Polygon MS R-CNN, 충치영역 Polyline DeepLab v3.1 치축 Polyline 대구치관계 분류 DenseNet121 스마일 사진 입술경계 Polygon MS R-CNN, 안모 정중선 Polyline DeepLab v3.1 학습모델 후보군별 선정기준 및 적합성 검토
학습모델 후보군별 선정기준 및 적합성 검토 후보 모델명 내 용 선정기준 적합성 검토 기준 값 1 DenseNet 121 학습 모델명: 최신성 하 - 구내 임상사진을 입력 받아 대구치관계 클래스로 분류 대구치관계 분류 안정성 상 - 2016년 발표된 모델로, 다수의 구현사례가 존재하며, 학습용이성, 사전학습모델 제공, 안정성 측면에서 뛰어남 입력: 이미지 성능지표 중 - 성능은 최근에 발표된 모델에 비해 다소 낮음 출력: 클래스 학습용이성 상 구조: CNN 기반 사전학습모델 상 2 EfficientDet 학습 모델명: 최신성 중 - 구내 임상사진을 입력 받아 상실치아를 식별 상실치아 인식 모델 안정성 상 - 2019년 발표된 모델로, 다수의 구현사례가 존재함 입력: 이미지 성능지표 상 - 다수의 사례에서 객체인식모델로 적용되었으며 높은 성능을 보여주고 있음 출력: 클래스 학습용이성 중 - EfficientNet을 기본으로 하고 있음. 모델의 크기가 증가할수록 많은 리소스를 요구하고 있어서 B4 이상 학습은 많은 GPU 메모리를 요구함 구조: CNN 기반 사전학습모델 상 3 Mask Scoring R-CNN 학습 모델명: 최신성 하 - 이미지를 입력받아 특정 클래스의 세그멘테이션을 식별 영역분할(폴리곤, 폴리라인) 안정성 상 - 2019년에 발표된 모델로 Mask R-CNN의 단점을 보강한 모델 입력: 이미지 성능지표 중 - 검증된 구현체가 존재함 출력: 세그먼테이션 클래스 학습용이성 중 구조: CNN 기반 사전학습모델 중 4 DeepLab v3.1 학습 모델명: 최신성 하 - 이미지를 입력받아 특정 클래스의 세그멘테이션을 식별 영역분할(폴리곤, 폴리라인) 안정성 상 - 2014년에 발표된 모델을 2017년에 업그레이드한 모델로 이미지 세그멘테이션에서 널리 사용되는 모델 입력: 이미지 성능지표 중 - 다양한 구현체가 존재함 출력: 세그먼테이션 클래스 학습용이성 상 구조: CNN 기반 사전학습모델 상 * MS R-CNN, DenseNet 121 모델로 최종선정
학습 모델 개발
○ 영역 탐지 관련 모델: mask scoring R-CNN
- 치과 임상사진 이미지 상 중요한 임상 정보 영역의 분할 경계를 탐지
- 치아 경계, 치축, 안모 중심선, 충치, 입술 경계에 해당하는 영역 분할을 정확하게 수행할 수 있는 모델을 개발
○ 임상 진단 분류 모델: DenseNet 121
- 치과교정 임상에 있어 부정교합 진단 분류를 수행
- 치아 대구치 관계를 기반으로 하는 치과교정학 부정교합 분석 진단을 수행하는 모델을 개발 -
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 대구치 관계 분류 성능 Image Classification DenseNet 121 AccuracyTop-1 75 % 80.58 % 2 치아 경계 탐지 성능 Object Detection Mask Scoring R-CNN mAP@IoU 0.5 60 % 62.5 % 3 치축 탐지 성능 Object Detection mask R-CNN mAP@IoU 0.5 60 % 93.8 % 4 충치 탐지 성능 Object Detection Mask Scoring R-CNN mAP@IoU 0.5 40 % 40.7 % 5 안모 중심선 탐지 성능 Object Detection mask R-CNN mAP@IoU 0.5 60 % 95.7 % 6 입술경계 탐지 성능 Object Detection Mask Scoring R-CNN mAP@IoU 0.5 60 % 98.6 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드데이터 구성
○ 환자별 이미지 종류
- 개구기 정면 이미지, 개구기 좌측 이미지, 개구가 우측 이미지, 교합면 상악 아미지, 교합면 하악 이미지, 스마일 이미지
○ 객체 종류
- segmentation: 치아 경계, 충치, 입술 경계
- polyline: 치축, 안모정중선
- class: 교합면 관계○ 객체 카테고리
데이터 구성○ 객체 카테고리 카테고리 종류 category_id 범위 설명 치아경계 0, 1, 2, 3, 4, 5, 8, 9, 10, 11, 12, 13, 16, 17, 18, 19, 20, 21, 24, 25, 26, 27, 28 29, tooth number system FDI 에 매핑함 categoty_id : FDI 0~5:11~16, 8~13:21~26, 16~21:31~36, 24~29:41~46 충치 32 입술경계 33 치축 34 안모정중선 35 대구치관계 98,99,100 교합면 관계를 매핑함 ○ 폴더 구조 예시 (이미지/라벨링)
데이터 포맷
○ 이미지 폴더 구조
- 이미지 폴더 root
- 환자 번호
- front.png
- left.png
- right.png
- up.png
- bottom.png라벨링 포맷 규칙
annotation: {
image_id: string
category_id: number
segmentation: array
img_type: {
path: string
position: string
}
polyline: array
class: number
}
이미지/라벨링 예시
이미지/라벨링 예시 이미지 라벨링 upper 치아 경계
{ "image_id": "1400_upper.png", "category_id": 0, "segmentation": [ [ 1563, 479 ], ... [ 1506, 435 ] ], "img_type": { "position": "upper", "path": "./images/1400/upper.png" }, "polyline": null, "class": null }, lower 치아경계
{ "image_id": "1400_lower.png", "category_id": 0, "segmentation": [ [ 1563, 479 ], ... [ 1506, 435 ] ], "img_type": { "position": "lower", "path": "./images/1400/lower.png" }, "polyline": null, "class": null }, left 치아경계/치축/대구치관계
{ "image_id": "1400_left.png", "category_id": 0, "segmentation": [ [ 2655, 770 ], ... [ 2699, 699 ] ], "img_type": { "position": "left", "path": "./images/1400/left.png" }, "polyline": null, "class": null }, { "image_id": "1400_left.png", "category_id": 34, "segmentation": null, "img_type": { "position": "left", "path": "./images/1400/left.png" }, "polyline": [ [ 1994, 1937 ], [ 2052, 1490 ] ], "class": null }, { "image_id": "1400_left.png", "category_id": 100, "segmentation": null, "img_type": { "position": "left", "path": "./images/1400/left.png" }, "polyline": null, "class": 100 }, right 치아경계/치축/대구치관계
{ "image_id": "1400_right.png", "category_id": 8, "segmentation": [ [ 780, 999 ], ... [ 784, 945 ] ], "img_type": { "position": "right", "path": "./images/1400/right.png" }, "polyline": null, "class": null }, { "image_id": "1400_right.png", "category_id": 34, "segmentation": null, "img_type": { "position": "right", "path": "./images/1400/right.png" }, "polyline": [ [ 1041, 611 ], [ 918, 1272 ] ], "class": null }, { "image_id": "1400_right.png", "category_id": 100, "segmentation": null, "img_type": { "position": "right", "path": "./images/1400/right.png" }, "polyline": null, "class": 100 }, front 치아경계/치축
{ "image_id": "1400_front.png", "category_id": 0, "segmentation": [ [ 1620, 735 ], ... [ 1649, 714 ] ], "img_type": { "position": "front", "path": "./images/1400/front.png" }, "polyline": null, "class": null }, { "image_id": "1400_front.png", "category_id": 34, "segmentation": null, "img_type": { "position": "front", "path": "./images/1400/front.png" }, "polyline": [ [ 1738, 706 ], [ 1693, 1315 ] ], "class": null }, smile 입술경계/안모정중선
{ "image_id": "1400_smile.png", "category_id": 33, "segmentation": [ [ 112, 80 ], ... [ 118, 80 ] ], "img_type": { "position": "smile", "path": "./images/1400/smile.png" }, "polyline": null, "class": null }, 어노테이션 포맷
○ 최종 생성된 JSON 파일은 개별 환자별로 생성되며 개별 환자의 6개 이미지의 Annotation 정보와 이미지 경로를 포함어노테이션 포맷 Category Sub-1 Sub-2 속성 설명 데이터 타입 Annotation 정보 image_id - 이미지 구분 string category_id 치아경계번호, 충치, 입술, 치축, 안모정중선, 대구치관계 number segmentation 치아경계, 충치, 입술 array([x, y]] img_type path 이미지 경로 string position 상하좌우정면, 스마일 string polyline - 치축, 안모정중선 array([x, y]] class 대구치관계 number 실제 예시
{
"annotations": [
{
"image_id": "0_lower.png",
"category_id": 16,
"segmentation": [
[
1026,
1064
],
[
1042,
1031
],
[
1060,
1014
],
[
1079,
1005
],
[
1107,
1013
],
[
1125,
1033
],
[
1135,
1051
],
[
1143,
1089
],
[
1144,
1111
],
[
1161,
1144
],
[
1165,
1197
],
[1155,
1213
],
[
1125,
1221
],
[
1102,
1225
],
[
1063,
1222
],
[
1041,
1216
],
[
1020,
1208
],
[
1004,
1193
],
[
984,
1169
],
[
984,
1144
],
[
996,
1109
],
[
1017,
1084
]
],
"img_type": {
"position": "lower",
"path": "./images/0/lower.png"
},
"polyline": null,
"class": null
},
]
}Meta JSON structure
○ 환자의 meta 정보로 성별, 나이대 정보를 포함Meta JSON structure Category Sub-1 Sub-2 속성 설명 데이터 타입 환자 정보 gender - 성별 string age - 나이대(10 단위) number patient_id annotation과 연결되는 환자 ID number {
"info": [
{
"Gender": "F",
"Age": 4,
"patient_id": 2976
},
{
"Gender": "M",
"Age": 2,
"patient_id": 2986
},
-
데이터셋 구축 담당자
수행기관(주관) : 서울대학교 치과병원
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 양일형 02-2072-2671 [email protected] 총괄책임자 수행기관(참여)
수행기관(참여) 기관명 담당업무 경북대학교 산학협력단 데이터 수집, 전처리 및 치과의사 전문 라벨링 경희대학교 산학협력단 데이터 수집, 전처리 및 치과의사 전문 라벨링 단국대학교 산학협력단 데이터 수집, 전처리 및 치과의사 전문 라벨링 삼성서울병원 데이터 수집, 전처리 및 치과의사 전문 라벨링 원광대학교 산학협력단 데이터 수집, 전처리 및 치과의사 전문 라벨링 한양대학교 산학협력단 데이터 수집, 전처리 및 치과의사 전문 라벨링 광운대학교 산학협력단 데이터센터 구성 및 데이터 관리 대전보건대학교 산학협력단 치기공사 작업자 관리 ㈜디디에이치 인공지능 학습모델 개발 및 사업화, 시범서비스 개발 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 양일형 02-2072-2671 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.