※온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2023-12-01 데이터 최종 개방 1.0 2023-05-04 데이터 개방(Beta Version) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-01-24 산출물 전체 공개 소개
화상 진단을 보조하고 화상 단계를 판정하는 인공지능 기술 개발을 위한 데이터로 본 데이터를 통해 화상 치료의 표준화를 이루고 의료비 상승을 촤소화 하고자 함
구축목적
본 화상 데이터를 구축함으로써 화상 진단을 보조하고 화상 단계를 판정하는 인공지능 기술 개발과 시계열 데이터를 통한 치료 예측 인공지능 기술을 개발하고자 함
-
메타데이터 구조표 데이터 영역 헬스케어 데이터 유형 이미지 데이터 형식 화상 이미지 (JPG), 영상데이터 (DICOM) 데이터 출처 자체수집 라벨링 유형 바운딩박스, 세그멘테이션 라벨링 형식 JSON 데이터 활용 서비스 - 고품질의 화상 이미지 및 영상 AI 데이터를 확보해 추후 AI 연구에 활용 가능하며, 개발된 AI 모델을 진료 회송사업에 적용하고자 함 - 성형외과 일반외과 등 화상 진료가 가능한 전문의가 없는 의료기관은 개발된 알고리즘을 환자 평가 및 치료, 이후 환자 이송에 활용할 수 있음 - 환자의 경우 화상 진단 AI 알고리즘의 도움을 받아 전문 의료인의 진료가 필요한 질환을 선별함으로써 불필요한 의료비 지출을 최소화 할 수 있음 - 나아가 화상 상처에 대한 이해를 높이고, 화상 관련 AI 제품을 개발하는데 활용하고자 함 데이터 구축년도/
데이터 구축량2022년/23,341 -
구분 단계 목표 수량 구축 진단 화상1도 750 750 100% 화상2도 표재성 3,250 3,250 100% 화상2도 심재성 5,000 5,000 100% 화상3도 5,000 5,000 100% 화상4도 1,000 1,000 100% 계 15,000 15,000 100% 시계열 화상1도 250 250 100% 화상2도 표재성 1,250 1,833 147% 화상2도 심재성 1,500 2,796 186% 화상3도 1,500 1,505 100% 화상4도 500 626 125% 계 5,000 7,010 140% Dicom 1,000 1,331 133% 총 21,000 23,341 111% 화상 단계별 데이터 구성비
-
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드① 인공지능 기반 화상 피부 진단 검출 모델
- 화상 5단계(1도, 표재성 2도, 심재성 2도, 3도, 4도)를 학습하고, 이를 기반으로 화상 단계를 진단
- 실시간 영상 판독이 가능하도록 정확도-추론 속도의 trade-off 관계를 최소화하는 EfficientNetV2 small model을 기반으로 사용.
- 입력과 검출 결과가 한 번에 이루어지는 end-to-end 구조의 one-stage object detection model로 학습EfficientNetV2 small 모델 구조
One-stage model 구조
② 인공지능 기반 화상 피부 치유 단계 예측 모델
- 시계열 데이터의 기간 및 치유 범위 (사분위의 단계)를 학습하고, 이를 기반으로 일정 기간 후에 환부의 호전 정도를 예측
- ConvLSTM은 기존 Fully Connected LSTM (CNN + LSTM)이 공간적 특성을 반영하지 못하는 단점을 보완한 모델.
- 기존 모델과 학습 방법은 동일하지만 입/출력, 상태 레이어가 3차원 벡터로 연산되며 일반 행렬곱 대신 합성곱으로 이루어져 시간적, 공간적 특성을 동시에 학습할 수 있는 장점이 있음.
- 기존 LSTM, FC-LSTM 모델보다 우수한 성능을 나타냄.
- 학습 시 예측된 자료를 다시 입력 자료로 활용.
-
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 치유 예측 성능 Prediction ConvLSTM AUC-ROC 0.8 단위없음 0.8471 단위없음 2 화상 진단 분류 성능 Image Classification EfficientNetV2-Small model mAP 80 % 80.4 % 3 화상 병변 부위 탐지 성능 Object Detection EfficientNetV2-Small model mIoU 85 % 87.3 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드- 데이터셋은 크게 화상 이미지 데이터, 영상 검사 데이터, 임상정보 데이터로 구성
(1) 화상 이미지 데이터 : 원천데이터(이미지, 형식 : JPG) - 라벨링데이터(JSON)
(2) 영상 검사 데이터 : 원천데이터(이미지, 형식 : DICOM)
(3) 임상 정보 데이터 : 메타데이터(JSON)
* 영상 검사 원천데이터(DICOM)는 라벨링 데이터가 존재하지 않으며, 화상 이미지 라벨링 데이터와 임상 정보 라벨링 데이터는 하나의 JSON으로 구성됨구분 획득(수집) 단계 정제 단계 가공(라벨링) 단계 데이터
구분
원시 데이터 원천 데이터 최종 데이터 데이터
형태
화상 이미지 → 이미지
(자르기, 비식별화)화상 이미지 → 이미지
(중복제거, 세그멘테이션)화상 이미지 → 이미지
(Polygon, 바운딩박스)영상 이미지 → 이미지 영상 이미지 → 이미지 영상 이미지 → 이미지 데이터
포멧
데이터(이미지)포맷 : JPG파일
해상도 (1280*720)데이터(이미지)포맷 : JPG파일
해상도 (1280*720)데이터(이미지)포맷 : JPG파일
해상도 (1280*720)데이터(영상)포맷 : DICOM파일
해상도 (1280*720)데이터(영상)포맷 : DICOM파일
해상도 (1280*720)데이터(영상)포맷 : DICOM파일
해상도 (1280*720)임상 정보 : JSON * 데이터 예시
* 데이터 예시- 원천데이터 - - 원천데이터 - 화상 이미지데이터(JPG) 영상 검사 데이터(DICOM) * 데이터 예시- 라벨링 데이터 - - 라벨링 데이터 - * 어노테이션 포맷
* 어노테이션 포맷 구분 속성명 타입 필수 설명 범위 비고 여부 1 info Object 기타 정보 속성 그룹 1-1 segmentation String Y 세그멘테이션 ‘0’, ‘1’ 0: 단일 1: 멀티 1-2 time_series String 시계열 ‘0’, ‘1’ 0: 시계열 1: 단일 1-3 dicom String Dicom ‘0’, ‘1’ 0: 포함 1: 미포함 1-4 device String 촬영디바이스 ‘0’, ‘1’, ‘2’, ‘3’, ‘4’, ‘5’ 0: DSLR 1: 스마트폰 2: CT 3: X-RAY 4: 뼈 스캔 5. 정보없음 1-5 date String 촬영일자 (시계열) 주관식(예시:D+0, D+3) 1-6 folder String Y 이미지들이 저장된 폴더명 예시:dataset 2 patient Object 환자정보 속성 그룹 2-1 id String Y 환자ID (암호화) 주관식 2-2 age String Y 나이 ‘0’, ‘1’, ‘2’, ‘3’, ‘4’, ‘5’, ‘6’, ‘7’, ‘8’, ‘9’ 0: 20~29 1: 30~39 2: 40~49 3: 50~59 4: 60~69 5: 70~79 6: 80이상 7: 정보없음 8: 9이하 9: 10~19 2-3 gender String Y 성별 ‘0’, ‘1’, ‘2’ 0: 남 1: 여 2: 정보없음 2-4 height String 키 주관식 2-5 weight String 몸무게 주관식 2-6 bmi String BMI ‘0’, ‘1’, ‘2’, ‘3’, ‘4’, ‘5’, ‘6’, ‘7’ 0: 23.0 미만 1: 23.0 이상 - 25.0 미만 2: 25.0 이상 - 28.0 미만 3: 28.0 이상 - 30.0 미만 4: 30.0 이상 - 33.0 미만 5: 33.0 이상 - 35.0 미만 6: 35.0 이상 7: 정보 없음 2-7 underlying_ String 기저질환 0: 건강한 환자 disease 1: 당뇨 2: 고혈압 3: 심장질환 4: 뇌혈관질환 5: 간질환 6: 폐질환 7: 신장질환 8: 암 9: 기타 &: 구분자 none: 정보없음 2-8 stage String Y 진단명 ‘0’, ‘1’, ‘2’, ‘3’, ‘4’ 0: 1도 1: 2도 (superficial) 2: 2도 (deep) 3: 3도 4: 4도 2-9 burn_date String 화상발생일자 주관식 2-10 location String 화상 부위 ‘0’, ‘1’, ‘2’, ‘3’, ‘4’, ‘5’, ‘6’, ‘7’, ‘8’, ‘9’, ‘10’, ‘11’, ‘12’, ‘13’, ‘14’, ‘15’, ‘16’, ‘17’, ‘18’, ‘19’, ‘20’, ‘21’, ‘22’, ‘23’, ‘24’, ‘25’, ‘26’, ‘27’, ‘28’, ‘29’, ‘30’, ‘31’, ‘32’, ‘33’ 0: 정보없음 1: 얼굴 2: 머리 3: 귀 4: 목 5: 앞가슴 6: 복부 7: 등 8: 어께 9: 겨드랑이 10: 상완 11: 팔꿈치 12: 하완 13: 손목 14: 손 전체 15: 손등 16: 손바닥 17: 손가락 18: 둔부 19: 사타구니 20: 성기 21: 허벅지 22: 무릎 23: 종아리 24: 발목 25: 발 전체 26: 발꿈치 27: 발등 28: 발바닥 29: 발가락 30: 허리 31: 옆구리 32: 볼 33: 골반 2-11 direction String 화상 부위 방향 ‘0’, ‘1’, ‘2’, ‘3’, ‘4’, ‘5’, ‘6’, ‘7’, ‘8’, ‘9’ 0: 정보없음 1: 상 2: 하 3: 좌 4: 우 5: 앞 6: 뒤 7: 전체 8: 내측 9: 외측 2-12 extremity_num String 신체 말단 순번 ‘0’, ‘1’, ‘2’, ‘3’, ‘4’, ‘5’ 0: 정보없음 0.042361111 0.084722222 0.127083333 0.169444444 0.211805556 2-13 burn_area_total String 화상 범위 (전신) ‘0’, ‘1’, ‘2’, ‘3’, ‘4’, ‘5’, ‘6’, ‘7’, ‘8’, ‘9’, ‘10’ 0: 0%-10% 1: 11% - 20% 2: 21% - 30% 3: 31% - 40% 4: 41% - 50% 5: 51% - 60% 6: 61% - 70% 7: 71% - 80% 8: 81% - 90% 9: 91% - 100% 10: 정보없음 2-14 burn_area_local String 화상 범위 (국소) ‘0’, ‘1’, ‘2’, ‘3’, ‘4’ 0: 0%-5% 1: 6% - 10% 2: 11% - 15% 3: 16% - 20% 4. 정보없음 2-15 vascularity String 흉터 ‘0’, ‘1’, ‘2’, ‘3’, ‘4’ 0: normal (혈관성) 1: pink 2: red 3: purple 4: 정보없음 2-16 pigmentation String 흉터 ‘0’, ‘1’, ‘2’, ‘3’ 0: normal (색소침착) 1: hypopigmentation 2: hyperpigmentation 3: 정보없음 2-17 pliability String 흉터 ‘0’, ‘1’, ‘2’, ‘3’, ‘4’, ‘5’, ‘6’ 0: no contracture (유연성) 1: supple 2: yeilding 3: firm 4: rope 5: contracture 6: 정보없음 2-18 burn_height String 흉터(높이) ‘0’, ‘1’, ‘2’, ‘3’, ‘4’ 0: flat 1: <2mm 2: 2-5mm 3: >5mm 4: 정보없음 2-19 burn_scar_ String 화상반흔구축(국소) ‘0’, ‘1’, ‘2’ 0: normal contracture 1: contracture 2: 정보없음 2-20 cause_of_burn String 화상원인 ‘0’, ‘1’, ‘2’, ‘3’, ‘4’, ‘5’, ‘6’, ‘7’ 0: 열탕 화상 (scalding burn) 1: 화염 화상 (flame burn) 2: 전기 화상 (electrical burn) 3: 접촉 화상 (contact burn) 4: 화학 화상 (chemical burn) 5: 햇빛 화상 (sun burn) 6: 흡입화상 (inhalation burn) 7: 정보없음 2-21 treatment String 치료방법 ‘0’, ‘1’, ‘2’, ‘3’, ‘4’, ‘5’, ‘6’, ‘7’, ‘8’ 0: 소독치료 1: 변연절제 2: 근막절개 3: 피부이식(부분층) 4: 피부이식(전층) 5: 국소피판 6: 유리피판 7: 절단 8: 정보없음 2-22 healRange String 치유범위 ‘0’, ‘1’, ‘2’, ‘3’, ‘4’ 0: 정보없음 1: 0%~24% 2: 25%~49% 3: 50%~74% 4: 75%~100% 3 images Object 이미지 정보 속성 그룹 3-1 filename String Y 이미지 파일명 1_f_0_22_220719_154257_hangang13_20210730.jpg (진단명_성별_나이_병변부위_수집날짜_수집시간_담당자_시계열정보) 3-2 path String Y 이미지 위치 2 degree (superficial)/jpg/ 3-3 extension String Y 이미지 확장자 jpg 3-4 width String Y 이미지 가로 크기(픽셀) 1920 3-5 height String Y 이미지 세로 크기(픽셀) 1080 3-6 depth String Y 이미지 채널 수(RGB 등) 3 4 annotations Object annotation 정보 속성 그룹 4-1 stage_id Object 진단명 ‘0’, ‘1’, ‘2’, ‘3’, ‘4’ 0: 1도 1: 2도 (superficial) 2: 2도 (deep) 3: 3도 4: 4도 4-1-1 bbox List Y 환부 bounding box 좌표(픽셀) [[124, 196, 372, 356]] x, y, width, height 다중리스트 [[x, y, width, height], [x, y, width, height], ...] 4-1-2 segmentation List Y 환부 segmentation [[147, 396, 158, 355, 244, 196, 251, 202]] 정점 x, y 좌표 연속 다중 리스트 [[x1,y1, x2,y2, x3,y3, ...], [x1,y1, x2,y2, x3,y3, ...], ...] * 데이터 폴더 구조
* 데이터 폴더 구조 폴더 구조 파일명 구조 -
데이터셋 구축 담당자
수행기관(주관) : 서울대학교 산학협력단
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김병준 02-2072-2370 [email protected] 사업 총괄, 데이터 확보 및 제공 수행기관(참여)
수행기관(참여) 기관명 담당업무 한림대학교 산학협력단 데이터 수집 순천향대학교 산학협력단 데이터 수집 수원대학교 산학협력단 데이터 가공 및 검수 서울아산병원 데이터 검수 및 품질관리 ㈜이노아이엔씨 데이터 정제 및 가공, 품질관리 솔루션 개발 ㈜에이치에스힐링솔루션 데이터 정제 및 가공, 품질관리 ㈜몰팩바이오 데이터 정제 및 가공, 모델 개발 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 김병준 02-2072-2370 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.