※오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
단계별 욕창 환부 이미지 데이터
- 분야헬스케어
- 구분 안심존(오프라인)
- 유형 이미지
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2022-07-13 데이터 최초 개방 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2022-07-13 콘텐츠 최초 등록 소개
- 욕창 환부 이미지 라벨링은 욕창 4단계 및 기타 감별 궤양, 정상 부위로 진행됨 - 욕창의 경우 1~4단계로 라벨링 - 기타 감별 궤양은 6종으로 미분류 욕창, 당뇨병성 궤양, 습윤 궤양, 의료기기 기반 조직 손상, 장시간 압력 노출 조직 손상, 심주조직 손상으로 라벨링 - 원천데이터는 .jpg, 라벨링데이터는 .json
구축목적
- 욕창 및 기타감별 궤양을 판단하기 위한 의료 이미지 데이터셋 구축 - 의료 영상의 판독 결과와 진단 및 치료에 영향을 주는 임상 정보 등을 어노테이션한 학습용 데이터셋 구축 - 구축된 AI데이터를 이용하여 의료 단계별 의사결정에 직간접적 영향을 줄 수 있는 AI모델 제시
-
메타데이터 구조표 데이터 영역 헬스케어 데이터 유형 이미지 데이터 형식 이미지(JPG) 데이터 출처 서울대학교병원, 순천향대학교병원 (IRB 승인 후 수집) 라벨링 유형 진단정보/촬영기기/임상정보/이미지정보/바운딩박스 라벨링 형식 JSON 데이터 활용 서비스 요양병원 및 보건소의 헬스케어 서비스, 기타 헬스케어 서비스 데이터 구축년도/
데이터 구축량2021년/23,817건 -
데이터 구축 비율 : 서울대학교병원 60%, 순천향대학교병원 40%
-
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드본 사업에서는 딥러닝 기반의 객체 검출 및 인식 모델로 가장 최근의 대중적인 모델인 YOLOv5를 적용하여 학습함으로써 성능 평가와 데이터셋의 활용성을 확인해 볼 수 있도록 함
YOLOv5 - 딥러닝 기반의 객체 검출 및 인식 모델로 가장 최근의 대중적인 모델. 다양한 객체에 대한 특징으로 학습되어 있는 backbone 네트워크와 목표로 하는 객체의 특징을 분류하는 단계인 분류 네트워크로 구성. backbone 네트워크는 다양한 객체를 갖는 데이터셋으로 학습되어 있으며 CSPNet을 사용하여 모델의 정확도를 유지하면서 경량화. 분류 네트워크는 PANet을 사용하여 목적 데이터셋의 객체를 검출하기 위한 특징을 학습하는 단계.
파라미터 설정은 epoch 200, batch size 64, Adam optimizer를 활용하여 학습을 진행함① 인공지능 서비스의 개발 및 사업화
- 구축된 욕창 데이터셋은 인공지능 욕창 진단 알고리즘 개발과 각 전문학회의 욕창 교육용 어플리케이션 개발을 위한 기본 데이터로 활용
- 개발된 욕창 진단 알고리즘은 전국 요양병원 및 각 지방의 보건소 및 보건지소에서 환자를 평가하고 이송/회송하는데 활용 가능
- 현재까지 창상에 대한 평가는 창상의 면적과 깊이를 측정하는 것이 대부분이고, deep learning을 이용한 선례가 없다. 이번 과제를 통해 개발된 욕창의 quality controlled image tool을 창상에도 적용하여 추후 다양한 창상관련 인공지능 모델 및 어플리케이션 개발에 적용② 대외 공개를 통한 기술혁신 지원 방안
- 비식별화되고 욕창 및 기타 감별 궤양 환자를 랜덤하게 포함한 욕창 검진 임상정보 20,000건 이상 공개
- 비식별화된 임상정보와 매칭되는 이미지 공개
- 욕창 및 기타 감별 궤양 이미지와 임상정보를 통합한 데이터셋을 바탕으로 병변 부위를 촬영하여 해당 병변을 분류하는 모델, 알고리즘을 공개 -
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 분류 정확도 Image Classification YOLOv5 mAP 85 % 90.1 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
데이터 구성
- JPG 형식의 욕창 환부 이미지 2만장 이상 구축
- 2만건 이상의 annotation 수행, json 파일
- 욕창 1~4단계는 각 단계별 3,000건 이상, 기타 감별 궤양 6,000건 이상, 정상 2,000건의 JPG 형식의 이미지 파일 및 JSON 형식의 어노테이션 파일
* 데이터 예시
데이터 예시[원천 데이터]
[json 예시]
[바운딩박스 예시]
* 데이터 구성
폴더 구조 파일명 구조 - 원천데이터 폴더의 경우 욕창 이미지를 jpg 형식으로 통일 및 비식별화하여 저장함.
- 파일명 구조는 전/후향적, 진단명, 작업자, 병변부위, 작업일과 이미지 수에 대한 정보를 포함하는 jpg 형식으로 확장자를 통일하여 저장
- 라벨링데이터 폴더의 경우 역시 파일명 구조는 원천데이터와 같되 json 형식으로 저장
- Training, Validation, Test 모두 동일한 폴더구조로 저장
항목 설명 data_type 전향적/후향적 데이터 device 촬영 기기 환자 정보 age 환자 나이 gender 환자 성별 (ex) 0:남자 diagnosis 진단명 (ex) 욕창1단계 underlying_disease 환자기저질환 (ex) 당뇨병 site_of_lesion 병변 부위 (ex) 좌측 허벅지 하부 bmi BMI (ex) 1:정상 sense 감각인지정도 (ex) 1:매우제한 mositure 습기노출 (ex) 1:습함 activity 신체활동정도 (ex) 3:정상 motion 움직임 (ex) 3:정상 nutriture 영양상태 (ex) 3:양호 friction 마찰력과 전단력 (ex) 0:문제있음 exposure_time 압력노출시간 (ex)20 temp 체온 temp_lesion 환부 온도 (ex)37 폴더 및 파일 정보 folder 데이터가 저장된 폴더명 filename 이미지 파일명 path 이미지 위치 이미지 사이즈 정보 extension 이미지 확장자 width 이미지 가로 크기(픽셀) height 이미지 세로 크기(픽셀) depth 이미지 채널 수(RGB 등) bounding box 정보 x bounding box 좌상단 x 좌표(픽셀) y bounding box 좌상단 y 좌표(픽셀) label_width bounding box 가로 길이(픽셀) label_height bounding box 세로 길이(픽셀) class 욕창 단계별 grade * 어노테이션 포맷
* 어노테이션 포맷 구분 항목명 타입 필수여부 설명 범위 비고 1 annotations Object 데이터셋 정보 1 data_type String Y 전향적/후향적 0: 전향적 1: 후향적 2 device String C 촬영기기 0: DSLR 1: 스마트폰
2: DSLR + 스마트폰
none: 정보 없음3 folder String Y 이미지가 저장된 폴더명 4 filename String Y 이미지 파일명 5 path String Y 이미지 위치 2 patient_information Object 환자 정보 1 age String Y 환자 나이 0: 10대 1: 20대
2: 30대 3: 40대
4: 50대 5: 60대
6: 70대 7: 80대
8: 90대2 gender String Y 환자 성별 0: 남 1: 여
none: 정보없음3 diagnosis String Y 진단명 0: 욕창1 1: 욕창2
2: 욕창3 3: 욕창4
4: 미 분류 욕창
5: 당뇨병성 궤양
6: 습윤 궤양
7: 의료기기 기반 조직 손상
8: 장시간 압력 노출 조직 손상
9: 심부조직 손상
10: 정상 피부4 underlying_disease String O 환자 기저질환 00: 당뇨
01: 고혈압
02:뇌신경계질환
03: 척추 외상
04: 기타
none: 정보 없음
&: 구분자
ex) “01&03”5 site_of_lesion String M 욕창 병변 부위 0: 귀 1: 얼굴
2: 코 3: 뺨
4: 머리 5: 목
6: 상지 7: 가슴
8: 등 9: 복부
10:둔부 11:사타구니
12: 대퇴 13: 무릎
14: 무릎 아래-발목
15: 발목 16: 발
17: 발뒤꿈치
18: 발가락
19: 발등 20: 발바닥
none: 정보 없음6 bmi String O BMI 0: 23.0 미만
1: 23.0 ~ 25.0
2: 25.0 ~ 28.0
3: 28.0 ~ 30.0
4: 30.0 ~ 33.0
5: 33.0 ~ 35.0
6: 35.0 이상
none: 정보 없음7 sense String O 감각인지정도 0: 전혀없음
1: 매우제한
2: 약간제한
3: 장애없음
none: 정보없음8 mositure String O 습기노출 0: 지속적습함
1: 습함
2: 때때로습함
3: 거의습하지않음
none: 정보없음9 activity String O 신체활동정도 0: 침상안정상태
1: 의자에 앉을 수 있음
2: 때때로 보행
3: 정상
none: 정보없음10 motion String O 움직임 0: 전혀 없음
1: 매우 제한됨
2: 혼자서약간씩움직이는 정도
3: 정상
none: 정보없음11 nutriture String O 영양상태 0: 제공된음식의1/3을넘지못함
1: 유동식, 또는 경관 유동식
2: 경관 유동식, TPN
3: 양호
none: 정보없음12 friction String O 마찰력과 전단력 0: 문제있음
1: 잠재적문제
2: 문제없음
none: 정보없음13 exposure_time String O 압력노출시간 0: 0 - 3시간
1: 3시간 – 6시간
2: 6시간 – 9시간
3: 12시간 이상
none: 정보 없음14 temp_lesion String O 환부 온도 0: 35 미만
1: 35-36
2: 36-37
3: 37–38
4: 38–39
5: 39–40
6: 40 이상
none: 정보 없음15 temp String O 체온 0: 35 미만
1: 35-36
2: 36-37
3: 37–38
4: 38–39
5: 39–40
6: 40 이상
none: 정보 없음16 lesion_size String O 욕창 크기 가로(mm)x세로(mm)
ex)20x20
none: 정보없음3 Image_information Object 이미지 정보 1 extension String Y 이미지 확장자 jpg 2 width String Y 이미지 가로 크기(픽셀) 300 이상 3 height String Y 이미지 세로 크기(픽셀) 300 이상 4 depth String Y 이미지 채널 수(RGB 등) 3 4 boundingbox_information Object 라벨링 정보 1 x String Y 환부 bounding box 좌상단 x 좌표(픽셀) 2 y String Y 환부 bounding box 좌상단 y 좌표(픽셀) 3 label_width String Y 환부 bounding box 가로 길이(픽셀) 4 label_height String Y 환부 bounding box 세로 길이(픽셀) 5 class String Y 욕창 단계별 grade * 실제 데이터 예시
-
데이터셋 구축 담당자
수행기관(주관) : 서울대학교 산학협력단
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 류호걸 02-2072-2065 [email protected] 단계별 욕창 이미지 데이터, 욕창 원천 데이터 획득, 데이터권리획득 수행기관(참여)
수행기관(참여) 기관명 담당업무 서울아산병원 데이터 검수 및 품질관리 순천향대학교 욕창 원천 데이터 획득, 데이터권리획득 수원대학교 산학협력단 데이터 획득 교육, 비식별화 방법 ㈜이노아이엔씨 데이터 정제/가공, 데이터 획득 관리 솔루션 개발 ㈜몰팩바이오 데이터 정제/가공, 응용 소프트웨어 개발, 알고리즘 개발 ㈜에이치에스 힐링솔루션 데이터 정제/가공, 데이터 품질관리 광운대학교 산학협력단 Annotation Tool 개발
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.