※오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
수면질 평가 및 수면장애 진단 이미지
- 분야헬스케어
- 구분 안심존(오프라인)
- 유형 센서
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2021-06-30 데이터 최초 개방 소개
수면다원검사 데이터를 기반으로 수면 질환(코골이, 수면무호흡 등) 환자가 시행한 수면다원검사 판독 데이터
구축목적
검증된 양질의 수면다원검사(Polysomnography, PSG) 데이터를 구축하고, 인공지능을 이용하여 자동화된 PSG 판독 시스템 개발.
-
메타데이터 구조표 데이터 영역 헬스케어 데이터 유형 센서 데이터 형식 데이터 출처 라벨링 유형 라벨링 형식 데이터 활용 서비스 데이터 구축년도/
데이터 구축량2020년/76.2만 -
구축 내용 및 제공 데이터량
- - 10,253건의 수면다원검사(PSG)에 해당하는 30초 단위 PSG 결과 이미지 762만장 구축.
- - 각 검사에 대한 raw data(EDF 포맷) 10,253건 구축.
- - 각각의 이미지는 뇌파(EEG), 안전도(EOG), 근전도(EMG), 심전도(ECG), 호흡량, 코골이 등 최대 21개 신호를 포함함.
- - 수면무호흡증, 불면증등의 진단을 위해 수행되는 일반 PSG 뿐만아니라 양압기 적정 압력을 정하기 위해 수행되는 양압적정검사, 기면병 진단을 위해 시행하는 MSLT (multi sleep latency test) 가 포함되어있음. 실질정 남녀 성비을 반영하고 있으며, 연력대도 분포도 다양함. 검사 장비의 다양성을 반영하여 Embla, Nox 두가지 검사 장비로부터 얻은 데이터를 모두 구축 하고 있음.
제공 데이터량 표 분류 기준 유형 개수 Total 검사 종류 일반 PSG 7,745 10,253 양압적정검사 2,149 MSLT 359 성 남 8,415 이상 10,253 여 1,828 이상 연령 20대 이하 1,467 이상 10,253 30대 2,474 이상 40대 2,493 이상 50대 2,069 이상 60대 이상 1,723 이상 검사 장비 Embla 5,588 10,253 Nox 4,665
-
-
AI 모델 상세 설명서 다운로드
AI 모델 다운로드 -
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 수면 단계 분류 Image Classification Supervised Learning, Convolutional Layer(ResNet-50) Accuracy 80 % 91 % 2 심전도 기반 수면질 분류 Image Classification Supervised Learning, Convolutional Layer(ResNet-34) Accuracy 80 % 83 % 3 이상 호흡 검출 Object Detection Supervised Learning, Convolutional Layer(ResNet-34) Accuracy 80 % 90 % 4 움직임 및 각성 검출 Object Detection Supervised Learning, Convolutional Layer(ResNet-50) Accuracy 80 % 87 % 5 수면 단계 분류 Image Classification Supervised Learning, Convolutional Layer(ResNet-50) F1-Score 0.8 점 0.89 점 6 수면 단계 분류 Image Classification Supervised Learning, Convolutional Layer(ResNet-50) F1-Score 0.8 점 0.91 점 7 수면 단계 분류 Image Classification Supervised Learning, Convolutional Layer(ResNet-50) F1-Score 0.8 점 0.91 점 8 심전도 기반 수면질 분류 Image Classification Supervised Learning, Convolutional Layer(ResNet-34) F1-Score 0.8 점 0.83 점 9 심전도 기반 수면질 분류 Image Classification Supervised Learning, Convolutional Layer(ResNet-34) F1-Score 0.8 점 0.83 점 10 심전도 기반 수면질 분류 Image Classification Supervised Learning, Convolutional Layer(ResNet-34) F1-Score 0.8 점 0.83 점 11 이상 호흡 검출 Object Detection Supervised Learning, Convolutional Layer(ResNet-34) F1-Score 0.8 점 0.84 점 12 움직임 및 각성 검출 Object Detection Supervised Learning, Convolutional Layer(ResNet-50) F1-Score 0.8 점 0.9 점 13 수면 단계 분류 Image Classification Supervised Learning, Convolutional Layer(ResNet-50) Precision 80 % 89 % 14 심전도 기반 수면질 분류 Image Classification Supervised Learning, Convolutional Layer(ResNet-34) Precision 80 % 82 % 15 이상 호흡 검출 Object Detection Supervised Learning, Convolutional Layer(ResNet-34) Precision 80 % 82 % 16 움직임 및 각성 검출 Object Detection Supervised Learning, Convolutional Layer(ResNet-50) Precision 80 % 90 % 17 수면 단계 분류 Image Classification Supervised Learning, Convolutional Layer(ResNet-50) Recall 80 % 89 % 18 심전도 기반 수면질 분류 Image Classification Supervised Learning, Convolutional Layer(ResNet-34) Recall 80 % 86 % 19 이상 호흡 검출 Object Detection Supervised Learning, Convolutional Layer(ResNet-34) Recall 83 % 86 % 20 움직임 및 각성 검출 Object Detection Supervised Learning, Convolutional Layer(ResNet-50) Recall 80 % 91 % 21 수면 단계 분류 Image Classification Supervised Learning, Convolutional Layer(ResNet-50) Specificity 80 % 95 % 22 심전도 기반 수면질 분류 Image Classification Supervised Learning, Convolutional Layer(ResNet-34) Specificity 80 % 92 % 23 이상 호흡 검출 Object Detection Supervised Learning, Convolutional Layer(ResNet-34) Specificity 83 % 92 % 24 움직임 및 각성 검출 Object Detection Supervised Learning, Convolutional Layer(ResNet-50) Specificity 80 % 82 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2021.06.30 데이터 최초 개방 구축 목적
- 검증된 양질의 수면다원검사(Polysomnography, PSG) 데이터를 구축하고, 인공지능을 이용하여 자동화된 PSG 판독 시스템 개발.
활용 분야
- 인공지능 학습용 데이터 확산 생태계 구현 및 온라인 AI 서비스
소개
- 데이터 구축
- - 10,253건의 수면다원검사(PSG) 데이터.
- - 30초 단위 PSG 결과 이미지 762만장.
- - 각 검사에 대한 raw data(EDF 포맷) 10,253건.
- 인공지능 데이터 활용 응용서비스 개발
- -AI 모델:
- 1) 수면 단계 및 수면질 분류 모델.
- 2) 이상 호흡 검출 모델.
- 3) 움직임 및 각성 검출 모델 .
- -응용서비스: 구축된 데이터셋을 이용해 개발된 3개의 AI 모델을 통합적으로 테스트해볼 수 있는 온라인 서비스(sleepai.kr).
- -AI 모델:
- 인공지능 학습용 데이터 품질관리 및 검증
- -품질관리 조직을 통한 데이터 직접 검수
- -경진대회 개최를 통한 데이터 셋 2차 검증
구축 내용 및 제공 데이터량
- - 10,253건의 수면다원검사(PSG)에 해당하는 30초 단위 PSG 결과 이미지 762만장 구축.
- - 각 검사에 대한 raw data(EDF 포맷) 10,253건 구축.
- - 각각의 이미지는 뇌파(EEG), 안전도(EOG), 근전도(EMG), 심전도(ECG), 호흡량, 코골이 등 최대 21개 신호를 포함함.
- - 수면무호흡증, 불면증등의 진단을 위해 수행되는 일반 PSG 뿐만아니라 양압기 적정 압력을 정하기 위해 수행되는 양압적정검사, 기면병 진단을 위해 시행하는 MSLT (multi sleep latency test) 가 포함되어있음. 실질정 남녀 성비을 반영하고 있으며, 연력대도 분포도 다양함. 검사 장비의 다양성을 반영하여 Embla, Nox 두가지 검사 장비로부터 얻은 데이터를 모두 구축 하고 있음.
분류 기준 유형 개수 Total 검사 종류 일반 PSG 7,745 10,253 양압적정검사 2,149 MSLT 359 성 남 8,415 이상 10,253 여 1,828 이상 연령 20대 이하 1,467 이상 10,253 30대 2,474 이상 40대 2,493 이상 50대 2,069 이상 60대 이상 1,723 이상 검사 장비 Embla 5,588 10,253 Nox 4,665
대표도면
- 30초 단위 PSG 결과 이미지와 대응되는 어노테이션 예시
필요성
- 수면다원검사(PSG)는 실제 수면 환경에서의 수면 상태를 평가할 수 없으며, 검사 결과를 일일이 수작업으로 판독해야 한다는 점, 그리고 판독자간의 판독 결과의 일치율도 낮다는 한계를 가지고 있음.
- 하지만 PSG 검사가 급여화되고, 각종 home sleep device들이 개발됨에 따라 앞으로 검사 시행 건수는 기하급수적으로 많아질 것으로 예상되며 수면 기사 혹은 수면 전문의의 수작업에 의한 판독 능력의 범위를 넘게 될 것임.
- 따라서 현존하는 PSG 데이터를 수집하고 이를 바탕으로 인공지능 학습 모델을 생성하여 추후에 생기는 데이터를 자동으로 판독할 수 있어야 함.
- 본 연구의 추진 목적은 검증된 양질의 PSG 데이터를 구축하고, 이를 이용한 인공지능 모델을 개발하여 자동화된 PSG 판독 시스템을 구축하는 것임.
데이터 구조
- 데이터 구조
- - 검사와 관련된 데이터는 아래와 같이 각 검사에 부여된 일련번호를 이름으로 하는 폴더에 저장되도록 설계되었음.
- - 각 검사별 폴더에는 “일련번호_standard” 폴더에 30초 단위의 표준화 이미지 셋이 저장되어 있으며, EDF 파일로 출력된 raw data(numeric data)가 “일련번호_edf.edf”로 저장됨.
- - 레이블링된 어노테이션은 검사 종류별로 하나의 JSON 파일로 병합되어(1_일반 PSG_Annotation.json, 2_양압적정검사_Annotation.json, 3_MSLT_Annotation.json) 제공됨.
- 어노테이션 파일 구조
- - 각 검사 및 이미지에 대한 레이블 정보는 JSON 규약에 따라 저장되었음.
- - 어노테이션 파일은 아래 예시와 같이 검사 정보(아래 예시의 “Patient_Number”, “Year”, “Start_time”, “Num_of_Image(epoch)”, “Analysis_Start” 항목), 검사 결과 요약(아래 예시의 “Report” 항목) 및 레이블링 된 각 이벤트 정보(아래 예시의 “Event” 항목)를 포함함.
- - 검사 정보, 검사 결과 요약, 이벤트의 상세 구조는 아래 표와 같음.
항목명 데이터 타입 포함 항목 데이터 타입 검사 정보 Patient_Number String - - Year Number - - Start_time String - - Num_of_Image(epoch) Number - - Analysis_Start Object Start_Time String Start_Epoch Number 검사결과요약 Report Object Patient Serial Number String Sex String Age Number BMI Number Date of exam String Time in Bed (TIB) Number Total Sleep Time (TST) Number Sleep Efficiency Number Sleep Latency Number REM Latency Number Wake after Sleep Onset (WASO) Number Total Wake Time (TWT) Number Ratio of TWT to TIB Number NREM Time Number Ratio of NREM Time to TIB Number Stage 1 Time Number Ratio of Stage 1 Time to TIB Number Stage 2 Time Number Ratio of Stage 2 Time to TIB Number Stage 3 Time Number Ratio of Stage 3 Time to TIB Number REM Time Number Ratio of REM Time to TIB Number Ratio of Snoring Time to TST Number Obstructive Apnea Index during REM Number Obstructive Apnea Index during NREM Number Obstructive Apnea Index Number Central Apnea Index during REM Number Central Apnea Index during NREM Number Central Apnea Index Number Mixed Apnea Index during REM Number Mixed Apnea Index during NREM Number Mixed Apnea Index Number Hypopnea Index during REM Number Hypopnea Index during NREM Number Total Hypopnea Index Number RERA during REM Number RERA during NREM Number RERA Number AHI during REM Number AHI during NREM Number AHI Number RDI during REM Number RDI during NREM Number RDI Number Sleep Time in the Supine Position Number Ratio of Sleep Time in the Supine Position to TST Number Sleep Time in the Lateral Position Number Ratio of Sleep Time in the Lateral Position to TST Number Apnea Index in the Supine Position Number Apnea Index in the Lateral Position Number Hypopnea Index in the Supine Position Number Hypopnea Index in the Lateral Position Number RERA in the Supine Position Number RERA in the Lateral Position Number RDI in the Supine Position during REM Number RDI in the Lateral Position during REM Number RDI in the Supine Position during NREM Number RDI in the Lateral Position during NREM Number RDI in the Supine Position Number RDI in the Lateral Position Number Mean Obstructive Apnea Event Time Number Longest Obstructive Apnea Event Time Number Mean Central Apnea Event Time Number Longest Central Apnea Event Time Number Mean Mixed Apnea Event Time Number Longest Mixed Apnea Event Time Number Mean Hypopnea Event Time Number Longest Hypopnea Event Time Number Mean Oxygen Saturation Number Ratio of Saturation below 90% Number 3% Oxygen Desaturation Index Number Lowest Oxygen Desaturation Number Mean Heart Rate Number Lowest Heart Rate Number Highest Heart Rate Number PLM Index Number PLM Arousal Index Number Total LM Index Number AH Arousal Index Number RERA Index Number Total LM Arousal Index Number Spontaneous Arousal Index Number Total Arousal Index Number 이벤트 Event Array Event_Number Number Event_Label String Start_Time String End_Time String Start_Epoch Number End_Epoch Number Duration(second) Number
-
데이터셋 구축 담당자
수행기관(주관) : 서울대학교병원
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 신현우 02-740-8275 [email protected] · 데이터 구축 총괄 · 원시데이터 확보 및 제공 · 결과물 검수 및 검증 수행기관(참여)
수행기관(참여) 기관명 담당업무 아워랩 · 데이터 설계
· 데이터 구축 프로세스 관리
· 원시데이터 전치리
· RPA(Robotic Process Automation)를 이용한 데이터 가공알투소프트 · 데이터 가공을 위한 RPA 개발 유비즈정보기술 · 데이터 검수용 어플리케이션 개발 한립대학교산학협력단 · 수면 단계 분류 모델 및 심전도 기반 수면질 분류 모델 개발 마인즈앤컴퍼니 · 이상 호흡 검출 모델 개발 스트라티오코리아 · 움직임 및 각성 검출 모델 개발 오엠인터렉티브 · 개발된 AI 모델을 활용하는 온라인 응용서비스 개발, 관리 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 신현우(서울대학교병원) 02-740-8275 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.