※온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
파킨슨병 및 관련 질환 진단 음성데이터
- 분야헬스케어
- 구분 안심존(온라인)
- 유형 오디오 , 텍스트
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2023-12-20 데이터 최종 개방 1.0 2023-04-30 데이터 개방(Beta Version) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-01-26 산출물 전체 공개 2023-07-28 담당자,연락처 변경 소개
음성 데이터를 이용하여 정상, 파킨슨병 환자 예측 AI 모델 제시
구축목적
임상 및 PET의 완전한 데이터셋(complete data set)을 근거로 한 파킨슨병과 비전형 파킨슨증 질환의 진단을 AI로 학습을 시켜서, 불완전한 데이터셋(incomplete data set)을 가진 환자의 진단을 AI 알고리듬을 통해 추정하는 진단법을 수립하는 것이 궁극적인 목적임.
-
메타데이터 구조표 데이터 영역 헬스케어 데이터 유형 오디오 , 텍스트 데이터 형식 WAV, CSV 데이터 출처 자체 수집 라벨링 유형 분류태그, 전사 텍스트 라벨링 형식 JSON 데이터 활용 서비스 의료서비스 데이터 구축년도/
데이터 구축량2022년/1862 Case -
데이터 구축 규모
데이터 구축 규모 구분 목표 환자수 음성 메타 데이터 (명) 데이터 파킨슨병(PD) 후향적 200 200 200 전향적 623 623 623 본태성 진전(ET) 후향적 - - - 전향적 297 297 297 다계통위축(MSA) 후향적 - - - 전향적 170 170 170 진행성 핵상 마비(PSP) / 피질기저핵변성 CBD / (+FTD/AD) 후향적 - - - 전향적 150 150 150 정상 385 385 385 합계 1,825 1,825 1,825
데이터 분포데이터 분포 다양성
(통계)연령대별 분포 구성비
중첩률분포 확인
데이터 분포 연령대 10대 20대 30대 40대 50대 60대 70대 80대 해당 항목은 내재적 특성이며 미리 계획할 수 없으므로 분포 확인을 목표로 설정 다양성
(요건)남녀 성비 구성비
중첩률구성비 중첩률 구성비 중첩률 50% 목표 구성비 목표 구성비 남자 47.81% 여자 52.19% 음성 특성과 관련하여 성별을 구분
**내원하는 환자군과 정상군을 대상으로 데이터를 수집함에 있어 성별, 거주지, 연령 등이 다양하게 분포되어 있고 불특정 다수를 대상으로 데이터 수집을 하기 때문에 구성비 예측이 다소 어려워 비율이 변경될 가능성이 높음정상/병적음성 분포 구성비
중첩률구성비 중첩률 구성비 중첩률 50% 목표 구성비 목표 구성비 정상음성(NC) 21.10% 병적음성 파킨슨병(PD) 45.10% 본태성진전(ET) 16.30% 다발성 신경계 위축(MSA) 9.30% 타우파킨슨(TP) 8.20% 수행계획서 데이터 구축 가이드라인
**내원하는 환자군과 정상군을 대상으로 데이터를 수집함에 있어 불특정 다수를 대상으로 데이터 수집을 하기 때문에 구성비 예측이 다소 어려워 비율이 변경될 가능성이 높음 -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드모델학습
- ResNet101-V2 모델은 학습을 위해 음성 데이터(.wav) 파일의 형태를 이미지 형태로 변환해야 한다. 기본 학습 이미지 크기는 (224x224x3) 형태를 가지며, 분류층을 조정하여 최종 결과를 다른 방향으로 가지고 갈 수 있다. 질병의 유무만을 판단하는 이진 분류 또는 질환별로 유사도를 측정하는 다중 분류를 할 수 있다.서비스 활용 시나리오
⦁구축한 모델은 음성 질환 평가 및 분석 서비스에 활용할 수 있음.
⦁음성 질환 평가 및 분석 서비스 활용
- 데이터 수요자가 음성 질환 분석 평가 서비스 제공회사라면 데이터 자체를 평가 지표 데이터 및 비교군 데이터로 사용하여 해당 질환의 중증도에 대해 비교하여 진행도를 파악할 수 있고, 학습한 AI 모델을 사용하여 질병의 유무에 대해 조기 발견하여, 선제 대응으로 질병의 경과를 최대한 늦출 수 있도록 빠른 치료를 시작할 수 있다.
학습 알고리즘 학습 알고리즘 Resnet101v2
파킨슨 환자는 발성 시작에 어려움을 겪는다는 개념을 기반으로, 녹음파일의 1~2초 부분을 mel-Spectrogram 알고리즘으로 음성데이터를 이미지화 하여 학습 데이터로 변환한다.
ImageNet으로 사전 학습된 모델의 기존 분류층을 제거한 후 학습 데이터에 맞는 분류 층을 추가한다.학습 조건 mel-Spectrogram 매개변수
n_mels = 256
모델 매개변수 조정
epoch = 32
optimizer = Adam
learning rate = 1e-5파일 형식 • 학습 데이터셋: PNG • 평가 데이터셋: PNG 전체 구축 데이터 대비
모델에 적용되는 비율AI모델 사용 이미지 비율
- 전체 음성데이터 35,841개중 변환된 음성 29,267개 약 81.5% 사용 -
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 정상, 파킨슨 질환 분류 정확성 Audio Classification Resnet101v2 AUC-ROC 0.8 단위없음 0.82 단위없음
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드 데이터 포멧
데이터 포멧 데이터 종류 음성 데이터 메타 데이터 라벨링 데이터 데이터 포맷 wav csv json
데이터 구성
- 기관코드기관코드 기관명 파일명 구조 서울대학교 병원 H01 분당서울대학교 병원 H02 경북대학교 산학협력단 H03 - 데이터 코드(질병 구분별)
데이터 종류 데이터 종류 데이터 코드 NC 정상 PD 파킨슨병 ET 본태성진전 MSA 다발성 신경계 위축 TP 타우파킨슨 어노테이션 포맷
- 18개 질문어노테이션 포맷 구분 속성명 타입 필수여부 설명 범위 비고 1 metaData Y 메타 데이터 정보 1-1 Patient_No string Y 식별 ID 1-2 ICF_Date string Y 동의날짜 1-3 Inclusion string Y 선정기준 1-4 Exclusion string Y 제외기준 1-5 Sex string Y 성별 M, F 1-6 Date_of_Birth string Y 생년월일 1-7 Age string Y 연령 1-8 Genetic_Dx string Y 질병 코드 NC, PD, ET, MSA, TP NC:정상인 PD:파킨슨 ET:본태성진전 MSA:다발성 신경계 위축 TP:타우파킨슨 1-9 Symtom_onset string N 발병년도 1-10 Severity_class string N 중증도 1-11 Underlying_disease_HTN string Y 동반질환_고혈압 1-12 Underlying_disease_DM string Y 동반질환_당뇨 1-13 Underlying_disease_Dyslipidemia string Y 동반질환_고지혈증 1-14 MRI_YN string Y MRI 여부 1-15 MRI_Date string N MRI 날짜 1-16 MRI_Conclusion string N MRI 결과 1-17 FDG_PET_YN string Y FDG_PET 여부 1-18 FDG_PET_Date string N FDG_PET 날짜 1-19 FDG_PET_Conclusion string N FDG_PET 결과 1-20 FP_CIT_PET_YN string Y FP_CIT_PET 여부 1-21 FP_CIT_PET_Date string N FP_CIT_PET 날짜 1-22 FP_CIT_PET_Conclusion string N FP_CIT_PET 결과 2 annotation Y 원천데이터별 라벨링정보 2-1 category string Y 라벨링 카테고리 A1~18 질문 카테고리 2-2 startTime number Y 음성 발화 시작 시간 0~100 2-3 endTime number Y 음성 발화 종료 시간 0~300 2-4 labelText string Y 음성 발화 입력 텍스트 - 18개 질문(14-18번 질문 반복녹음)
18개 질문 구분 속성명 타입 필수여부 설명 범위 비고 1 metaData Y 메타 데이터 정보 1-1 Patient_No string Y 식별 ID 1-2 ICF_Date string Y 1-3 Inclusion string Y 1-4 Exclusion string Y 1-5 Sex string Y 성별 M, F 1-6 Date_of_Birth string Y 생년월일 1-7 Age string Y 연령 1-8 Genetic_Dx string Y 질병 코드 NC, PD, ET, MSA, TP NC:정상인 PD:파킨슨 ET:본태성진전 MSA:다발성 신경계 위축 TP:타우파킨슨 1-9 Symtom_onset string N 1-10 Severity_class string N 1-11 Underlying_disease_HTN string Y 1-12 Underlying_disease_DM string Y 1-13 Underlying_disease_Dyslipidemia string Y 1-14 MRI_YN string Y 1-15 MRI_Date string N 1-16 MRI_Conclusion string N 1-17 FDG_PET_YN string Y 1-18 FDG_PET_Date string N 1-19 FDG_PET_Conclusion string N 1-20 FP_CIT_PET_YN string Y 1-21 FP_CIT_PET_Date string N 1-22 FP_CIT_PET_Conclusion string N 2 annotation Y 원천데이터별 라벨링정보 2-1 category string Y 라벨링 카테고리 A1~18 질문 카테고리 2-2 startTime number Y 음성 발화 시작 시간 0~100 2-3 endTime number Y 음성 발화 종료 시간 0~300 2-4 labelText string Y 음성 발화 입력 텍스트 - 25개 질문
25개 질문 구분 속성명 타입 필수여부 설명 범위 비고 1 metaData Y 메타 데이터 정보 1-1 Patient_No string Y 식별 ID 1-2 ICF_Date string Y 1-3 Inclusion string Y 1-4 Exclusion string Y 1-5 Sex string Y 성별 M, F 1-6 Date_of_Birth string Y 생년월일 1-7 Age string Y 연령 1-8 Genetic_Dx string Y 질병 코드 NC, PD, ET, MSA, TP NC:정상인 PD:파킨슨 ET:본태성진전 MSA:다발성 신경계 위축 TP:타우파킨슨 1-9 Symtom_onset string N 1-10 Severity_class string N 1-11 Underlying_disease_HTN string Y 1-12 Underlying_disease_DM string Y 1-13 Underlying_disease_Dyslipidemia string Y 1-14 MRI_YN string Y 1-15 MRI_Date string N 1-16 MRI_Conclusion string N 1-17 FDG_PET_YN string Y 1-18 FDG_PET_Date string N 1-19 FDG_PET_Conclusion string N 1-20 FP_CIT_PET_YN string Y 1-21 FP_CIT_PET_Date string N 1-22 FP_CIT_PET_Conclusion string N 2 annotation Y 원천데이터별 라벨링정보 2-1 category string Y 라벨링 카테고리 A1~25 질문 카테고리 2-2 startTime number Y 음성 발화 시작 시간 0~100 2-3 endTime number Y 음성 발화 종료 시간 0~300 2-4 labelText string Y 음성 발화 입력 텍스트 - 후향적데이터
후향적데이터 구분 속성명 타입 필수여부 설명 범위 비고 1 metaData Y 메타 데이터 정보 1-1 Patient_No string Y 식별 ID 1-2 ICF_Date string Y 1-3 Inclusion string Y 1-4 Exclusion string Y 1-5 Sex string Y 성별 M, F 1-6 Date_of_Birth string Y 생년월일 1-7 Age string Y 연령 1-8 Genetic_Dx string Y 질병 코드 PD 1-9 Symtom_onset string Y 2 annotation Y 원천데이터별 라벨링정보 2-1 category string Y 라벨링 카테고리 A26~28 질문 카테고리 2-2 startTime number Y 음성 발화 시작 시간 0~100 2-3 endTime number Y 음성 발화 종료 시간 0~300 2-4 labelText string Y 음성 발화 입력 텍스트 실제예시
{
"metaData": {
"Patient_No": "3-001",
"ICF_Date": "2022-07-04",
"Inclusion": "Y",
"Exclusion": "Y",
"Sex": "F",
"Date_of_Birth": "1983",
"Age": "38",
"Genetic_Dx": "NC",
"Symtom_onset": "N",
"Severity_class": "N",
"Underlying_disease_HTN": "N",
"Underlying_disease_DM": "N",
"Underlying_disease_Dyslipidemia": "Y",
"MRI_YN": "N",
"MRI_Date": "",
"MRI_Conclusion": "",
"FDG_PET_YN": "N",
"FDG_PET_Date": "",
"FDG_PET_Conclusion": "",
"FP_CIT_PET_YN": "N",
"FP_CIT_PET_Date": "",
"FP_CIT_PET_Conclusion": "",
},
"annotation": [
{
"category": "A18",
"startTime": 0.84,
"endTime": 6.96,
"labelText": "무엇보다도 산에 오를 땐 더욱더 그 빼어난 아름다움이 느껴진다"
}
]
} -
데이터셋 구축 담당자
수행기관(주관) : 가천대학교 산학협력단
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김광기 032-458-2770 [email protected] 데이터 총괄 및 가공 수행기관(참여)
수행기관(참여) 기관명 담당업무 서울대학교 병원 데이터 수집 및 검수 분당서울대학교 병원 데이터 수집 및 검수 경북대학교 산학협력단 데이터 수집 및 검수 ㈜미소정보기술 데이터 정제 및 저작도구 개발 ㈜이피아이랩 AI모델 개발 인포뱅크(주) 데이터 품질 관리 울산대학교 산학협력단 데이터 품질 관리 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 김광기 032-4458-2770 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.