콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
본 데이터는
온라인 안심존 데이터 ?

온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석

입니다.
#파킨슨병

파킨슨병 및 관련 질환 진단 음성데이터

파킨슨병 및 관련 질환 진단 음성 데이터 아이콘 이미지
  • 분야헬스케어
  • 구분 안심존(온라인)
  • 유형 오디오 , 텍스트
구축년도 : 2022 갱신년월 : 2023-12 조회수 : 19,740 다운로드 : 31

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.1 2023-12-20 데이터 최종 개방
    1.0 2023-04-30 데이터 개방(Beta Version)

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2024-01-26 산출물 전체 공개
    2023-07-28 담당자,연락처 변경

    소개

    음성 데이터를 이용하여 정상, 파킨슨병 환자 예측 AI 모델 제시

    구축목적

    임상 및 PET의 완전한 데이터셋(complete data set)을 근거로 한 파킨슨병과 비전형 파킨슨증 질환의 진단을 AI로 학습을 시켜서, 불완전한 데이터셋(incomplete data set)을 가진 환자의 진단을 AI 알고리듬을 통해 추정하는 진단법을 수립하는 것이 궁극적인 목적임.
  •  데이터 구축 규모

    데이터 구축 규모
    구분 목표 환자수 음성 메타 데이터
    (명) 데이터
    파킨슨병(PD) 후향적 200 200 200
    전향적 623 623 623
    본태성 진전(ET) 후향적 - - -
    전향적 297 297 297
    다계통위축(MSA) 후향적 - - -
    전향적 170 170 170
    진행성 핵상 마비(PSP) / 피질기저핵변성 CBD / (+FTD/AD) 후향적 - - -
    전향적 150 150 150
    정상 385 385 385
    합계 1,825 1,825 1,825

     


     데이터 분포

    데이터 분포
    다양
    (통계)
    연령대별 분포 구성비
    중첩률

    분포 확인

    데이터 분포
    연령대
    10대
    20대
    30대
    40대
    50대
    60대
    70대
    80대

     

     

     

    Ÿ 해당 항목은 내재적 특성이며 미리 계획할 수 없으므로 분포 확인을 목표로 설정
    다양성
    (요건)
    남녀 성비 구성비
    중첩률
    구성비 중첩률
    구성비 중첩률 50%

     

    목표 구성비
    목표 구성비
    남자 47.81%
    여자 52.19%
    Ÿ 음성 특성과 관련하여 성별을 구분

    **내원하는 환자군과 정상군을 대상으로 데이터를 수집함에 있어 성별, 거주지, 연령 등이 다양하게 분포되어 있고 불특정 다수를 대상으로 데이터 수집을 하기 때문에 구성비 예측이 다소 어려워 비율이 변경될 가능성이 높음
    정상/병적음성 분포 구성비
    중첩률
    구성비 중첩률
    구성비 중첩률 50%

     

    목표 구성비
    목표 구성비
    정상음성(NC) 21.10%
    병적음성 파킨슨병(PD) 45.10%
    본태성진전(ET) 16.30%
    다발성 신경계 위축(MSA) 9.30%
    타우파킨슨(TP) 8.20%
    Ÿ 수행계획서 데이터 구축 가이드라인
    **내원하는 환자군과 정상군을 대상으로 데이터를 수집함에 있어 불특정 다수를 대상으로 데이터 수집을 하기 때문에 구성비 예측이 다소 어려워 비율이 변경될 가능성이 높음
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    모델학습
    - ResNet101-V2 모델은 학습을 위해 음성 데이터(.wav) 파일의 형태를 이미지 형태로 변환해야 한다. 기본 학습 이미지 크기는 (224x224x3) 형태를 가지며, 분류층을 조정하여 최종 결과를 다른 방향으로 가지고 갈 수 있다. 질병의 유무만을 판단하는 이진 분류 또는 질환별로 유사도를 측정하는 다중 분류를 할 수 있다.

    서비스 활용 시나리오
    ⦁구축한 모델은 음성 질환 평가 및 분석 서비스에 활용할 수 있음.
    ⦁음성 질환 평가 및 분석 서비스 활용
    - 데이터 수요자가 음성 질환 분석 평가 서비스 제공회사라면 데이터 자체를 평가 지표 데이터 및 비교군 데이터로 사용하여 해당 질환의 중증도에 대해 비교하여 진행도를 파악할 수 있고, 학습한 AI 모델을 사용하여 질병의 유무에 대해 조기 발견하여, 선제 대응으로 질병의 경과를 최대한 늦출 수 있도록 빠른 치료를 시작할 수 있다.
     

    학습 알고리즘
    학습 알고리즘 Resnet101v2

    파킨슨 환자는 발성 시작에 어려움을 겪는다는 개념을 기반으로, 녹음파일의 1~2초 부분을 mel-Spectrogram 알고리즘으로 음성데이터를 이미지화 하여 학습 데이터로 변환한다.
    ImageNet으로 사전 학습된 모델의 기존 분류층을 제거한 후 학습 데이터에 맞는 분류 층을 추가한다.
    학습 조건 mel-Spectrogram 매개변수
    n_mels = 256

    모델 매개변수 조정
    epoch = 32
    optimizer = Adam
    learning rate = 1e-5
    파일 형식 • 학습 데이터셋: PNG
    • 평가 데이터셋: PNG
     
    전체 구축 데이터 대비
    모델에 적용되는 비율
    AI모델 사용 이미지 비율
    - 전체 음성데이터 35,841개중 변환된 음성 29,267개 약 81.5% 사용
  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 정상, 파킨슨 질환 분류 정확성 Audio Classification Resnet101v2 AUC-ROC 0.8 단위없음 0.82 단위없음

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

     데이터 포멧

    데이터 포멧
    데이터 종류 음성 데이터 메타 데이터 라벨링 데이터
    데이터 포맷 wav csv json

     


     데이터 구성
    - 기관코드

    기관코드
    기관명 파일명 구조
    서울대학교 병원 H01
    분당서울대학교 병원 H02
    경북대학교 산학협력단 H03

     

    - 데이터 코드(질병 구분별)

     
     
     
    데이터 종류
    데이터 종류 데이터 코드
    NC 정상
    PD 파킨슨병
    ET 본태성진전
    MSA 다발성 신경계 위축
    TP 타우파킨슨

     

     어노테이션 포맷
    - 18개 질문

     
    어노테이션 포맷
    구분 속성명 타입 필수여부 설명 범위 비고
    1 metaData   Y 메타 데이터 정보    
      1-1 Patient_No string Y 식별 ID    
    1-2 ICF_Date string Y 동의날짜    
    1-3 Inclusion string Y 선정기준    
    1-4 Exclusion string Y 제외기준    
    1-5 Sex string Y 성별 M, F  
    1-6 Date_of_Birth string Y 생년월일    
    1-7 Age string Y 연령    
    1-8 Genetic_Dx string Y 질병 코드 NC, PD, ET, MSA, TP NC:정상인
    PD:파킨슨 ET:본태성진전
    MSA:다발성 신경계 위축 
    TP:타우파킨슨
     
    1-9 Symtom_onset string N 발병년도    
    1-10 Severity_class string N 중증도    
    1-11 Underlying_disease_HTN string Y 동반질환_고혈압    
    1-12 Underlying_disease_DM string Y 동반질환_당뇨    
    1-13 Underlying_disease_Dyslipidemia string Y 동반질환_고지혈증    
    1-14 MRI_YN string Y MRI 여부    
    1-15 MRI_Date string N MRI 날짜    
    1-16 MRI_Conclusion string N MRI 결과    
    1-17 FDG_PET_YN string Y FDG_PET 여부    
    1-18 FDG_PET_Date string N FDG_PET 날짜    
    1-19 FDG_PET_Conclusion string N FDG_PET 결과    
    1-20 FP_CIT_PET_YN string Y FP_CIT_PET 여부    
    1-21 FP_CIT_PET_Date string N FP_CIT_PET 날짜    
    1-22 FP_CIT_PET_Conclusion string N FP_CIT_PET 결과    
    2 annotation   Y 원천데이터별 라벨링정보    
      2-1 category string Y 라벨링 카테고리 A1~18 질문 카테고리
    2-2 startTime number Y 음성 발화 시작 시간 0~100  
    2-3 endTime number Y 음성 발화 종료 시간 0~300  
    2-4 labelText string Y 음성 발화 입력 텍스트  
     

     

    - 18개 질문(14-18번 질문 반복녹음)

    18개 질문
    구분 속성명 타입 필수여부 설명 범위 비고
    1 metaData   Y 메타 데이터 정보    
      1-1 Patient_No string Y 식별 ID    
    1-2 ICF_Date string Y      
    1-3 Inclusion string Y      
    1-4 Exclusion string Y      
    1-5 Sex string Y 성별 M, F  
    1-6 Date_of_Birth string Y 생년월일    
    1-7 Age string Y 연령    
    1-8 Genetic_Dx string Y 질병 코드 NC, PD, ET, MSA, TP NC:정상인
    PD:파킨슨 ET:본태성진전
    MSA:다발성 신경계 위축 
    TP:타우파킨슨
     
    1-9 Symtom_onset string N      
    1-10 Severity_class string N      
    1-11 Underlying_disease_HTN string Y      
    1-12 Underlying_disease_DM string Y      
    1-13 Underlying_disease_Dyslipidemia string Y      
    1-14 MRI_YN string Y      
    1-15 MRI_Date string N      
    1-16 MRI_Conclusion string N      
    1-17 FDG_PET_YN string Y      
    1-18 FDG_PET_Date string N      
    1-19 FDG_PET_Conclusion string N      
    1-20 FP_CIT_PET_YN string Y      
    1-21 FP_CIT_PET_Date string N      
    1-22 FP_CIT_PET_Conclusion string N      
    2 annotation   Y 원천데이터별 라벨링정보    
      2-1 category string Y 라벨링 카테고리 A1~18 질문 카테고리
    2-2 startTime number Y 음성 발화 시작 시간 0~100  
    2-3 endTime number Y 음성 발화 종료 시간 0~300  
    2-4 labelText string Y 음성 발화 입력 텍스트  
     

     

    - 25개 질문

    25개 질문
    구분 속성명 타입 필수여부 설명 범위 비고
    1 metaData   Y 메타 데이터 정보    
      1-1 Patient_No string Y 식별 ID    
    1-2 ICF_Date string Y      
    1-3 Inclusion string Y      
    1-4 Exclusion string Y      
    1-5 Sex string Y 성별 M, F  
    1-6 Date_of_Birth string Y 생년월일    
    1-7 Age string Y 연령    
    1-8 Genetic_Dx string Y 질병 코드 NC, PD, ET, MSA, TP NC:정상인
    PD:파킨슨 ET:본태성진전
    MSA:다발성 신경계 위축 
    TP:타우파킨슨
     
    1-9 Symtom_onset string N      
    1-10 Severity_class string N      
    1-11 Underlying_disease_HTN string Y      
    1-12 Underlying_disease_DM string Y      
    1-13 Underlying_disease_Dyslipidemia string Y      
    1-14 MRI_YN string Y      
    1-15 MRI_Date string N      
    1-16 MRI_Conclusion string N      
    1-17 FDG_PET_YN string Y      
    1-18 FDG_PET_Date string N      
    1-19 FDG_PET_Conclusion string N      
    1-20 FP_CIT_PET_YN string Y      
    1-21 FP_CIT_PET_Date string N      
    1-22 FP_CIT_PET_Conclusion string N      
    2 annotation   Y 원천데이터별 라벨링정보    
      2-1 category string Y 라벨링 카테고리 A1~25 질문 카테고리
    2-2 startTime number Y 음성 발화 시작 시간 0~100  
    2-3 endTime number Y 음성 발화 종료 시간 0~300  
    2-4 labelText string Y 음성 발화 입력 텍스트  
     

     

    - 후향적데이터

    후향적데이터
    구분 속성명 타입 필수여부 설명 범위 비고
    1 metaData   Y 메타 데이터 정보    
      1-1 Patient_No string Y 식별 ID    
    1-2 ICF_Date string Y      
    1-3 Inclusion string Y      
    1-4 Exclusion string Y      
    1-5 Sex string Y 성별 M, F  
    1-6 Date_of_Birth string Y 생년월일    
    1-7 Age string Y 연령    
    1-8 Genetic_Dx string Y 질병 코드 PD  
    1-9 Symtom_onset string Y      
    2 annotation   Y 원천데이터별 라벨링정보    
      2-1 category string Y 라벨링 카테고리 A26~28 질문 카테고리
    2-2 startTime number Y 음성 발화 시작 시간 0~100  
    2-3 endTime number Y 음성 발화 종료 시간 0~300  
    2-4 labelText string Y 음성 발화 입력 텍스트  
     

     

     실제예시
    {
        "metaData": {
            "Patient_No": "3-001",
            "ICF_Date": "2022-07-04",
            "Inclusion": "Y",
            "Exclusion": "Y",
            "Sex": "F",
            "Date_of_Birth": "1983",
            "Age": "38",
            "Genetic_Dx": "NC",
            "Symtom_onset": "N",
            "Severity_class": "N",
            "Underlying_disease_HTN": "N",
            "Underlying_disease_DM": "N",
            "Underlying_disease_Dyslipidemia": "Y",
            "MRI_YN": "N",
            "MRI_Date": "",
            "MRI_Conclusion": "",
            "FDG_PET_YN": "N",
            "FDG_PET_Date": "",
            "FDG_PET_Conclusion": "",
            "FP_CIT_PET_YN": "N",
            "FP_CIT_PET_Date": "",
            "FP_CIT_PET_Conclusion": "",
        },
        "annotation": [
            {
                "category": "A18",
                "startTime": 0.84,
                "endTime": 6.96,
                "labelText": "무엇보다도 산에 오를 땐 더욱더 그 빼어난 아름다움이 느껴진다"
            }
        ]
    }

     

     

     

  • 데이터셋 구축 담당자

    수행기관(주관) : 가천대학교 산학협력단
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    김광기 032-458-2770 [email protected] 데이터 총괄 및 가공
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    서울대학교 병원 데이터 수집 및 검수
    분당서울대학교 병원 데이터 수집 및 검수
    경북대학교 산학협력단 데이터 수집 및 검수
    ㈜미소정보기술 데이터 정제 및 저작도구 개발
    ㈜이피아이랩 AI모델 개발
    인포뱅크(주) 데이터 품질 관리
    울산대학교 산학협력단 데이터 품질 관리
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    김광기 032-4458-2770 [email protected]
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.