콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
본 데이터는
온라인 안심존 데이터 ?

온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석

입니다.
#헬스케어 의료

순음청력검사결과 데이터

순음청력 검사결과 데이터
  • 분야헬스케어
  • 구분 안심존(온라인)
  • 유형 텍스트
구축년도 : 2021 갱신년월 : 2022-07 조회수 : 3,829 다운로드 : 36

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2022-07-13 데이터 최초 개방

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2022-07-13 콘텐츠 최초 등록

    소개

    상급병원에서 정제된 청력검사결과를 획득하고, 인공지능 학습에 적합하도록 라벨링한 데이터로써, 기존의 데이터셋과는 다르게 어음청력검사 데이터를 포함하여 활용도를 높였음

    구축목적

    순음청력검사 결과를 기반으로 난청을 판단하고, 난청의 원인을 예측하는 AI 기반 청력 진단 서비스 개발
  • 1. 데이터 구축 규모

    • 청각검사를 실시한 환자의 Audiogram의 청력역치 값과 진단소견이 결합된 데이터 108,167건
      데이터셋 활용도를 높이기 위해 어음청력검사 결과가 포함되어 있음

     

    2. 데이터 분포
    가. 성별

    1. 데이터 구축 규모
    구분 수량 비율
    남성 52,000 48.07%
    여성 56,167 51.93%
    합계 108,167 100.00%

    나. 연령별

    나. 연령별
    구분 수량 비율
    50세 미만 38,920 35.98%
    50대, 60대 47,916 44.30%
    70세 이상 21,331 19.72%
    합계 108,167 100.00%

    다. 난청 형태별

    다. 난청 형태별
    구분 수량 비율
    정상 35,894 33.18%
    감각신경성 49,053 45.35%
    전도성 10,767 9.95%
    혼합성 12,453 11.51%
    합계 108,167 100.00%

    라. 난청 원인별 (중복 가능)

    라. 난청 원인별 (중복 가능)
    구분 수량 비율
    정상 33,779 28.46%
    유전성 및 선천성 1,488 1.25%
    소음성 3,308 2.79%
    두부외상 524 0.44%
    노인성 24,657 20.77%
    메니에르병 2,038 1.72%
    돌발성(미로염 포함) 7,244 6.10%
    후미로성 159 0.13%
    외이도감염 697 0.59%
    외이종물 346 0.29%
    선천성(외이도폐쇄, 소이증) 231 0.19%
    외상성 고막천공 448 0.38%
    선천성 이소골 기형 436 0.37%
    삼출성/급성 중이염 4,408 3.71%
    만성 중이염 17,960 15.13%
    진주종성 중이염 2,205 1.86%
    이경화증 167 0.14%
    종양(Glomus, 선천성 진주종) 160 0.13%
    원인미상 18,444 15.54%
    합계 118,699 100.00%
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 다운로드

    1. 모델 학습

    • GridSearchCV 기반으로 Stacked Model을 사용하여 진행함
    • 해당 Stacked basis Model에는 Deep Learning(DL) 모델인 MxNet, NetFastAI 그리고 Machine Learning(ML) 모델인 XGBoost, CatBoost, LightGBM 등이 포함되어 있음
    • Level 1 : 모델 및 하이퍼 파라미터는 고정하고, K-Fold 방식으로 분리된 데이터셋을 학습하여, 데이터셋 별 모델을 생성
    • bagging 방식으로 우수한 base 모델을 선택하여 WeightedEnsemble_L2로 메타모델을 만듬
    • Level 2 : Base-bagging_L1 모델들의 예측치를 훈련하여 Stacked-bagging_L2 모델을 생성
    • Level 3 : WeightedEnsemble_L3로 메타모델을 만들어 L2 메타모델과 비교 후 우수한 메타모델을 선택
    • 정형화된 학습용 데이터의 전처리 과정 중 이상치 처리 부분은 평균 대체법, 중앙값 대체법, 선형 보간법, 곡선 보간법 등의 기법으로 처리하여 원본데이터, MEAN 데이터, Median, Linear, Spline 총 5개의 데이터셋으로 확장
    • 해당 데이터셋은 Layer-Level 1(L1)에서 GridSearch 기반으로 K-Fold 20회를 거쳐서 bagging 방식으로 최고의 F1-score 성능을 가진 모델을 선별 후 예측치를 출력
    • Layer-Level 2(L2)는 L1에서 출력된 예측치에 대해 학습되며, Stacked Model Layer가 L1에서 사용한 모델과 하이퍼 파라미터를 재사용하여 L1의 출력이 연속성을 가진 상태로 L2의 입력으로 연결되어 L2의 예측치를 학습
    • Stacked Model이 새로운 ensemble에 도입되는 접근 방식 bagging, blending, voting 그리고 weighted average 중 Ensemble Layer검증 정확도가 최대화되는 weighted average 방식을 선택하여 메타 모델 산출
      순음청력검사-모델 학습 이미지-모델 전체 과정
      [그림] 모델 전체 과정
       

    2. 서비스 활용 시나리오

    • 어음청력검사 시작 dB 제시 모델 개발
      - 순음청력검사 결과와 어음청력검사 결과를 토대로 최적의 어음청력검사 시작 dB을 제시하는 모델을 개발
    • 고막 소견을 활용할 수 있는 모델 연구, 개발
      - 고막 이미지를 추가로 수집하여 고막 소견을 예측하는 모델을 개발하거나 순음, 어음청력검사 결과를 토대로 고막 소견을 예측한 후 이를 활용하여 고막 상태를 짐작하는 모델 개발
    • 자가 청각 검사 기기 개발
      - 과제에서 제출한 모델을 고도화하고 제시한 추가 모델들을 통합하여 자동으로 청각 검사를 하고, 이를 통해 난청 여부 판단, 고막 상태 예측 등을 지원하는 기기 개발에 활용
  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 난청 원인 분류성능 Classification ML : XGBoost, LightGBM, CatBoost, DL : NeuralnetMXnet, NetFastAI AUC-ROC 0.7 단위없음 0.86 단위없음
    2 난청 원인 분류성능 Classification ML : XGBoost, LightGBM, CatBoost, DL : NeuralnetMXnet, NetFastAI F1-Score 0.7 0.76

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    1. 대표도면

    • 원천데이터
      순음청력검사-대표도면-1
       
    • 라벨링데이터
      순음청력검사-대표도면-2

       

    2. 데이터 구성

    • 어노테이션 포맷 (원천데이터)
      1. 대표도면
      구분 항목명 타입 필수여부 설명 범위 비고(예시)
      1 uid string Y 라벨링 구분자 - CHU-1_1
      2 identifier string Y 난청 환자 ID - CHU-1
      3 age number Y 난청환자 나이 1~100 55
      4 sex number Y 난청환자 성별 0: 남자, 1: 여자 0
      5 hospital number Y 병원 정보 0: 전남대, 1: 경북대
      2: 전북대, 3: 충남대
      0
      6 date string Y 청력검사 날짜 yyyy-mm-dd 2021-01-01
      7 ear_select number Y 청력 위치 O(우측, 좌측) 0: 우측, 1: 좌측 0
      8 pta_ac_125 number N 기도청력, 125Hz 청력역치 0~100 25
      9 pta_ac_250 number N 기도청력, 250Hz 청력역치 0~100 25
      10 pta_ac_500 number Y 기도청력, 500Hz 청력역치 0~100 25
      11 pta_ac_1000 number Y 기도청력, 1000Hz 청력역치 0~100 25
      12 pta_ac_1500 number N 기도청력, 1500Hz 청력역치 0~100 25
      13 pta_ac_2000 number Y 기도청력, 2000Hz 청력역치 0~100 25
      14 pta_ac_3000 number N 기도청력, 3000Hz 청력역치 0~100 25
      15 pta_ac_4000 number Y 기도청력, 4000Hz 청력역치 0~100 25
      16 pta_ac_6000 number N 기도청력, 6000Hz 청력역치 0~100 25
      17 pta_ac_8000 number N 기도청력, 8000Hz 청력역치 0~100 25
      18 pta_bc_125 number N 골도청력, 125Hz 청력역치 0~100 25
      19 pta_bc_250 number N 골도청력, 250Hz 청력역치 0~100 25
      20 pta_bc_500 number N 골도청력, 500Hz 청력역치 0~100 25
      21 pta_bc_1000 number N 골도청력, 1000Hz 청력역치 0~100 25
      22 pta_bc_1500 number N 골도청력, 1500Hz 청력역치 0~100 25
      23 pta_bc_2000 number N 골도청력, 2000Hz 청력역치 0~100 25
      24 pta_bc_3000 number N 골도청력, 3000Hz 청력역치 0~100 25
      25 pta_bc_4000 number N 골도청력, 4000Hz 청력역치 0~100 25
      26 pta_bc_6000 number N 골도청력, 6000Hz 청력역치 0~100 25
      27 pta_bc_8000 number N 골도청력, 8000Hz 청력역치 0~100 25
      28 hearing_loss number Y 난청 형태적 분류 0: 정상, 1: 감각신경성
      2: 전도성, 3: 혼합성
      0
      29 cause_loss_priority string Y 난청 원인 우선도   cause_loss_1
      30 text_eardr_1 number Y 고막 상태 소견 : 정상 1: true, 0: false 0
      31 text_eardr_2 number Y 고막 상태 소견 : 천공(모든 크기) 1: true, 0: false 0
      32 text_eardr_3 number Y 고막 상태 소견 : 염증(발적, 종창) 1: true, 0: false 0
      33 text_eardr_4 number Y 고막 상태 소견 : 함입 및 유착 1: true, 0: false 0
      34 text_eardr_5 number Y 고막 상태 소견 : 종물 1: true, 0: false 0
      35 text_eardr_6 number Y 고막 상태 소견 : 삼출액 1: true, 0: false 0
      36 text_eardr_7 number Y 고막 상태 소견 : 술후 상태 1: true, 0: flase 0
      37 text_eardr_priority string Y 고막 상태 소견 우선도   text_eardr_1
      38 srt_level number Y 어음청취역치  0~100 50
      39 wrs_level number Y 어음인지 테스트 레벨 0~100 50
      40 wrs_score number Y 어음인지 스코어 0~100 100

       
    • 어노테이션 포맷 (라벨링 데이터)
      어노테이션 포맷 (라벨링 데이터)
      구분 항목명 타입 필수여부 설명 범위 비고(예시)
      1 uid string Y 라벨링 구분자   CHU-1_1
      2 cause_loss_1 number Y 원인 : 정상 1: true, 0: false 0
      3 cause_loss_2 number Y 원인 : 유전성 및 선천성 1: true, 0: false 0
      4 cause_loss_3 number Y 원인 : 소음성 1: true, 0: false 0
      5 cause_loss_4 number Y 원인 : 두부외상 1: true, 0: false 0
      6 cause_loss_5 number Y 원인 : 노인성 1: true, 0: false 0
      7 cause_loss_6 number Y 원인 : 메니에르병 1: true, 0: false 0
      8 cause_loss_7 number Y 원인 : 돌발성(미로염 포함) 1: true, 0: false 0
      9 cause_loss_8 string Y 원인 : 후미로성 1: true, 0: false 0
      10 cause_loss_9 string Y 원인 : 외이도감염 1: true, 0: false 0
      11 cause_loss_10 string Y 원인 : 외이종물 1: true, 0: false 0
      12 cause_loss_11 string Y 원인 : 선천성 (외이도폐쇄, 소이증) 1: true, 0: false 0
      13 cause_loss_12 string Y 원인 : 외상성 고막천공 1: true, 0: false 0
      14 cause_loss_13 string Y 원인 : 선천성 이소골 기형 1: true, 0: false 0
      15 cause_loss_14 string Y 원인 : 삼출성/급성 중이염 1: true, 0: false 0
      16 cause_loss_15 string Y 원인 : 만성 중이염 1: true, 0: false 0
      17 cause_loss_16 string Y 원인 : 진주종성 중이염 1: true, 0: false 0
      18 cause_loss_17 string Y 원인 : 이경화증 1: true, 0: false 0
      19 cause_loss_18 string Y 원인 : 종양 (Glomus, 선천성진주종) 1: true, 0: false 0
      20 cause_loss_19 string Y 원인 : 원인미상 1: true, 0: false 0

       

    3. 데이터 실제 예시

    • 원천데이터(.csv) 예시
      순음청력검사-데이터 실제 예시-1
    • 라벨링 데이터(.csv) 예시
      순음청력검사-데이터 실제 예시-2
  • 데이터셋 구축 담당자

    수행기관(주관) : 나무기술 ㈜
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    김경우 02) 3288-7900 [email protected] · 총괄관리
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    나무기술 ㈜ · 총괄관리
    · 분석 알고리즘 개발
    · AI 모델 검증
    인피노브 ㈜ · AI모델 개발 및 검증
    · 라벨링 도구 개발
    ㈜ 조인트리 · 품질관리
    · 외부 검증 대응
    ㈜ 이루온 아이앤에스 · 정제 도구 개발
    · 데이터 라벨링
    전남대학교병원 · 데이터 구축 (획득, 정제, 라벨링) 및 검증
    경북대학교병원 · 데이터 구축 (획득, 정제, 라벨링) 및 검증
    전북대학교병원 · 데이터 구축 (획득, 정제, 라벨링) 및 검증
    충남대학교병원 · 데이터 구축 (획득, 정제, 라벨링) 및 검증
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.