콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
본 데이터는
온라인 안심존 데이터 ?

온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석

입니다.
#의료/헬스케어 # 헬스케어 # 건강서비스 #헬스케어 의료

만성콩팥병 및 합병증 추적관찰 임상의료 데이터

만성콩팥병 및 합병증 추적관찰 임상의료 데이터 아이콘 이미지
  • 분야헬스케어
  • 구분 안심존(온라인)
  • 유형 텍스트
구축년도 : 2022 갱신년월 : 2023-12 조회수 : 3,284 다운로드 : 18

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.1 2023-12-01 데이터 최종 개방
    1.0 2023-04-30 데이터 개방(Beta Version)

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2023-12-01 산출물 전체 공개

    소개

    만성콩팥병은 환자의 경과가 상당히 진행된 상태에서 치료를 시작하여 예후가 좋지 않음. 질병 악화 사전경고 및 중재 시스템 개발을 위해 8,000명 이상 10만건 이상의 학습데이터 구축

    구축목적

    만성콩팥병 질병 경과 및 합병증 발생 예측을 위한 위험인자 발견 및 중재효과 분석 및 AI 모델 개발
  • 1. 데이터 구축 규모
    학습데이터 명수 : 9,417 명
    학습데이터 건수 : 213,328 건

     

    2. 데이터 분포
    총 인원 :  9417 명
    총 건수 :  213238 건

     

    연령대별 분
    20 ~ 39 세  :  10.23 %  963 명 , 26060 건
    40 ~ 59 세  :  30.04 %  2829 명 , 78707 건
    60 ~ 75 세  :  37.36 %  3518 명 , 78765 건
    etc  :  22.37 %  2107 명 , 29706 건

     

    남녀 성비*
    여자  :  41.15 %  3875 명 , 88267 건
    남자  :  58.85 %  5542 명 , 124971 건

     

    병기단계별 분포*
    5단계  :  15.68 %  1477 명 , 57405 건
    1 ~ 4단계  :  84.32 %  7940 명 , 155833 건

     

     * 첫 임상검사 등록기준일 기준

  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    ● 입원사건 및 심혈관계 질환사건 위험 예측 모델

    입원사건 및 심혈관계 질환사건 위험 예측 모델


    ● 사구체여과율 수치 예측 모델

    사구체여과율 수치 예측 모델

     

    사구체여과율 수치 예측 모델
    데이터 구축 후 인공지능 모델을 활용하여 입원사건 위험, 질환사건 위험, 
    사구체여과율 수치 예측을 수행하여 데이터의 유효성을 판별
    라벨데이터별 중요도 판별 : 이벤트 발생 여부 빈도를 분석하여 중요도 판별 이벤트 발생 빈도↓ => 이벤트 중요도↑
    환자별 추적 기간 분석 : 시계열 모델에 적용이 가능한 sequence 길이를 가지는지 판별 추적 기간↑(환자별 데이터 개수↑) => 모델 적용 가능성↑
    예측결과 분석을 통한 유효성 판별 : 각 모델별 예측 결과를 출력후 모델별 Metric을 산출하여 분석 Metric이 기준 성능 대비 유사하거나 높을수록 유효성↑

     

    ① 입원사건 및 심혈관계 질환 위험 예측 모델
      - 입원 및 질환 발생 이벤트 및 기간을 학습하여 발생 위험도를 예측
      - 구축되는 추적데이터를 활용하여 일정 기간 내 이벤트가 발생하였는지를 생존분석 모델(DeepSurv)을 통해 학습하고, 학습데이터를 기반으로 구성된 생존함수를 통하여 위험도 예측을 실행

     

    ② 사구체여과율 수치 예측 모델
      - 구축한 시계열 데이터를 활용하여 사구체여과율(egfr) 수치 예측
      - 환자별 추적데이터는 시계열 데이터이므로 LSTM 모델을 활용하여 학습하고, LSTM 
        모델을 통해 출력된 feature vector를 활용하여 사구체여과율 수치를 예측하는 모델
        개발

  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 입원 사건 발생 예측 성능 Prediction DeepSurv AUC-ROC 0.7 단위없음 0.8617 단위없음
    2 심혈관계합병증 발생 예측 성능 Prediction DeepSurv C-index 0.7 단위없음 0.7878 단위없음
    3 사구체 여과율 변화 예측 성능 Prediction LSTM RMSE 20 % 19.34 %

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    - 데이터 구성

    데이터 구성
    번호 항목명 설명 테이블명 비고
    1 개인정보 생년월일, 성별, 거주지, 과거병력, 가족력 tb_person 시계열
    2 신체계측 키, 몸무게, 허리둘레, tb_anthro 시계열
    데이터 엉덩이둘레, 허리/엉덩이 비율,
      체질량지수, 수축기/이완기 혈압, 맥박
    3 혈액검사 해당 환자의 혈액검사 결과 tb_blood 시계열
    4 소변검사 해당 환자의 소변검사 결과 tb_urine 시계열
    5 약제처방 해당 환자의 처방된 약물정보 tb_med 시계열
    6 영상검사 심전도, 엑스레이, 전산화단층검사, 자기공명영상 검사, 초음파 검사를 포함한 영상검사들의 검사결과 및 판독결과지 tb_image 시계열
    결과
    7 예후 데이터 예측하고자 하는 주요 질환관련 예후 사건의 발생 정보 tb_outcome 시계열

     

    - 어노테이션 포맷

    어노테이션 포맷
    No 속성명 항목 설명 Type 필수여부 작성예시
    1 subno 식별자 string 필수 PT_CNH_01
    2 lab_date 혈액검사일자 string 필수 1: 전남대학교병원
    3 death 사망 여부 string 필수 0: 생존, 1: 사망
    4 death_date 사망 일자 datetime 비필수 yyyy-mm-dd
    5 admission 입원 여부 string 필수 0: 없음, 1: 있음
    6 admission_date 입원 일자 datetime 비필수 yyyy-mm-dd
    7 c_admission 입원 원인 string 필수 1: 기저 질환 악화
    2: 감염성 질환
    ...
    8 cv_event 심뇌혈관계질환 사건 string 필수 0: 없음, 1: 있음
    발생 여부
    9 cv_event_date 심뇌혈관계질환 사건 datetime 비필수 yyyy-mm-dd
    발생 일자
    10 c_cv_event 심뇌혈관계질환 사건 string 필수 1: revascularization
    발생 원인 2: stroke
      ...
    11 egfr 사구체 여과율 수치 numeric 필수 0~200
    12 re_event 신장기능 악화 사건 string 필수 0: 없음, 1: 있음
    발생 여부

     

    - 실제 예시

    실제 예시 이미지

  • 데이터셋 구축 담당자

    수행기관(주관) : 전남대학교병원
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    오태렴 교수 062-220-6296 [email protected] 과제 총괄 책임 / 데이터셋 설계 / 수집/ 가공 / 검수
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    부산대학교병원 데이터셋 / 수집/ 가공 / 검수
    전북대학교병원 데이터셋 / 수집/ 가공 / 검수
    화순전남대학교병원 데이터셋 / 수집/ 가공 / 검수
    나무기술 데이터셋 설계 / 정제
    전남대학교 산학협력단 학습모델구현
    나무인텔리전스 비식별화 도구 및 저작도구 개발
    이루온아이앤에스 데이터셋 품질관리 / 학습모델구현
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.