※온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
고령인구 우울증 데이터
- 분야헬스케어
- 구분 안심존(온라인)
- 유형 오디오 , 텍스트
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.2 2024-10-07 데이터 수정 1.1 2023-12-06 데이터 최종 개방 1.0 2023-05-04 데이터 개방(Beta Version) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2023-12-08 산출물 전체 공개 소개
고령인구 대상으로 인지기능, 음성, 활동량, 수면, 디지털 데이터 및 의료데이터 획득을 통해 최신 인공지능 학습기술 적용이 가능한 데이터 구축
구축목적
노인(60세 이상)의 인지기능/음성/활동량/수면/디지털데이터 및 의료데이터를 수집하고 수집한 데이터에 가공을 거쳐 구축된 데이터 셋을 활용, 인공지능 학습데이터 구축을 하고 활용 가능한 AI 모델 제시
-
메타데이터 구조표 데이터 영역 헬스케어 데이터 유형 오디오 , 텍스트 데이터 형식 wav, json, csv 데이터 출처 자체 수집 라벨링 유형 오디오 라벨링 형식 json 데이터 활용 서비스 맞춤형 우울, 불면, 인지기능에 대한 건강 상태 정보 서비스 데이터 구축년도/
데이터 구축량2022년/16,000 -
환자군/대조군 분포 환자군/대조군 분포 group COUNT 비율 비고 1 1,122 18.70% 대조군 2 4,878 81.30% 환자군 남녀 성비 남녀 성비 gender COUNT 비율 비고 1 1,752 29.20% 남자 2 4,248 70.80% 여자 연령대별 분포 연령대별 분포 age count 비율 60 이상 70 미만 2,442 40.70% 70 이상 80 미만 3,174 52.90% 80 이상 90 미만 384 6.40% 독거/동거 분포 독거/동거 분포 MS COUNT 비율 비고 1 1,320 22.00% 독거 2 4680 78.00% 동거 우울 증상자/ 비증상자 분포 우울 증상자/ 비증상자 분포 depression COUNT 비율 비고 0 4,212 70.20% 정상 1 1,788 29.80% 우울 불면 증상자/ 비증상자 분포 불면 증상자/ 비증상자 분포 category_id COUNT 결과 구성비 비고 0 3,942 65.70% 정상 1 2,058 34.30% 불면 -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드CNN-LSTM-MLP Network 설계
o 학습모델: 딥러닝(Deep Learning)
- 딥러닝은 머신러닝의 한 방법으로, 입력을 통해서 추론된 값과 목표로 하는 타겟의 에러(Error) 차이를 최소화(minimize)하는 방법임
- 기존의 머신러닝 기법과는 다르게 많은 파라미터를 사용하여 학습하고 많은 수의 층(layer)을 쌓는 구조로 학습을 하기 때문에 딥러닝이라는 명칭이 생겨나게 됨
- 각 층(layer)은 다양한 구조로 설계되어 알맞은 어플리케이션에 맞게 사용됨.
(a) CNN(Convolution neural network): 컨볼루션 연산을 사용할 수 있는 층(layer)으로 입력으로부터 특징(feature)을 추출하고 정보를 압축하는 역할을 수행함
(b) LSTM(Long short term memory): 시간 연속 데이터(time-series data)를 처리하기 위한 층(layer)으로 각 노드(node)는 현재의 입력과 과거의 출력을 같이 받아들여서 현재의 출력을 표현함. 시간 연속 데이터를 처리하기에 좋고 내부에 메모리를 가지고 있기 때문에 현재의 상태(state)를 저장하여 미래의 입력에 반영할 수 있음
(c) FC(Fully connected layer): 기본적인 신경층(neural layer)을 연결하여 모든 경우의 수를 다 학습하는 구조로 네트워크의 마지막 단계에서 샘플을 분류하거나 추론할 때 사용됨. 모든 노드(node)가 다 연결되어서 계산되므로 연산량이 많다는 단점이 있지만 분류능력이 좋음
- 위에서 언급된 층(layer)의 종류외에 다양한 구조가 있고 그러한 구조를 조합하여 전체 모델을 구성하게 됨. 딥러닝은 연산량이 많아서 GPU를 사용해야 하는 단점이 있지만 GPU의 병렬연산으로 계산이 연산량 대비 빠르고 성능이 기존 머신러닝과 비교해서 월등이 좋다는 장점이 있음.o 입력 데이터
- 음성데이터: 마이크로부터 사람의 음성을 녹음하여 raw데이터를 사용
- Downsampling: sampling rate를 16kHz로 맞추어서 학습에 사용
- 음성 특징 추출 네크워크 (SincNet)
(a) 기존 머신러닝 기법들은 사람이 직접 음성데이터를 시간 영역에서 주파수 영역으로 변환하여 Mel-Frequency Cepstral Coefficients (MFCCs) 특징을 추출하여 사용
(b) MFCC는 인간의 말소리 인식에 중요한 특징으로 이용되었고 적당한 성능 및 효율을 제공하였음
(c) 하지만, 최근 딥러닝의 발전으로 시간 영역에서 주파수 영역으로 변환하지 않고 주파수 대역을 학습하는 기법들이 발전되어 왔음o 모델 구성
- SincNet layer: 싱크넷은 2018년 벤지오 연구팀에서 개발된 네트워크로서 시간 영역에서 주파수 영역의 특징을 학습하는 방법을 제안한 모델임
(a) 인간의 목소리를 분류하는 데 필요한 주파수 대역은 남기고 나머지 주파수 대역은 무시하기 위해서 주파수 영역에서 Bandpass filter를 사용하여 필요 없는 주파수 대역을 제거함
(b) 주파수 영역에서 Bandpass filter는 시간 영역에서 Sinc 함수로 변환되고 주파수 영역에서 곱하기 연산은 시간 영역에서 콘볼루션(Convolution) 연산과 같음
(c) 이러한 원리에 착안하여 시간 영역에서 Sinc함수를 구현하여 음성데이터와 콘볼루션(Convolution) 연산을 취하면 주파수 영역에서 Bandpass filter를 사용하여 원하지 않는 영역대를 제거하는 연산과 동일한 연산을 할 수 있음
(d) SincNet layer는 Sinc함수를 구현하여 음성데이터와 콘볼루션 연산을하면서 Bandpass filter의 주파수 대역을 학습함으로써 우리가 원하는 대역을 잘 학습할 수 있음- CNN layer: CNN(Convolution neural network) 레이어는 SincNet 레이어에서 추출된 음성 대역에서 콘볼루션(Convolution) 연산을 사용하여 특징(feature)을 추출, 변환, 압축하는 역할을 수행함. 콘볼루션 레이어는 N x N filter를 이용하여 콘볼루션 연산을 수행하는데 필터의 크기 및 레이어의 깊이에 따라서 인지영역(Receptive Field)을 계산하여 설계할 수 있음. 레이어 최종 층에서 만들어지는 특징은 하나의 특징이 이전 레이어에서 얼마나 많은 영역의 특징을 참고하여 만들어지는지에 따라서 특징이 가지는 분류, 추론 능력이 달라짐
- 구성 및 학습된 모델
(a) 기본적인 CNN-MLP 구조의 네트워크는 음성신호로부터 특징을 제대로 추출해내지 못해서 학습 능력이 많이 떨어짐
(b) SincNet 기반의 CNN-MLP 구조의 네트워크는 음성신호로부터 주파수 대역을 잘 추출하여 학습하여 우수한 성능을 냄
(c) SincNet + LSTM 기반의 구조는 초기에 빠른 학습 성능을 보여주지만 최종 성능은 SincNet 기반의 CNN-MLP 구조보다 조금 떨어짐 -
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 우울증상 분류 성능 Text Classification SincNet F1-Score 75 점 88.68 점 2 불면증상 분류 성능 Text Classification SincNet F1-Score 75 점 88.63 점
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드1.라벨링 데이터
1.라벨링 데이터 항목명 타입 필수여부 설명 범위 비고 voice Object 음성정보 category_id Number Y 음성분류식별자 [1,2,3,4, 5,6,7,8] file_name String Y 음성파일명 subject Object 참여자정보 MS Number Y 참여자 주거형태 [1,2] 1:독거 2:동거 sex Number Y 참여자 성별 [1,2] 1:남자 2:여자 id String Y 참여자번호 [40001~ 70000] date_visited String Y 방문일자 YYYY-MM-DD age Number Y 참여자 나이 [17~99] group Number Y 참여자구분 [1,2] 1:환자군 2:대조군 lifelog Object 라이프로그 정보 total_wear_time Number N 총 착용 시간(%) total_steps Number N 총 걸음 수 total_sleep_time Number N 총 수면 시간 sleep_efficiency Number N 수면효율(%) Lux Number N 평균 조도 Kcals Number N 평균 소모 에너지 MET rate Number N 평균 활동량 depression Object 우울라벨링정보 PHQ-9 Number Y PHQ-9 점수 [0~27] PHQ-9-1 Number Y PHQ-9 1문항 답 [0,1,2,3] PHQ-9-2 Number Y PHQ-9 2문항 답 [0,1,2,3] category_id Number Y 클래스정보 [0,1] 0: 5 미만, 1: 5 이상 category_name String Y 라벨링텍스트 [정상, 우울한 기분] insomnia Object 불면라벨링정보 ISI Number Y ISI 점수 [0~28] category_id Number Y 클래스정보 [0,1] 0: 8 미만, 1: 8 이상 category_name String Y 라벨링텍스트 [정상, 불면] 3.임상데이터
3.임상데이터 구분 항목명 타입 필수여부 설명 범위 비고 1 sd Object Y 사회인구학적 특성 1-1 marital String Y 결혼상태정보 1-2 code String Y 결혼상태코드 [1,2,3,4,5,6] 1:기혼, 2:동거, 3:미혼, 4:이혼, 5:사별, 6:별거 1-3 name String Y 결혼상태 1-4 date datetime Y 데이터 수집 일 1-5 hospital_name String Y 데이터 수집 장소 1-6 education String Y 교육 1-7 smoking String Y 흡연여부 1-8 insurance String Y 의료보장상태 [1,2,3,4,5] 1:건강보험, 2:보호 1종/2종/3종, 3:산재/자보, 4:일반, 5:기타 1-9 drinking String Y 음주여부 1-10 sex String Y 성별 정보 1-11 code String Y 성별 코드 [1,2] 1:남자, 2:여자 1-12 name String Y 성별 이름 1-13 living String Y 주거환경 1-14 code String Y 주거환경 코드 [1,2,3,4] 1:대도시,2:소도시, 3:농어촌, 4:기타 1-15 name String Y 주거환경 이름 1-16 cohabitation String Y 동거 형태 정보 1-17 code String Y 동거 형태 코드 [1,2] 1:독거,2:동거 1-18 name String Y 동거 형태 이름 1-19 job String Y 직업 정보 1-20 code String Y 직업 코드 [1,2,3,4,5] 1:정규직,2:자영업/자유직,3:비정규직-전일,4:비정규직-파트타임,5:무직 1-21 name String Y 직업 이름 1-22 group String Y 참여구분 1-23 code String Y 참여구분 코드 [1,2] 1:환자군, 2:대조군 1-24 name String Y 참여구분 이름 1-25 initial_name String Y 참여자 이름 2 physical_info Object Y 신체정보 2-1 bp1 String Y 혈압(고)mmHg 2-2 bp2 String Y 혈압(저)mmHg 2-3 pulse_rate String Y 맥박수(회/min) 2-4 weight String Y 몸무게(kg) 2-5 height String Y 키(cm) 3 digital_device Object 디지털기기사용 정보 3-1 os String N 디지털기기os정보 [1,2] 3-2 app String N 정신건강 관련 앱 소유 여부 3-3 smartphone String N 소유 디지털 기기 종류 3-4 rank1 String N 스마트폰 콘텐츠 이용 순위 1 3-5 rank2 String N 스마트폰 콘텐츠 이용 순위 2 3-6 rank3 String N 스마트폰 콘텐츠 이용 순위 3 3-7 rank4 String N 스마트폰 콘텐츠 이용 순위 4 3-8 rank5 String N 스마트폰 콘텐츠 이용 순위 5 4 medh Object 내과적 병력 정보 4-1 cd String Y 뇌혈관질환 정보 4-2 name String Y 뇌혈관질환 진단 여부 이름 4-3 value String Y 뇌혈관질환 진단 여부 값 4-4 hbp String Y 고혈압 정보 4-5 name String Y 고혈압 진단 여부 이름 4-6 value String Y 고혈압 진단 여부 값 4-7 cancer String Y 악성신생물(암) 정보 4-8 name String Y 악성신생물(암) 진단 여부 이름 4-9 value String Y 악성신생물(암) 진단 여부 값 4-10 diabetes String Y 당뇨병 정보 4-11 name String Y 당뇨병 진단 여부 이름 4-12 value String Y 당뇨병 진단 여부 값 4-13 ap String Y 협심증 또는 심근경색증 정보 4-14 name String Y 협심증 또는 심근경색증 진단 여부 이름 4-15 value String Y 협심증 또는 심근경색증 진단 여부 값 4-16 misc String N 기타 4-17 no String N 순번 4-18 name String N 병명 4-19 value String N 진단 여부 5 APOE Object 유전자 정보 5-1 genotype String N 치매 관련 데이터 6 cantab Object 인지기능 정보 6-1 SWMBE468_P String N percentile 6-2 SWMBE468_SS String N standard score 6-3 SWMBE468 String N value 6-4 SWMS_P String N percentile 6-5 SWMS_SS String N standard score 6-6 SWMS String N value 6-7 RVPMDL String N 6-8 RVPA String N 6-9 RVPPFA String N 6-10 PALTEA_P String N percentile 6-11 PALTEA_SS String N standard score 6-12 PALTEA String N value 6-13 PALFAMS_P String N percentile 6-14 PALFAMS_SS String N standard score 6-15 PALFAMS String N value 7 CDW Object 혈액검사 정보 7-1 AST String N AST(SGOT) 7-2 TG String N 중성지방(mg/dL) 7-3 FBS String N 공복혈당(mg/dL) 7-4 eGRF String N 신사구체여과율 7-5 high_cole String N 고밀도 콜레스테롤(mg/dL) 7-6 ALT String N ALT(SGPT) 7-7 yGPT String N 감마지티피 7-8 total_cole String N 총콜레스테롤(mg/dL) 7-9 low_cole String N 저밀도 콜레스테롤(mg/dL) 7-10 HbA1c String N 혈색소(g/dL) 7-11 blood_creat String N 혈청 크레아티닌(mg/dL) 8 isi_info Object isi 검사 정보 8-1 q1a String Y 문항1-a 답 0,1,2,3,4 8-2 q1b String Y 문항1-b 답 0,1,2,3,4 8-3 q1c String Y 문항1-c 답 0,1,2,3,4 8-4 q2 String Y 문항2 답 0,1,2,3,4 8-5 q3 String Y 문항3 답 0,1,2,3,4 8-6 q4 String Y 문항4 답 0,1,2,3,4 8-7 q5 String Y 문항5 답 0,1,2,3,4 9 phq_info Object phq-9 검사정보 9-1 q1 String Y 문항1 답 0,1,2,3 9-2 q2 String Y 문항2 답 0,1,2,3 9-3 q3 String Y 문항3 답 0,1,2,3 9-4 q4 String Y 문항4 답 0,1,2,3 9-5 q5 String Y 문항5 답 0,1,2,3 9-6 q6 String Y 문항6 답 0,1,2,3 9-7 q7 String Y 문항7 답 0,1,2,3 9-8 q8 String Y 문항8 답 0,1,2,3 9-9 q9 String Y 문항9 답 0,1,2,3 4. 라이프로그
- 수면량 데이터4. 라이프로그- 수면량 데이터 항목 타입 필수여부 설명 Subject Name Number Y 대상자 번호 File Name String Y 액티라이프파일명 Serial Number String Y 시리얼번호 Epoch Length Number Y epoch 길이 Weight Number Y 입력한 몸무게 Age Number Y 입력한 나이 Gender String Y 입력한 성별 Sleep/Wake Algorithm String Y 수면/기상 알고리즘 Sleep Period Detection Algorithm String Y 수면 주기 감지 알고리즘 In Bed Time String Y 잠자리에든시간 Out Bed Time String Y 깨어난시간 Efficiency Number Y 수면효율 Onset String Y 시작시간 Latency Number Y 대기시간 Total Sleep Time Number Y 총 수면 시간 WASO Number Y 수면 시작 후 깬 횟수 Number of Awakenings Number Y 각성 횟수 Length of Awakenings in Minutes Number Y 각성 시간(분) Activity Counts Number Y 활동 수 Movement Index Number Y 이동 지수 Fragmentation Index Number Y 조각화 지수 Sleep Fragmentation Index Number Y 수면 조각화 지수 - 활동량 데이터
4. 라이프로그- 활동량 데이터 항목 타입 필수여부 설명 date String Y 날짜 epoch String Y epoch(1분단위) axis1 Number Y Axis 1 (Y-Axis) axis2 Number Y Axis 2 (X-Axis) axis3 Number Y Axis 3 (Z-Axis) vm Number Y Vector Magnitude steps Number Y 걸음수 lux Number Y 빛 노출량 inclinometer off Number Y inclinometer off inclinometer standing Number Y inclinometer standing inclinometer sitting Number Y inclinometer sitting inclinometer lying Number Y inclinometer lying kcals Number Y 활동량 MET rate Number Y 기초대사량 -
데이터셋 구축 담당자
수행기관(주관) : 전남대학교병원
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김주완 062)220-6146 [email protected] 전체 사업관리 수행기관(참여)
수행기관(참여) 기관명 담당업무 화순전남대학교병원 데이터 수집 및 정제 ㈜메가웍스 모델링 개발 모델링 개발 데이터 정제 및 가공 특허법인 지원 데이터 품질관리 및 검증 광주광역시청 일자리 창출 연계 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 김주완 062)220-6146 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.