콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#자연어 #문화 #헬스케어 건강서비스

NEW 생성형AI 고령자 근현대 경험 기반 스토리 구술 데이터

고령자 근현대 경험 기반 스토리 구술 데이터 아이콘 이미지
  • 분야한국어
  • 유형 오디오 , 텍스트
구축년도 : 2023 갱신년월 : 2024-10 조회수 : 2,890 다운로드 : 266 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.1 2024-10-30 데이터 최종 개방
    1.0 2024-07-05 데이터 개방 Beta Version

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2024-07-05 산출물 공개 Beta Version

    소개

    - 60세 이상 고령자가 5개의 카테고리(감정-긍정/중립, 감정-부정, 사물, 장소, 관계/사건)에 속한 50개 단어에 대해 구술한 기억 데이터 수집. 구술자의 메타정보, 기억의 구체성 및 감정, 감각 요소 등이 태깅된 학습데이터 구축

    구축목적

    - 노인(60세 이상)의 고령자가 구술한 근현대 경험 기반 자서전적 스토리를 바탕으로 기억 회상의 구체화 정도를 통한 인지능력, 치매 위험성, 정신건강 수준 평가, 고령자 문화 간접체험 등에 활용
  • - 데이터 구축 규모

      원천데이터: 음성(wav) 143,630건(10,529시간), 텍스트(txt) 143,630건. (전체 3.81TB)
      라벨링 데이터: json 143,630건. (전체 653.30MB)

    데이터 구축 규모
    키워드 대분류 데이터 형태 파일 형태 규모(건) 비율(%)
    01. 감정-긍정/중립 원천 데이터 .wav 33,626 23.41
    .txt 33,626
    라벨링 데이터 .json 33,626
    02. 감정-부정 원천 데이터 .wav 28,702 19.98
    .txt 28,702
    라벨링 데이터 .json 28,702
    03. 사물 원천 데이터 .wav 25,369 17.66
    .txt 25,369
    라벨링 데이터 .json 25,369
    04. 장소 원천 데이터 .wav 27,965 19.47
    .txt 27,965
    라벨링 데이터 .json 27,965
    05. 관계/사건 원천 데이터 .wav 27,968 19.47
    .txt 27,968
    라벨링 데이터 .json 27,968
    전체 원천 데이터 .wav 143,630 100
    원천 데이터 .txt 143,630
    라벨링 데이터 .json 143,630

     

    - 데이터 분포
      1. 키워드 분포

    데이터 분포 1. 키워드 분포
    키워드 대분류 키워드 규모(건) 비율(%)
    01. 감정-긍정/중립 001. 기쁘다 3322 2.31
    002. 즐겁다 2826 1.97
    003. 행복하다 3255 2.27
    004. 편안하다 2703 1.88
    005. 고맙다 3560 2.48
    006. 안심하다 2581 1.8
    007. 재미있다 2672 1.86
    008. 자랑스럽다 3164 2.2
    009. 반갑다 2660 1.85
    010. 그립다 2477 1.72
    011. 망설이다 2502 1.74
    012. 충격받다 1904 1.33
    소계 12 33,626 23.41
    02. 감정-부정 013. 미안하다 3299 2.3
    014. 슬프다 3087 2.15
    015. 불안하다 2751 1.92
    016. 긴장되다 2435 1.7
    017. 외롭다 2739 1.91
    018. 후회하다 2992 2.08
    019. 화나다 2755 1.92
    020. 답답하다 2390 1.66
    021. 지루하다 2132 1.48
    022. 힘들다 2364 1.65
    023. 부끄럽다 1758 1.22
    소계 11 28,702 19.98
    03. 사물 024. 선물 3646 2.54
    025. 자동차 3603 2.51
    026. 핸드폰 3121 2.17
    027. 옷 2740 1.91
    028. 책 2399 1.67
    029. 음식 3273 2.28
    030. 신문 1971 1.37
    031. 꽃 2656 1.85
    032. 컴퓨터 1960 1.36
    소계 9 25,369 17.66
    04. 장소 033. 산 3677 2.56
    034. 집 3399 2.37
    035. 식당 3201 2.23
    036. 학교 3485 2.43
    037. 공원 3042 2.12
    038. 지하철 3202 2.23
    039. 바다 2793 1.94
    040. 동물원 2294 1.6
    041. 병원 2872 2
    소계 9 27,965 19.47
    05. 관계/사건 042. 강아지 3527 2.46
    043. 친구 3601 2.51
    044. 부모 3356 2.34
    045. 아기 2846 1.98
    046. 고양이 2341 1.63
    047. 휴가 3202 2.23
    048. 성공 2672 1.86
    049. 칭찬 2797 1.95
    050. 여행 3626 2.52
    소계 9 27,968 19.47
    총계   143,360 100

     

      2. 연령대 분포

    구술자 연령대 분포 그래프 이미지

     

      3. 성별 분포

    구술자 성별 분포 이미지

     

      4. 성별 별 연령분포

    성별 별 연령 분포 이미지

     

      5. 거주지역 분포

    구술자 거주지역 분포 그래프 이미지


      6. 항목별 태깅 분포

    항목별 태깅 분포 그래프 이미지

  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    - 활용 모델

      모델 학습
       - 14만 건(1만 시간) 이상의 음성 전사데이터로 이루어진 말뭉치로서, 검증 및 평가를 데이터를 1만 문장 이상씩 분할하여 활용 가능함.

    모델 학습
      학습(Training) 검증(Validation) 평가(Test)
    개요 학습 데이터에 충분히 학습 - 학습 도중 모델 성과 평가 및 비교 모델 학습 완료 후 모델 성능 시험
    정확도 (Accuracy), F1 점수 등
    필요 많을수록 좋음 (십만 단위) 10% (최소 1만 건 이상) 10% (최소 1만 건 이상)
    예제

    활용AI모델 설명_분류 모델 구조 개괄 이미지

                     그림. 개발되는 예시 분류 모델 구조 개괄

     

    - 서비스 활용 시나리오
     ● 구축한 모델은 발화 구체성 평가 및 코퍼스 연구에 활용 가능
         ‑ 기억의 구체성 및 발화의  구체성 평가 업무: 데이터 수요자가 고령자 발화 기반의 서비스 제공을 고려하는 업체일 경우, 학습한 인공 지능 분류 엔진을 통해 서비스 제공 가능
         ‑ 고령자의 발화에 대한 구체성의 정도 등을 평가하여 기억력 진단 및 기억 훈련 등의 목적에 활용
         ‑ 연구 활용 시, 자연어 처리 중 자연어 이해 하류 태스크 수행 및 언어 지능 연구, 고령자 발화 연구 등 다양한 용도로 활용 가능함
     ● 구축한 데이터셋은 기억에 대한 구체성 평가 및 코퍼스 연구에 활용 가능
         ‑ 5개 카테고리에 속한 50개의 키워드 자체가 기억 발화에 대한 태깅으로 기능함: 예를 들어 ‘불안하다’에 응답한 내용과 ‘행복하다’에 응답한 내용을 분석하여 기억 훈련, 발화를 통한 정신건강 평가 등의 AI모델 구성에 활용 가능 
         ‑ 구축한 자료는 고령자의 인지기능, 치매위험성, 우울증 평가 등 고령자 대상 정신건강분야 연구를 위한 말뭉치 자료로 활용될 수 있음.
         ‑ 인지기능 및 정신건강 향상을 위한 기억 훈련의 말뭉치 자료로 활용 가능
         ‑ 문서에 감정, 감각 포함 여부 태깅 및 조사원 발화의 공감 반응, 추가 질문 유무 태깅
         ‑ 근현대 문화 간접 체험 등의 서비스에도 활용 가능함

     

    - 기타 정보
     ● 대표성

         - 사용자의 데이터 활용도를 고려하여, 실제 음성 상황 기반의 전사 텍스트 데이터를 원문으로 함께 제공하며, 사건, 시간, 공간적 구체성 및 감정, 생각, 인물 등의 자질들에 대한 라벨링을 통해, 다양한 용도의 학습 모델이 전반적으로 구축 가능함.

     

     ● 독립성
         - 기존 NIA 및 AI-hub 내의 대화 상황에서의 음성 전사 데이터와는 중복되지 않는 직접 고령자 인터뷰를 통해 녹음, 음성 전사 및 데이터 정제를 통해 수집된 새로운 한국어 말뭉치임.

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    - 데이터 구성

    데이터 구성
    Key Description Type Child Type
    qa 질문답변 쌍 배열 array  
    {} 질문답변 쌍 object  
    question 질문 string  
    answer 답변 string  
    audioFile 질문답변 음성파일 string  
    audioTime 음성시간(분, 초) string  
    teller 구슬자 array  
    {} 구술자 정보 object  
    불안점수(불안하고 초조해서 직장 생활과 사회생활에 어려움이 있었다.) 구슬자 상태 파악을 위한 점수 number  
    나이 나이 number  
    성별 성별 string  
    배우자 배우자 유무/상태 string  
    동거인수(본인포함) 본인포함 함께 살고 있는 사람수 number  
    자녀수 자녀수 number  
    교육년 교육받은 총 년수(정규교육) number  
    고향 고향(광역시도) string  
    불안점수(걱정하는 것을 조절하거나 멈출 수가 없었다.) 구슬자 상태 파악을 위한 점수 number  
    거주지 현거주지(광역시도) string  
    우울점수(즐겁게 생활하지 못헀다.) 구슬자 상태 파악을 위한 점수 number  
    우울점수(하루 중 대부분의 시간 동안 울적했다.) 구슬자 상태 파악을 위한 점수 number  
    label_2 질문답변 내용에 대한 라벨 array  
    {} 질문답변 내용 라벨 구분 object  
    감정 감정 포함 여부 number  
    배경정보 배경정보 포함 여부 number  
    주제이탈 주체이탈 여부 number  
    감각 감각 포함 여부 number  
    같은말반복 같은말 반복 여부 number  
    대화자역할(질문) 재질문 여부  number  
    생각 생각 포함여부 number  
    인물 인물 포함여부 number  
    상태정보 상태정보 포함여부 number  
    과도한흥분 과도한 흥분 여부 number  
    대화자역할(공감) 공감 여부  number  
    keyword 키워드(해당 키워드를 주제로 질문과 답변이 이루어짐) string  
    label_1 자서전적 기억에 대한 라벨 array  
    {} 자서전적 기억 라벨 구분 object  
    사건구체성 사건 구체성 여부 number  
    시간적구체성 시간적 구체성 여부 number  
    공간적구체성 공간적 구체성 여부 number  
    주관적경험 주관적 경험 여부 number  
    자서전적기억 자서전적 기억 여부 number  
    textFile 질문답변 전사파일 string  
    itemCount 질문답변 개수 number  
    qualityPoint 품질수준을 나타내는 점수 number  
    jsonId 데이터를 구분하는 아이디 string  


    - 어노테이션 포맷

    어노테이션 포맷
    구분 속성명 타입 필수여부 설명 범위
    1 qa array Y 질문답변 쌍 배열  
      1-1 qa[].question string Y 질문  
      1-2 qa[].answer string Y 답변  
    2 audioFile string Y 질문답변 음성파일  
    3 audioTime string Y 음성시간(분,초)  
    4 teller array Y 구술자  
      4-1 teller[].불안점수(불안하고 초조해서 직장 생활과 사회생활에 어려움이 있었다.) number Y 구슬자 상태 파악을 위한 점수 0~4
    4-2 teller[].나이 number Y 나이  
    4-3 teller[].성별 string Y 성별  
    4-4 teller[].배우자 string Y 배우자 유무/상태 "동거", "별거", "이혼", "사별", "미혼"
    4-5 teller[].동거인수(본인포함) number Y 본인포함 함께 살고 있는 사람수  
    4-6 teller[].자녀수 number Y 자녀수  
    4-7 teller[].교육년 number Y 교육받은 총 년수(정규교육)  
    4-8 teller[].고향 string Y 고향 "서울시",
    (광역시도) "부산시",
      "인천시",
      "대구시",
      "광주시",
      "대전시",
      "울산시",
      "세종시",
      "경기도",
      "충청북도",
      "충청남도",
      "전라북도",
      "전라남도",
      "경상북도",
      "경상남도",
      "강원도",
      "제주도"
    4-9 teller[].불안점수(걱정하는 것을 조절하거나 멈출 수가 없었다.) number Y 구슬자 상태 파악을 위한 점수 0~4
    4-10 teller[].거주지 string Y 현거주지 "서울시",
    (광역시도) "부산시",
      "인천시",
      "대구시",
      "광주시",
      "대전시",
      "울산시",
      "세종시",
      "경기도",
      "충청북도",
      "충청남도",
      "전라북도",
      "전라남도",
      "경상북도",
      "경상남도",
      "강원도",
      "제주도"
    4-11 teller[].우울점수(즐겁게 생활하지 못헀다.) number Y 구슬자 상태 파악을 위한 점수 0~4
    4-12 teller[].우울점수(하루 중 대부분의 시간 동안 울적했다.) number Y 구슬자 상태 파악을 위한 점수 0~4
    5 label_2 array Y 질문답변 내용에 대한 라벨  
      5-1 label_2[].감정 number Y 감정 포함 여부 1,0
    5-2 label_2[].배경정보 number Y 배경정보 포함 여부 1,0
    5-3 label_2[].주제이탈 number Y 주체이탈 여부 1,0
    5-4 label_2[].감각 number Y 감각 포함 여부 1,0
    5-5 label_2[].같은말반복 number Y 같은말 반복 여부 1,0
    5-6 label_2[].대화자역할(질문) number Y 재질문 여부 1,0
    5-7 label_2[].생각 number Y 생각 포함여부 1,0
    5-8 label_2[].인물 number Y 인물 포함여부 1,0
    5-9 label_2[].상태정보 number Y 상태정보 포함여부 1,0
    5-10 label_2[].과도한흥분 number Y 과도한 흥분 여부 1,0
    5-11 label_2[].대화자역할(공감) number Y 공감 여부  1,0
    6 keyword string Y 키워드(해당 키워드를 주제로 질문과 답변이 이루어짐)  
    7 label_1 array Y 자서전적 기억에 대한 라벨  
      7-1 label_1[].사건구체성 number Y 사건 구체성 여부 1,0
      7-2 label_1[].시간적구체성 number Y 시간적 구체성 여부 1,0
      7-3 label_1[].공간적구체성 number Y 공간적 구체성 여부 1,0
      7-4 label_1[].주관적경험 number Y 주관적 경험 여부 1,0
      7-5 label_1[].자서전적기억 number Y 자서전적 기억 여부 1,0
    8 textFile string Y 질문답변 전사파일  
    9 itemCount number Y 질문답변 개수  
    10 qualityPoint number Y 품질수준을 나타내는 점수 0,1,2,3,4,5
    11 jsonId string Y 데이터를 구분하는 아이디  


    - 데이터 포맷 (실제 예시 포함)

     

      원천/라벨링데이터 포맷 예시
      원천데이터(wav, txt 파일)
        1) wav 파일

    wav 파일 예시 이미지
      2) txt 파일

    txt 파일 예시 이미지
      라벨링데이터(json 파일)

    JSON 파일 예시 이미지
     

  • 데이터셋 구축 담당자

    수행기관(주관) : 마음건강케이유(주)
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    박용천 02-6956-1676 [email protected] 전체 프로젝트 총괄, 데이터 품질 관리 총괄, AI 모델링
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    ㈜리서치림 데이터 수집/관리, 데이터 정제/가공, 데이터 품질 검수
    ㈜온더아이티 저작도구 개발, 데이터 가공 지원, 라벨링 데이터 추출
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    김지숙 02-3015-2100/2126 [email protected]
    이재근 02-3015-2120 [email protected]
    AI모델 관련 문의처
    AI모델 관련 문의처
    담당자명 전화번호 이메일
    최기홍 02-6956-1676 [email protected]
    박용천 02-6956-1676 [email protected]
    저작도구 관련 문의처
    저작도구 관련 문의처
    담당자명 전화번호 이메일
    이병구 031-8018-7102 [email protected]
    최순우 031-8018-7102 [email protected]
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.