콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#대화 # 주제별 대화 # 일상대화 # 대화주제 # 화행

주제별 텍스트 일상 대화 데이터

주제별 텍스트 일상대화
  • 분야한국어
  • 유형 텍스트
구축년도 : 2021 갱신년월 : 2022-07 조회수 : 31,108 다운로드 : 3,100 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2022-07-12 데이터 최초 개방

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2024-11-07 산출물 수정 공개 AI모델 환경 설치가이드
    2024-10-07 산출물 수정 공개 저작도구
    2024-07-01 산출물 추가 공개 저작도구
    2024-06-28 산출물 추가 공개 저작도구
    2022-10-13 신규 샘플데이터 개방
    2022-07-12 콘텐츠 최초 등록

    소개

    식음료, 주거와 생활, 교통, 교육, 가족 등 20여개 주제에 대한 자유로운 일상대화 텍스트를 수집한 후, 각 대화의 주제와 참여 화자정보, 화행이 나타나는 문장에 대한 라벨링을 통해, 한국어 일상대화의 주제, 화행 등 정보를 담은 데이터셋을 구성

    구축목적

    범용적 한국어 대화체 이해도 향상 및 대화 생성 기술 개발을 위한 자유대화 및 다양한 일상 주제 대화 텍스트 데이터 수집
  • 1. 데이터 구축 규모

    • 텍스트 데이터 134,263건

    2. 데이터 분포

    • 주제 분포 : 식음료, 주거와 생활, 교통 등 20여개 주제 
                   : 세부 수치는 아래 표와 같음
      2. 데이터 분포
      순서 주제 건수 비율
      1 식음료 5,176 4.7%
      2 주거와 생활 5,439 5.0%
      3 교통 5,614 5.1%
      4 회사/아르바이트 5,550 5.1%
      5 군대 5,255 4.8%
      6 교육 5,680 5.2%
      7 가족 5,599 5.1%
      8 연애/결혼 5,461 5.0%
      9 반려동물 5,322 4.9%
      10 스포츠/레저 5,731 5.2%
      11 게임 5,467 5.0%
      12 여행 5,550 5.1%
      13 계절/날씨 5,438 5.0%
      14 사회이슈 5,338 4.9%
      15 타 국가 이슈 5,072 4.6%
      16 미용 5,775 5.3%
      17 건강 5,534 5.0%
      18 상거래 전반 5,591 5.1%
      19 방송/연예 5,425 4.9%
      20 영화/만화 5,597 5.1%
      합계 109,614 100.0%
    • 화행 분포 : 단언하기, 지시하기, 언약하기, 표현하기 등 4개 화행
      화행 분포표
      순서 화행 건수  비율 
      1 단언하기 1,400,346 74.9%
      2 지시하기 422,956 22.6%
      3 언약하기 23,104 1.2%
      4 표현하기 22,639 1.2%
      합계 1,869,045 100.0%
    • 대화 플랫폼 분포 : 카카오톡, 페이스북, 인스타그램, 밴드, 네이트온 등 5개 플랫폼
      대화 플랫폼 분포표
      순서 플랫폼 건수 비율
      1 KAKAO 89,805 81.9%
      2 FACEBOOK 9,908 9.0%
      3 INSTAGRAM 5,906 5.4%
      4 BAND 1,997 1.8%
      5 NATEON 1,998 1.8%
      합계 109,614 100.0%
    • 화자 분포
      화자 분포표
        10대 20대 30대 40대 50대 이상 성별(총 건)
      남성 2.0 15.4 10.1 8.0 2.0 37.6
      여성 3.1 25.0 19.2 12.0 3.1 62.4
      합계 5.1 40.4 29.3 20.1 5.1 100.0
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 다운로드 AI 모델 상세 설명서 다운로드

    1. 응용서비스 개요

    • 응용서비스 명 - 인공지능 학습용 데이터사업 13번 과제 응용서비스 구축
    • 구축 기간 - 2021. 11. 08 ~ 2022. 01. 17 (약 2.2개월)
    • 구축 대상 - “배울학” 학원의 전기기사 수강안내 챗봇서비스 구축
    • 구축 내용 - 지식베이스 구축 - 챗봇서비스 구축

    2. 지식베이스 구축 내용
    주제별 텍스트 일상 대화-지식베이스 구축 내용_1주제별 텍스트 일상 대화-지식베이스 구축 내용_2

    • 지식베이스 구축 - 배울학 학원 “전기가사” 수강안내 관련 지식베이스 구축
    • 지식베이스 구축 범위 - 질의문 641건 - 카테고리 42건 - 콘텐츠 51건 - 질문별로 유사질의, 키워드, 동의어 등 포함하여 구축

    3. 지식베이스 구축 내용

    • 구현 방법 
      • 메뉴형, 대화형을 병용한 룰베이스 기반으로 구현 
      • 데이터 라벨을 활용한 규칙 기반(Rull Base) 챗봇서비스 구현
    • 구축 화면 
      • 메뉴형 구현
        주제별 텍스트 일상 대화-구축 화면_1_메뉴형 구현
  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 주제 분류 정확도 Text Classification NBC + FastText F1-Score 0.75 0.8761
    2 화행 분류 정확도 Text Classification NBC + FastText F1-Score 0.65 0.768

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    1. 샘플데이터

    1. 샘플데이터
    파일명 KAKAO_2615_09 (플랫폼명_주제내순서_주제번호)
    대화 주제 반려동물
    대화 플랫폼 카카오톡
    원천데이터
    1 : 강아지가 갑자기 울고있는고야 거실에서
    2 : 울어? 왜울어 언니가 괴롭혔어?
    1 : 아니 키키 간식 올려둔거때문에
    2 : 소고기 간식을 만든건데 키키 먹고 싶겠지
    1 : 그거 보고 웅웅 거리고 있더라
    2 : 어디에 올려뒀는데 내옆에서 으르렁 거리고 있어
    1 : 맞어 키키 우리가 만든 강아지 수제간식 여미
    2 : 응 수제 간식 만들고 나면 뿌듯해
    1 : 아 키키 너 컵 키키 거기에 넣어뒀는디 키키 봐봐
    2 : 컵에 왜 넣어뒀어 어쩐지 빼줘야 겠다
    1 : 텀블러 컵 안에 있어서 빼먹고픈데 안되니까 웅웅 거리나봐 키키
    2 : 왜 거기에 넣었어
    2 : 어쩐지 옴청 웅웅거리면서 가만히 서있더라
    1 : 키키 일부러 거기 넣으면 컵 넘어뜨려서 먹을 줄 알았는데
    1 : 결국 너의 손이 닿아야 하는구나 키키 굿 걸~!

    2. 라벨링데이터 구성

    2. 라벨링데이터 구성
    구분 항목명 타입 필수여부 설명 범위 비고
    1 Dataset          
      1.1 identifier number Y 데이터셋 식별자    
    1.2 name string Y 데이터셋 이름    
    1.3 src_path string Y 데이터셋 폴더 위치    
    1.4 label_path String Y 데이터셋 레이블 폴더 위치    
    1.5 category number Y 데이터셋 카테고리    
    1.6 type number Y 데이터셋 타입    
    2 licenses          
      2.1 name String N 라이센스 이름    
    2.2 url String N 문서 식별자    
    3 info          
      3.1 id number Y      
    3.2 filename string Y      
    3.3 title string Y      
    3.4 mediatype string Y 플랫폼 형태   SNS, 메신저
    3.5 medianame string Y 플랫폼명   카카오톡, 네이트온 등
    3.6 category string Y 일상대화    
    3.7 data string Y      
    3.8 size number Y      
    4 annotations          
      4.1 subject string Y 대화 주제   식음료, 교통, 가족 등
    4.2 speaker_type string Y 화자 구성   1:1, 다자간 등
    4.3 size number Y 크기(글자수)    
    4.4 word_size number Y 크기(단어수)    
    4.5 text string Y 데이터 내 대화 전체    
    5 lines          
      5.1 id String Y 화자 식별번호   1, 2 등
    5.2 text string Y      
    5.3 norm_text string Y      
    6 speaker          
      6.1 id String Y      
    6.2 sex String Y 남녀 구분   남자, 여자
    6.3 age String Y 연령대   10대, 20대 등
    6.4 speechAct String Y 화행    
    6.5 morpheme String N 형태소    

    3. 라벨링데이터 실제예시
    주제별 텍스트 일상 대화-라벨링데이터 실제예시_1

     

  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜메트릭스리서치
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    이영미 02-6244-0706 [email protected] · 데이터 수집 · 데이터 정제 · 데이터 라벨링
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    ㈜소리자바 · 데이터 수집
    · 데이터 정제
    ㈜코난테크놀로지 · 데이터 라벨링
    · 모델 개발
    ㈜에이스솔루션 · 품질검증
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    이영미 02-6244-0706 [email protected]
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.