콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#대화 # 용도별 대화 # 목적 대화 # 대화주제 # 화행

용도별 목적대화 데이터

용도별 목적대화
  • 분야한국어
  • 유형 텍스트
구축년도 : 2021 갱신년월 : 2022-07 조회수 : 13,271 다운로드 : 1,366 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2022-07-12 데이터 최초 개방

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2024-11-07 산출물 수정 공개 AI모델 환경 설치가이드
    2024-10-07 산출물 수정 공개 저작도구
    2022-10-13 신규 샘플데이터 개방
    2022-07-12 콘텐츠 최초 등록

    소개

    다양한 분야의 고객 상담형 대화, 주문 및 예약형 대화 등 고객 문의와 그에 대한 응대를 위한 목적별 대화 등 각기 다른 용도의 플랫폼들에서 수집한 용도별 목적대화 데이터셋

    구축목적

    AI 기술개발에 필수적인 기반데이터를 제공하고 민간에서 AI 기술 발전에 따라 자생적으로 데이터를 확장, 개방하는 선순환 생태계 조성
  • 1. 데이터 구축 규모

    • 텍스트 데이터 46,281건

    2. 데이터 분포

    • 주제 분포 : 식음료, 주거와 생활, 교통 등 20여개 주제
                   : 세부 수치는 아래 표와 같음
      1. 데이터 구축 규모
      순서 주제 건수 비율
      1 부서안내 2,492 5.4%
      2 서류 문의 2,461 5.3%
      3 민원신고 3,633 7.9%
      4 절차 문의 3,325 7.2%
      5 프로그램 문의 3,307 7.2%
      6 등록 문의 2,207 4.8%
      7 비용/환불 문의 1,169 2.5%
      8 일정 문의 1,110 2.4%
      9 AS문의 3,022 6.5%
      10 제품/사용문의 3,109 6.7%
      11 주문/결제 2,318 5.0%
      12 배송 2,342 5.1%
      13 환불/반품/교환 2,311 5.0%
      14 이벤트 1,190 2.6%
      15 온오프라인 안내 2,536 5.5%
      16 숙박 1,610 3.5%
      17 교통 1,099 2.4%
      18 식당 1,646 3.6%
      19 레저 2,713 5.9%
      20 관광 2,681 5.8%
        46,281 10000.0%
    • 화행 분포 : 단언하기, 지시하기, 언약하기, 표현하기 등 4개 화행
      화행 분포표
      순서 화행 건수  비율 
      1 단언하기 257,936 44.2%
      2 지시하기 183,003 31.3%
      3 언약하기 16,418 2.8%
      4 표현하기 126,556 21.7%
      합계 583,913 10000.0%
    • 대화 플랫폼 분포 : 온라인 커머스, 교육, 유통 등의 컨택센터 등
      대화 플랫폼 분포표
      순서 플랫폼 건수  비율 
      1 SNS(게시판) 6,863 14.8%
      2 콜센터 39,418 85.2%
      합계 46,281 100.0
    • 화자 분포
      화자 분포표
        1그룹(10~20대)  2그룹(30~40대)  3그룹(50~60대)   성별(총 건) 
      남성 13.1 5.8 11.3 30.2
      여성 17.0 44.3 8.6 69.8
      연령별(총 건) 30.0 50.0 19.9 100.0
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 다운로드 AI 모델 상세 설명서 다운로드

    1. 응용서비스 개요

    • 응용서비스 명 - 인공지능 학습용 데이터사업 13번 과제 응용서비스 구축
    • 구축 기간 - 2021. 11. 08 ~ 2022. 01. 17 (약 2.2개월)
    • 구축 대상 - “배울학” 학원의 전기기사 수강안내 챗봇서비스 구축
    • 구축 내용 - 지식베이스 구축 - 챗봇서비스 구축

    2. 지식베이스 구축 내용

    • 지식베이스 구축 - 배울학 학원 “전기가사” 수강안내 관련 지식베이스 구축
    • 지식베이스 구축 범위 - 질의문 641건 - 카테고리 42건 - 콘텐츠 51건 - 질문별로 유사질의, 키워드, 동의어 등 포함하여 구축

    3. 지식베이스 구축 내용
    용도별 목적대화-지식베이스 구축 내용_1용도별 목적대화-지식베이스 구축 내용_2

    • 구현 방법 
      • 메뉴형, 대화형을 병용한 룰베이스 기반으로 구현 
      • 데이터 라벨을 활용한 규칙 기반(Rull Base) 챗봇서비스 구현
    • 구축 화면 
      • 메뉴형 구현
        용도별 목적대화-구축화면_1_메뉴형 구현
         
  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 주제 분류 정확도 Text Classification NBC + FastText F1-Score 0.75 0.8712
    2 화행 분류 정확도 Text Classification NBC + FastText F1-Score 0.65 0.8853

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    1. 샘플데이터

    1. 샘플데이터
    파일명 shopping2_0005 (플랫폼명_주제내순서_주제번호)
    주제 제품/사용문의
    수집처 컨텍센터
    원천데이터
    A.기다려주셔서 감사합니다 고객님
    A.어떤 문의 주시는 건가요
    B.기미가 확실하게 빠지는 건지 물어보려고요
    A.상품이 고객님 #@상품# 맞으십니까
    B.#@상품# 맞아요
    A.고객님 상품이 사람마다 차이가 있기 때문에요
    A.저희가 그 부분까지는 확답 드리기가 어렵습니다
    B.그래요 그럼 써봐야 안다는 거예요 안 되면 소용없잖아요
    A.개인차가 있기 때문에 그 부분까지 안내 드리기가 어렵습니다
    B.아니 근데 오래된 것도 빠질 수 있나 아니면은 어렵나
    A.사람마다 다르기 때문에 딱 어떻게 안내드릴 수가 없습니다
    B.그렇게 얘기하면 못 사지 빠졌나 얘기를 해야지 그걸 사지예
    B.인터넷에는 다 빠진다고 나왔던데
    A.사람마다 다르기 때문에 저희가 확답을 드릴 수가 없습니다
    B.일단 그러면 알았어요 좀 더 생각해볼게요
    A.감사합니다 상담사 #@이름#이었습니다

    2. 라벨링데이터 구성

    2. 라벨링데이터 구성
    구분 항목명 타입 필수여부 설명 범위 비고
    1 Dataset          
      1.1 identifier number Y 데이터셋 식별자    
    1.2 name string Y 데이터셋 이름    
    1.3 src_path string Y 데이터셋 폴더 위치    
    1.4 label_path String Y 데이터셋 레이블 폴더 위치    
    1.5 category number Y 데이터셋 카테고리    
    1.6 type number Y 데이터셋 타입    
    2 licenses          
      2.1 name String N 라이센스 이름    
    2.2 url String N 문서 식별자    
    3 info          
      3.1 id number Y      
    3.2 filename string Y      
    3.3 title string Y      
    3.4 mediatype string Y 플랫폼 형태   SNS(게시판), 채팅(챗봇), 콜센터
    3.5 medianame string Y 플랫폼명   SNS(게시판), 채팅(챗봇), 콜센터
    3.6 category string Y 목적대화    
    3.7 date string Y      
    3.8 size number Y      
    4 annotations          
      4.1 subject string Y 대화 주제   쇼핑, 민원, 교육, 관광
    4.2 speaker_type string Y 화자 구성   1:01
    4.3 size number Y 크기(글자수)    
    4.4 word_size number Y 크기(단어수)    
    4.5 text string Y 데이터 내 대화 전체    
    5 lines          
      5.1 id String Y 화자 식별번호   A, B 등
    5.2 text string Y      
    5.3 norm_text string Y      
    6 speaker          
     
     
     
    6.1 id String Y      
    6.2 sex String Y 남녀 구분   남자, 여자
    6.3 age String Y 연령대   1그룹(10~20대)
    2그룹(30~40대)
    3그룹(50~60대) 
    6.4 speechAct String Y 화행   질문하기, 부탁하기 등
    6.5 morpheme String N 형태소    

    3. 라벨링데이터 실제예시
    용도별 목적대화-라벨링데이터 실제예시_1

  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜메트릭스리서치
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    이영미 02-6244-0706 [email protected] · 데이터 수집 · 데이터 정제 · 데이터 라벨링
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    나눔아이씨티㈜ · 데이터 수집
    · 데이터 정제
    · 데이터 가공
    · 크라우드워커 모집 및 관리
    · 데이터 수집 수행 등
    ㈜씨엔에이아이 · 데이터 수집
    · 데이터 정제
    · 데이터 가공
    · 크라우드워커 모집 및 관리
    · 데이터 수집 수행 등
    ㈜에이스솔루션 · 가공 완료 데이터 검수
    · 데이터 검수 크라우드워커 모집 및 관리
    ㈜코난테크놀로지 · 학습모델 설계 및 제작
    · 테스트 등
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    이영미 02-6244-0706 [email protected]
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.