콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#소상공인 # 상점 # 주문 # 질의응답 # 무인상점 # 챗봇

소상공인 고객 주문 질의-응답 텍스트

소상공인 고객 주문 질의-응답 텍스트
  • 분야한국어
  • 유형 텍스트
구축년도 : 2020 갱신년월 : 2021-11 조회수 : 24,160 다운로드 : 1,490 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.4 2021-11-17 데이터 비식별화 보완
    1.3 2021-10-28 데이터 비식별화 보완
    1.2 2021-10-13 데이터 품질 보완 및 추가 개방
    1.1 2021-09-29 데이터 품질 보완
    1.0 2021-06-25 데이터 최초 개방

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2024-06-17 저작도구 수정
    2024-01-09 저작도구 소스코드 등록
    2023-08-11 담당자 변경
    2023-03-17 AI 모델 개방

    소개

    무인 상점에서 고객의 질의에 답변 가능한 고객 응대 학습용 AI 텍스트 데이터

    구축목적

    무인상점 서비스 운영 시 발생할 수 있는 다양한 상황에서의 고객 질문과 그에 따른 답변으로 구성된 데이터 제공
  • 구축 내용 및 제공 데이터량

    • 수집 : 소상공인 상점에서 고객 질의-응답 대화를 직접 녹취하여 음성 파일 수집. 콜센터 녹취된 질의-응답 음성 파일 수집
    • 정제 : 음성 데이터를 텍스트로 가공, 개인정보 비식별화 처리
    • 가공 : 크라우드소싱 방식으로 질의-응답 텍스트 데이터 셋 추출 및 감성, 인텐트, 개체명 처리
    • 검증 : 크라우드소싱 방식으로 1차 검수 후 전문 검수자에 의한 2차 전수 검수 수행
    구축 내용 및 제공 데이터량
    데이터 출처 질의응답데이터 규모
    (최종 산출물 기준)
    도메인
    콜센터 데이터 400만 건 질의응답 백화점, 홈쇼핑, e-commerce 등 유통관려
    녹취 데이터 100만 건 질의응답 도.소매업, 숙박.음식업점, 수리, 기타개인서비스업, 보건업 등에 해당하는 약 20종 상점(한국표준산업분류 10차 기준)
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 다운로드
  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 Intent 및 Entity 분류 정확도 Text Classification KoBERT 기반 NER, Intent 모델 Accuracy 80 % 84 %
    2 Intent 및 Entity 분류 정확도 Text Classification KoBERT 기반 NER, Intent 모델 F1-Score 0.8 0.82

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.4 2021.11.17 데이터 비식별화 보완  
    1.3 2021.10.28 데이터 비식별화 보완  
    1.2 2021.10.13 데이터 품질 보완 및 추가 개방  
    1.1 2021.09.29 데이터 품질 보완  
    1.0 2021.06.25 데이터 최초 개방  

    구축 목적

    • 무인상점 서비스 운영 시 발생할 수 있는 다양한 상황에서의 고객 질문과 그에 따른 답변으로 구성된 데이터 제공

    활용 분야

    • 유통, 음식점 등 다양한 분야의 무인매장, 비대면 업무 등의 환경에서 활용

    소개

    • 본 데이터는 소상공인이 활용할 수 있는 주제로 질의-응답을 이루는 문장 500만건으로 이루어져 있으며, 각 문장 별로 발화자, 상점카테고리, Q/A구분, 감성, 인텐트, 개체명 등의 태깅을 부가하여 구성했다.
    • 500만건의 데이터는 인공지능 모델 학습용도로는 한번에 활용하지 못할 만큼 거대한 양으로서, 연구자나 챗봇 기획자는 상점 카테고리, 대화 의도 등으로 데이터를 선별하여 사용해야 적절하다.
    • 이 데이터를 통해 고객이 질문하는 의도를 파악할 수 있으며 개체명 인식을 통해 보다 상세한 후속 액션을 지정하는 자동화가 가능하기 때문에 챗봇 서비스 등에 활요할 수 있다.

    구축 내용 및 제공 데이터량

    • 수집 : 소상공인 상점에서 고객 질의-응답 대화를 직접 녹취하여 음성 파일 수집. 콜센터 녹취된 질의-응답 음성 파일 수집
    • 정제 : 음성 데이터를 텍스트로 가공, 개인정보 비식별화 처리
    • 가공 : 크라우드소싱 방식으로 질의-응답 텍스트 데이터 셋 추출 및 감성, 인텐트, 개체명 처리
    • 검증 : 크라우드소싱 방식으로 1차 검수 후 전문 검수자에 의한 2차 전수 검수 수행
    구축 내용 및 제공 데이터량
    데이터 출처 질의응답데이터 규모
    (최종 산출물 기준)
    도메인
    콜센터 데이터 400만 건 질의응답 백화점, 홈쇼핑, e-commerce 등 유통관려
    녹취 데이터 100만 건 질의응답 도.소매업, 숙박.음식업점, 수리, 기타개인서비스업, 보건업 등에 해당하는 약 20종 상점(한국표준산업분류 10차 기준)

    대표도면

    대표도면
    IDX 발화자 발화문
    1 c 얼마 이상 시켜야 무료배송이죠?
    2 s 40000원 이상 시키시면 무료배송입니다.
    대표도면
    카테고리 QA번호 QA여부 감성 인텐트
    슈퍼 4338 q m 배송_비용_질문
    슈퍼 4338 a m 배송_비용_질문
    대표도면
    가격 수량 크기 장소 조직 사람
               
    40000원          
    대표도면
    시간 날짜 상품명 상담번호 상담내순번
          4338 1
          4338 2

    필요성

    • 자연어처리(NLP, Natural Language Processing) 기술이 발전하면서 비용효율적으로 24시간 365일 고객을 응대하는 서비스에 대한 수요가 늘고 있다. 고객을 응대하는 기술은 챗봇 기반 질의응답이나 자동응답 서비스로 구현하는 것이 보편적인 추세이다. 이러한 서비스의 기반기술인 인공지능 모델을 학습하는 용도인 고객 주문 질의응답 데이터를 롯데정보통신 컨소시엄이 구축했으며, 500만 건의 한국어 질문과 대답으로 구성되어 있다.
    • 고객 주문 질의응답 데이터는 직접 인공지능 모델을 학습하는 데에는 물론 카카오 채널과 같이 상점/기업을 대상으로 한 기존 챗봇 서비스에도 활용 가능하다. 한국에서 인기가 높은 카카오톡 기반 챗봇 서비스(카카오 I 오픈빌더)와 더불어 네이버 CLOVA 챗봇, IBM의 Watson Assitant와 같은 서비스에서 고객 의도를 잘 파악하도록 인공지능을 훈련하는 데에 쓸 수 있다.

    데이터 구조

    데이터 구조
    항목 설명 타입 필수구분
    IDX 질의응답 데이터 파일 내 고유 순서 번호 Num. Y
    발화자 발화자 정보 (c: 고객 s: 점원) string Y
    발화문 대화 텍스트 정보 string Y
    카테고리 발화가 일어나는 상점 정보 string Y
    QA번호 질의응답셋을 구분하는 정보 Num. Y
    QA여부 질의문(q)인지 응답문(a)인지 표시 string Y
    감성 텍스트별 감성 정보 (m: 중립, n: 부정, p: 긍정) string Y
    인텐트 질의문 기준 발화문에 내재한 의도 string Y
    개체명 NER(개체명인식)을 위한 개체 정보 string N
    상담번호 대화 상황 구분 정보 Num. Y
    상담내순번 상담 내 발화 순서 표시 Num. Y
  • 데이터셋 구축 담당자

    수행기관(주관) : 롯데정보통신
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    전슬기 매니저 [email protected] · 데이터 구축 사업 총괄
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    에이모 · 저작도구 개발, 데이터 가공 및 검수
    엘젠아이씨티 · 데이터 정제, AI 모델 개발
    케이원정보통신 · 질의응답 데이터 수집(녹취)
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    전슬기 매니저(롯데정보통신) [email protected]
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.