콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#질의응답 # 음성데이터 # 정형데이터 # 비정형데이터 # 텍스트데이터 # 상담내용 요약 # 상담카테고리 자동분류 # 고객정보 자동 Blur 처리 # AI 상담

민원(콜센터) 질의-응답 데이터

민원(콜센터) 질의-응답
  • 분야한국어
  • 유형 오디오 , 텍스트
구축년도 : 2020 갱신년월 : 2023-12 조회수 : 20,146 다운로드 : 3,805 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.3 2023-12-22 라벨링데이터 수정
    1.2 2023-03-09 원천데이터 수정
    1.1 2022-01-26 데이터 품질 보완 및 추가 개방
    1.0 2021-06-25 데이터 최초 개방

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2022-10-13 신규 샘플데이터 개방

    소개

    콜센터(민원) 업무의 효율호를 위해 AI 기술을 활용한 ICC(Intelligent Contact Center) 관련 기술 개발에 활용할 수 있는 상담 내역 질의응답 학습데이터셋 구축

    구축목적

    상담원들이 단순 상담 외에 전문 상담에 집중하여 원활하게 업무가 진행될 수 있도록 상담사의 업무를 보조할 수 있는 서비스 구축을 위함
  • 구축 내용 및 제공 데이터량

    • 민원[콜센터] 질의응답 데이터 110만쌍, 음성데이터 440시간 이상의 데이터 구축 
    • 음성데이터를 기준으로 문장 단위로 전사된 텍스트 데이터 (약 22,000건)
      구축 내용 표
      도메인 카테고리 대화쌍 건수
      K쇼핑 AS 8,674건
      결제 133,638건
      교환 62,938건
      반품 41,542건
      배송 65,134건
      업무처리 126,125건
      주문 113,047건
      합계 551,103건
      질병관리본부 건강/질병 90,277건
      기타문의 13,194건
      약품/식품 18,726건
      요양기관 현황 10,097건
      증상/징후 50,634건
      진료비 정보 3,976건
      온라인 신고 64,127건
      합계 251,031건
      금융/보험 사고 및 보상 문의 52,527건
      상품 가입 및 해지 54,536건
      이체, 출금, 대출서비스 48,476건
      잔고 및 거래내역 46,477건
      합계 202,016건
      다산콜센터 대중교통 안내 24,354건
      생활하수도 관련 문의 25,383건
      일반행정 문의 31,468건
      코로나19 관련 상담 20,296건
      합계 101,501건
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 다운로드
  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 쇼핑 데이터 상품 의도 분류 모델링 Text Classification Word2vec, CNN F1-Score 0.88 0.8872

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    ※ 본 데이터에 포함된 이름, 주소, 전화번호, 상황 등은 모두 창작된 것으로 실제와 어떠한 관련이 없음을 알려드립니다.

     

    데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.1 2022.01.26 데이터 품질 보완 및 추가 개방  
    1.0 2021.06.25 데이터 최초 개방  

    구축 목적

    • 상담 업무 효율화
      - 상담원들이 단순 상담 외에 전문 상담에 집중하여 원활하게 업무가 진행될 수 있도록 상담사의 업무를 보조할 수 있는 서비스 구축을 위함.

    활용 분야

    • 고객 상담 콜봇 서비스 구축
      - 기존 상담사의 단순 업무를 보조하는 협력 콜봇 모델 구축
      - 간단한 질문에 답하고 주문까지 완료할 수 있는 홈쇼핑 상담모델
      - 고객이 여러 가지 질문에 바로 대응할 수 있는 상담모델 구축

    소개

    • 민간기업, 공공기관으로 카테고리를 나누어 데이터 선정
      1. 민간기업
      - K쇼핑 (대화쌍 55만쌍, 음성데이터 분량 220시간 이상)
      - 금융보험 (대화쌍 20만쌍, 음성데이터 분량 80시간 이상)
      2. 공공기관
      - 질병관리본부 (대화쌍 25만쌍, 음성데이터 분량 100시간 이상)
      - 다산콜센터 (대화쌍 10만쌍, 음성데이터 분량 40시간 이상)
    • 원천데이터 확보
      1. 민간기업
      - K쇼핑 : KTH 내부 Daisy 엔진 DB에서 텍스트로 전사된 형태로 다운로드
      - 금융/보험 : 개인정보 및 저작권 정책 확인 후 직접 금융/보험 상품 가입 및 문의
      2. 공공기관
      - 질병관리본부 : 기존 상담 내역 데이터를 수집하여 텍스트로 전사된 형탤 다운로드
      - 다산콜센터 : 서울정보소통광장의 원문정보 – 결재문서에서 서울시 120 다산콜센터 상담 음성 녹취 파일 청구

    구축 내용 및 제공 데이터량

    • 민원[콜센터] 질의응답 데이터 110만쌍, 음성데이터 440시간 이상의 데이터 구축 
    • 음성데이터를 기준으로 문장 단위로 전사된 텍스트 데이터 (약 22,000건)
      구축 내용 표
      도메인 카테고리 대화쌍 건수
      K쇼핑 AS 8,674건
      결제 133,638건
      교환 62,938건
      반품 41,542건
      배송 65,134건
      업무처리 126,125건
      주문 113,047건
      합계 551,103건
      질병관리본부 건강/질병 90,277건
      기타문의 13,194건
      약품/식품 18,726건
      요양기관 현황 10,097건
      증상/징후 50,634건
      진료비 정보 3,976건
      온라인 신고 64,127건
      합계 251,031건
      금융/보험 사고 및 보상 문의 52,527건
      상품 가입 및 해지 54,536건
      이체, 출금, 대출서비스 48,476건
      잔고 및 거래내역 46,477건
      합계 202,016건
      다산콜센터 대중교통 안내 24,354건
      생활하수도 관련 문의 25,383건
      일반행정 문의 31,468건
      코로나19 관련 상담 20,296건
      합계 101,501건

    대표도면

    민원(콜센터) 질의-응답-  대표도면

     

    필요성

    • 기존 콜센터의 운영목적이 단순히 고객문의나 안내를 위함이었다면 최근에는 음성과 데이터망을 통합하여 이를 다양한 채널에서 고객들에게 서비스를 제공하게 됨.
    • 이에 따라 컨택센터는 앞으로 ICC 지능형 컨택센터 형태로 진화할 것으로 예상됨. 
    • 빅데이터를 활용한 고객 맞춤 상담 음성인식 솔루션 기반의 고객서비스, 클라우드 기반의 솔루션 등 지능형 콜센터로서의 역할이 더욱더 중요해짐.
    • 이처럼 빠르게 변화하는 콜센터 분야에서의 인공지능 기술의 도입은 필수적인 부분이 되어가고 있으며 원활한 기술 발전 및 지원을 위해 다양한 분야의 민원상담 데이터를 구축하고자 함.

    데이터 구조

    • 데이터 포맷
      - 상담사와 고객간의 질문-답변 세트로 구성
      - 상담사 질문, 답변, 고객 질문, 답변으로 구분 후 개체명, 용어사전, 지식베이스 추출

       

      민원(콜센터) 질의-응답- 데이터 구조- 데이터 포맷

       

    • 어노테이션 포맷
      어노테이션 표
      항목 설명 예시 필수여부
      도메인 대분류 주문, 결제, 배송 등 필수
      카테고리 중분류 주문확인, 주문처리,
      단순 배송문의 등
      필수
      대화셋 일련번호 데이터건 별 식별번호 데이터건 별
      1,2,3,...
      필수
      화자 상담사와 고객을 분리하는 번호 0 : 상담사,
      1:고객
      필수
      문장번호 질의, 응답 한 문장 당 부여된 번호 문장별 1,2,3... 필수
      의도정보 main 고객의도 방송상품
      주문요청
      조건별 필수
      (고객 질문일
      경우 필수)
      sub 상담사의도 고객주소등록 조건별 필수
      상담사 질문
      일 경우 필수
      QA 질의-응답 구분 Q: 질의,
      A: 응답
      필수
      원본 main Q 고객 질문 네 방송 보고
      있는데 주문
      하려구요
      필수
      sub Q 상담사 질문 고객님 상세
      주소 알려주시겠어요?
      필수
      User Answer 고객 응답 네, 전화번호는
      ooo oooo
      oooo
      필수
      System Answer 상담사 응답 네 등록해드리겠습니다. 필수
      개체명 문장 중 명사 단어
      들을 ','로 분리
      주문, 삼성카드,
      현금 영수증
      선택 Y
      용어사전 개체명의 유사 및
      동의어
      성함/성명/이름,
      신청/주문
      선택 Y
      지식베이스 개체명이 해당 문장에서 쓰이는 의미를 기술 엘에이 갈비/상품명,
      삼성카드/카드명
      선택
  • 데이터셋 구축 담당자

    수행기관(주관) : 포티투마루
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    김동환 02-6952-9201 [email protected] · 데이터 구축 총괄
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    어빌리티시스템즈 · 질병관리본부, 다산 콜센터, 금융/보험 원문 데이터 확보 및 제공
    피플앤드테크놀러지 · 쇼핑 원문 데이터 확보 및 제공
    · 데이터 구축 저작도구 제작
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    지민호(KT알파(구. KT하이텔)) 02-3289-2602 [email protected]
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.