민원(콜센터) 질의-응답 데이터
- 분야한국어
- 유형 오디오 , 텍스트
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.3 2023-12-22 라벨링데이터 수정 1.2 2023-03-09 원천데이터 수정 1.1 2022-01-26 데이터 품질 보완 및 추가 개방 1.0 2021-06-25 데이터 최초 개방 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2022-10-13 신규 샘플데이터 개방 소개
콜센터(민원) 업무의 효율호를 위해 AI 기술을 활용한 ICC(Intelligent Contact Center) 관련 기술 개발에 활용할 수 있는 상담 내역 질의응답 학습데이터셋 구축
구축목적
상담원들이 단순 상담 외에 전문 상담에 집중하여 원활하게 업무가 진행될 수 있도록 상담사의 업무를 보조할 수 있는 서비스 구축을 위함
-
메타데이터 구조표 데이터 영역 한국어 데이터 유형 오디오 , 텍스트 데이터 형식 데이터 출처 라벨링 유형 라벨링 형식 데이터 활용 서비스 데이터 구축년도/
데이터 구축량2020년/440시간 (음성) -
구축 내용 및 제공 데이터량
- 민원[콜센터] 질의응답 데이터 110만쌍, 음성데이터 440시간 이상의 데이터 구축
- 음성데이터를 기준으로 문장 단위로 전사된 텍스트 데이터 (약 22,000건)
구축 내용 표 도메인 카테고리 대화쌍 건수 K쇼핑 AS 8,674건 결제 133,638건 교환 62,938건 반품 41,542건 배송 65,134건 업무처리 126,125건 주문 113,047건 합계 551,103건 질병관리본부 건강/질병 90,277건 기타문의 13,194건 약품/식품 18,726건 요양기관 현황 10,097건 증상/징후 50,634건 진료비 정보 3,976건 온라인 신고 64,127건 합계 251,031건 금융/보험 사고 및 보상 문의 52,527건 상품 가입 및 해지 54,536건 이체, 출금, 대출서비스 48,476건 잔고 및 거래내역 46,477건 합계 202,016건 다산콜센터 대중교통 안내 24,354건 생활하수도 관련 문의 25,383건 일반행정 문의 31,468건 코로나19 관련 상담 20,296건 합계 101,501건
-
-
AI 모델 상세 설명서 다운로드
AI 모델 다운로드 -
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 쇼핑 데이터 상품 의도 분류 모델링 Text Classification Word2vec, CNN F1-Score 0.88 점 0.8872 점
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드※ 본 데이터에 포함된 이름, 주소, 전화번호, 상황 등은 모두 창작된 것으로 실제와 어떠한 관련이 없음을 알려드립니다.
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2022.01.26 데이터 품질 보완 및 추가 개방 1.0 2021.06.25 데이터 최초 개방 구축 목적
- 상담 업무 효율화
- 상담원들이 단순 상담 외에 전문 상담에 집중하여 원활하게 업무가 진행될 수 있도록 상담사의 업무를 보조할 수 있는 서비스 구축을 위함.
활용 분야
- 고객 상담 콜봇 서비스 구축
- 기존 상담사의 단순 업무를 보조하는 협력 콜봇 모델 구축
- 간단한 질문에 답하고 주문까지 완료할 수 있는 홈쇼핑 상담모델
- 고객이 여러 가지 질문에 바로 대응할 수 있는 상담모델 구축
소개
- 민간기업, 공공기관으로 카테고리를 나누어 데이터 선정
1. 민간기업
- K쇼핑 (대화쌍 55만쌍, 음성데이터 분량 220시간 이상)
- 금융보험 (대화쌍 20만쌍, 음성데이터 분량 80시간 이상)2. 공공기관
- 질병관리본부 (대화쌍 25만쌍, 음성데이터 분량 100시간 이상)
- 다산콜센터 (대화쌍 10만쌍, 음성데이터 분량 40시간 이상) - 원천데이터 확보
1. 민간기업
- K쇼핑 : KTH 내부 Daisy 엔진 DB에서 텍스트로 전사된 형태로 다운로드
- 금융/보험 : 개인정보 및 저작권 정책 확인 후 직접 금융/보험 상품 가입 및 문의2. 공공기관
- 질병관리본부 : 기존 상담 내역 데이터를 수집하여 텍스트로 전사된 형탤 다운로드
- 다산콜센터 : 서울정보소통광장의 원문정보 – 결재문서에서 서울시 120 다산콜센터 상담 음성 녹취 파일 청구
구축 내용 및 제공 데이터량
- 민원[콜센터] 질의응답 데이터 110만쌍, 음성데이터 440시간 이상의 데이터 구축
- 음성데이터를 기준으로 문장 단위로 전사된 텍스트 데이터 (약 22,000건)
구축 내용 표 도메인 카테고리 대화쌍 건수 K쇼핑 AS 8,674건 결제 133,638건 교환 62,938건 반품 41,542건 배송 65,134건 업무처리 126,125건 주문 113,047건 합계 551,103건 질병관리본부 건강/질병 90,277건 기타문의 13,194건 약품/식품 18,726건 요양기관 현황 10,097건 증상/징후 50,634건 진료비 정보 3,976건 온라인 신고 64,127건 합계 251,031건 금융/보험 사고 및 보상 문의 52,527건 상품 가입 및 해지 54,536건 이체, 출금, 대출서비스 48,476건 잔고 및 거래내역 46,477건 합계 202,016건 다산콜센터 대중교통 안내 24,354건 생활하수도 관련 문의 25,383건 일반행정 문의 31,468건 코로나19 관련 상담 20,296건 합계 101,501건
대표도면
필요성
- 기존 콜센터의 운영목적이 단순히 고객문의나 안내를 위함이었다면 최근에는 음성과 데이터망을 통합하여 이를 다양한 채널에서 고객들에게 서비스를 제공하게 됨.
- 이에 따라 컨택센터는 앞으로 ICC 지능형 컨택센터 형태로 진화할 것으로 예상됨.
- 빅데이터를 활용한 고객 맞춤 상담 음성인식 솔루션 기반의 고객서비스, 클라우드 기반의 솔루션 등 지능형 콜센터로서의 역할이 더욱더 중요해짐.
- 이처럼 빠르게 변화하는 콜센터 분야에서의 인공지능 기술의 도입은 필수적인 부분이 되어가고 있으며 원활한 기술 발전 및 지원을 위해 다양한 분야의 민원상담 데이터를 구축하고자 함.
데이터 구조
- 데이터 포맷
- 상담사와 고객간의 질문-답변 세트로 구성
- 상담사 질문, 답변, 고객 질문, 답변으로 구분 후 개체명, 용어사전, 지식베이스 추출 - 어노테이션 포맷
어노테이션 표 항목 설명 예시 필수여부 도메인 대분류 주문, 결제, 배송 등 필수 카테고리 중분류 주문확인, 주문처리,
단순 배송문의 등필수 대화셋 일련번호 데이터건 별 식별번호 데이터건 별
1,2,3,...필수 화자 상담사와 고객을 분리하는 번호 0 : 상담사,
1:고객필수 문장번호 질의, 응답 한 문장 당 부여된 번호 문장별 1,2,3... 필수 의도정보 main 고객의도 방송상품
주문요청조건별 필수
(고객 질문일
경우 필수)sub 상담사의도 고객주소등록 조건별 필수
상담사 질문
일 경우 필수QA 질의-응답 구분 Q: 질의,
A: 응답필수 원본 main Q 고객 질문 네 방송 보고
있는데 주문
하려구요필수 sub Q 상담사 질문 고객님 상세
주소 알려주시겠어요?필수 User Answer 고객 응답 네, 전화번호는
ooo oooo
oooo필수 System Answer 상담사 응답 네 등록해드리겠습니다. 필수 개체명 문장 중 명사 단어
들을 ','로 분리주문, 삼성카드,
현금 영수증선택 Y 용어사전 개체명의 유사 및
동의어성함/성명/이름,
신청/주문선택 Y 지식베이스 개체명이 해당 문장에서 쓰이는 의미를 기술 엘에이 갈비/상품명,
삼성카드/카드명선택
- 상담 업무 효율화
-
데이터셋 구축 담당자
수행기관(주관) : 포티투마루
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김동환 02-6952-9201 [email protected] · 데이터 구축 총괄 수행기관(참여)
수행기관(참여) 기관명 담당업무 어빌리티시스템즈 · 질병관리본부, 다산 콜센터, 금융/보험 원문 데이터 확보 및 제공 피플앤드테크놀러지 · 쇼핑 원문 데이터 확보 및 제공
· 데이터 구축 저작도구 제작데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 지민호(KT알파(구. KT하이텔)) 02-3289-2602 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.