-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2024-01-17 데이터 최종개방 1.0 2023-07-31 데이터 개방(Beta Version) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-09-06 산출물 공개 저작도구 2024-01-17 산출물 전체 공개 소개
시간 간격이 있는 여러 개의 세션에서 두 명의 참여자가 부여받은 페르소나와 대화 토픽을 바탕으로 자유로운 일상 대화 텍스트를 수집한 뒤 참여자 정보, 대화 주제, 대화방 정보, 시간 간격, 페르소나 정보, 대화 및 요약에 대한 라벨링을 통해 데이터셋을 구성 데이터의 5%는 주제와 관련된 질문-대답이 추가된 전문대화로 구성됨(2세션으로만 구축)
구축목적
한국어 챗봇을 고도화하기 위해 과거 대화 기억 가능한 멀티세션 대화를 구축 긴 맥락의 연속된 대화를 기억하고 반영하는 챗봇 기술 개발을 위한 멀티세션 대화 구축
-
메타데이터 구조표 데이터 영역 한국어 데이터 유형 텍스트 데이터 형식 텍스트 데이터 출처 자체 수집 라벨링 유형 텍스트 라벨링 형식 텍스트(JSON) 데이터 활용 서비스 자연어처리 모델 개발, 대화형 인공지능 시스템 연구, 대화형 로봇/앱 개발, 가상의 아바타 응답 패턴 개발 등 데이터 구축년도/
데이터 구축량2022년/80,000건 -
1. 데이터 구축 규모
- 총 8만 건의 멀티세션 대화 구축데이터 구축 규모 구분 총 데이터수집 (건) 2세션 3세션 4세션 데이터 일반대화 36,000 20,000 20,000 수집 전문대화 4,000 - - 규모 합계 40,000 20,000 20,000 2. 데이터 분포
- 대화 참여자 성별 분포데이터 분포 - 대화 참여자 성별 분포 성별 인원(건) 비율(%) 남성 3,641 46.27 여성 4,228 53.73 합계 7,869 100 - 페르소나 연령대 분포
데이터 분포 - 페르소나 연령대 분포 페르소나 특성
personaFeatures수량(건) 비율(%) 10대 1,718 4.29 20대 12,155 30.36 30대 12,114 30.26 40대 5,714 14.27 50대 5,298 13.23 60대 이상 3,034 7.58 합계 40,033 100 - 주제 분포: 개인 및 관게, 교육, 교통 등 13개 주제
데이터 분포 - 주제 분포: 개인 및 관게, 교육, 교통 등 13개 주제 순서 주제 수량(건) 비율(%) 1 개인 및 관계 12,783 15.98 2 교육 6,288 7.86 3 교통 3,795 4.75 4 기후 3,975 4.97 5 미용과 건강 9,038 11.3 6 상거래전반 4,370 5.47 7 시사/사회 7,328 9.17 8 식음료 4,130 5.15 9 여가와 오락 11,063 13.83 10 예술문화생활 6,508 8.13 11 일과 직업 6,997 8.75 12 주거와 생활 3,489 4.37 13 패션 235 0.29 합계 80,000 100 - 세션별 대화 턴 수 분포
데이터 분포 - 세션별 대화 턴 수 분포 턴 수 수량(건) 비율(%) 7 120,936 54.97% 8 69,069 31.40% 9 22,881 10.40% 10 6,735 3.06% 11 177 0.08% 12 96 0.04% 13 45 0.02% 14 28 0.01% 15 18 0.01% 16 8 0.00% 17 5 0.00% 18 1 0.00% 25 1 0.00% -
-
저작도구 설명서 및 저작도구 다운로드
저작도구 다운로드 -
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드1 학습 모델 후보
- 선정 모델: Blenderbot 2.0
- 선정 이유: ETRI에서 pre-train한 한국어 T5 모델을 기반으로 하여 본 과제의 수집 데이터를 통한 Long-term memory 챗봇모델의 fine-tuning을 통해 Blenderbot2.0의 멀티세션모델 제작 가능, ETRI T5는 기존의 transformer 구조를 차용한 모델로, Blenderbotv2에서 사용된 standard transformer 구조와 거의 동일2 학습 모델 개발
1. 인공지능 기반 대화 모델
- 현재 세션의 대화를 나눌 때, 사용자와 나눴던 과거 세션의 정보를 활용해 답변 생성
- 한국어 데이터로 사전학습된 ETRI T5 모델을 대화 데이터를 이용해 미세 조정함으로써 이전 세션 대화를 활용해 답변을 생성하는 대화 모델을 개발 -
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 이전 세션 참고 적정성(SSC < MSC) Text Generation T5 사용률 17.03 % 31.82 % 2 답변 생성 적정성(SSC < MSC) Text Generation T5 생성률 60 % 78.65 % 3 텍스트 생성 모델 평가 점수(SSC < MSC) Text Generation T5 Likert scale 3.3 점 4.09 점
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드1. 데이터셋 구성
- 3가지 데이터 분류 카테고리(2세션, 3세션, 4세션), 이 중 2세션 대화의 일부는 전문대화(질문-답변 추가)로 구성2. 데이터 분류 체계 정의
- 2세션: 2개의 세션으로 구성된 멀티세션
- 3세션: 3개의 세션으로 구성된 멀티세션
- 4세션: 4개의 세션으로 구성된 멀티세션3. 데이터 출처
- 크라우드 워커를 모집하여 자유대화 직접 구축4. 라벨링 데이터 구성
라벨링 데이터 구성 구 분 속성명 타입 필수여부 설명 범위 비고 1 FileInfo 파일 정보 1-1 filename string y 파일명 1-2 sessionLevel string y 세션 수 2~4 2 participantsInfo 참여자 정보 2-1 numberOfParticipants string y 참여자 수 2 2-2 speaker1 참여자1 정보 2-2-1 participantID string y 참여자 ID 4-5자리 2-2-2 gender string y 대화 참여자 성별 남성/여성 2-2-3 age string y 나이 10대~60대 이상 연령대 2-2-4 occupation string 직업 2-2-5 bPlace string 출생지 2-2-6 gPlace string 성장지 2-2-7 rPlace string 현 거주지 2-2-8 educationLevel string 학력 2-3 speaker2 참여자 2정보 2-3-1 participantID string y 참여자 ID 4-5자리 2-3-2 gender string y 대화 참여자 성별 남성/여성 2-3-3 age string y 나이 10대~60대 이상 연령대 2-3-4 occupation string 직업 2-3-5 bPlace string 출생지 2-3-6 gPlace string 성장지 2-3-7 rPlace string 현 거주지 2-3-8 educationLevel string 학력 3 multisessionInfo 멀티세션 정보 3-1 multisessionID string y 멀티세션 ID 세션수-5자리 (전문대화 5-로 시작) 4 personaInfo string 페르소나 정보 4-1 clInfo CL의 정보 4-1-1 personaID string y 페르소나 ID 5자리 4-1-2 personaFeatures string y 페르소나 특징 4-1-3 speakerType string y 화자유형 speaker1 4-2 cpInfo CP의 정보 4-2-1 personaID string y 페르소나 ID 5자리 4-2-2 personaFeatures string y 페르소나 특징 4-2-3 speakerType string y 화자유형 speaker2 5 topicInfo 토픽 정보 5-1 topicID string y 주제 ID 5-2 topicType string y 토픽 유형 21개 5-3 topicTitle string y 토픽 타이틀 235개 6 sessionInfo 세션 정보 *세션 수만큼 반복 6-1 prevSessionID string y 이전 세션 ID 대화방ID + 몇 번째 세션(1/2/3/4) 6-2 prevTimeInfo 이전 시간 정보 6-2-1 timeNum string y 이전 세션 이후 *1~48시간 흐른 가상의 시간 *1~10일 *1~7주 6-2-2 timeUnit string y 가상 시간 단위 시간/일/주 6-3 nthSession string y 몇 번째 세션 1~4 6-4 numberOfUtterances string y 발화 수 6-5 numberOfTurns string y 말차례 수 6-6 sessionID string y 세션 ID 대화방ID + 몇 번째 세션(1/2/3/4) 6-7 dialog 대화 6-7-1 speaker string y 화자 순서 speaker1 = CL, speaker2 = CP 6-7-2 personaID string y 페르소나 ID 00001 ~ 99999 6-7-3 participantID string y 참여자 ID 0001~9999 6-7-4 utterance string y 발화 6-7-5 summary string y 세션 내용 요약 6-7-6 date string y 발화 일시 연-월-일 6-7-7 time string y 발화 시간 시간:분:초 6-7-8 terminate string y 대화 종료 false /true 6-8 sessionPersonaSummary 세션 내 페르소나 요약 6-8-1 speaker1 string y 세션 내 첫 번째 화자 페르소나 요약 6-8-2 speaker2 string y 세션 내 두 번째 화자 페르소나 요약 6-9 prevAggregatedpersonaSummary 이전 세션의 페르소나 요약 6-9-1 speaker1 string y 이전 세션의 첫 번째 화자 페르소나 총 요약 6-9-2 speaker2 string y 이전 세션의 두 번째 화자 페르소나 총 요약 ● 전문대화의 경우, 상기 라벨링 데이터의 구조와 동일하되, “sessionInfo”에 “searchWord, linkAddress, searchMethod” 항목이 추가됨
라벨링 데이터 구성 - 전문대화의 경우 6 sessionInfo 세션 정보 6-1 prevSessionID string y 이전 세션 ID 6-2 prevTimeInfo 이전 시간 정보 6-2-1 timeNum string y 이전 세션 이후 흐른 가상의 시간 6-2-2 timeUnit string y 가상 시간 단위 6-3 nthSession string y 몇 번째 세션 6-4 numberOfUtterances string y 발화 수 6-5 numberOfTurns string y 말차례 수 6-6 sessionID string y 세션 ID 6-7 dialog 대화 6-7-1 speaker string y 화자 순서 6-7-2 personaID string y 페르소나 ID 6-7-3 participantID string y 참여자 ID 6-7-4 utterance string y 발화 6-7-5 searchWord string y 검색어 6-7-6 linkAddress string y 링크주소 6-7-7 searchMethod string y 검색방법 6-7-8 summary string y 세션 내용 요약 6-7-9 date string y 발화 일시 6-7-10 time string y 발화 시간 6-7-11 terminate string y 대화 종료 6-8 sessionPersonaSummary 세션 내 페르소나 요약 6-8-1 speaker1 string y 세션 내 첫 번째 화자 페르소나 요약 6-8-2 speaker2 string y 세션 내 두 번째 화자 페르소나 요약 6-9 prevAggregatedpersonaSummary 이전 세션의 페르소나 요약 6-9-1 speaker1 string y 이전 세션의 첫 번째 화자 페르소나 총 요약 6-9-2 speaker2 string y 이전 세션의 두 번째 화자 페르소나 총 요약 -
데이터셋 구축 담당자
수행기관(주관) : 미디어젠
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 윤종성 02-6429-7144 [email protected] 설계 분석 및 개발 수행기관(참여)
수행기관(참여) 기관명 담당업무 비디 시스템 구축 메트릭스 크라우드소싱 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 윤종성 02-6429-7144 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.