콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#자연어

NEW 생성형AI 한국어 SNS 멀티턴 대화 데이터

한국어 SNS 멀티턴 대화 데이터 아이콘 이미지
  • 분야한국어
  • 유형 텍스트
구축년도 : 2023 갱신년월 : 2024-10 조회수 : 5,495 다운로드 : 585 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.1 2024-10-30 데이터 최종 개방
    1.0 2024-06-28 데이터 개방 Beta Version

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2024-06-28 산출물 공개 Beta Version

    소개

    - 한국어 SNS 대화처리 모델링 기술 연구 및 응용 서비스 개발 등에 활용하기 위한 한국어 SNS 대화의 문체와 내용을 반영하는 2인 또는 3인 화자의 멀티턴 대화 데이터

    구축목적

    - 한국어 SNS 멀티턴 대화의 대화 상태 예측 모델 연구 및 개발에 활용할 수 있는 학습용 데이터 구축
    - 한국어 SNS 어휘, 표현, 문체를 반영한 대화 생성 모델 연구 및 개발에 활용할 수 있는 학습용 데이터 구축
    - 한국어 SNS 문체를 구사하는 사용자 친화적 정보성 문답 챗봇 응용 서비스 연구 및 개발에 활용할 수 있는 학습용 데이터 구축
  • - 데이터 구축 규모

    데이터 구축 규모
    항목 내용
    대화 세션 196,235
    발화 3,246,886
    대화 주제별 구축 규모 주제 수량 구축 비율
    (대화 세션)
    건강 및 식음료 20,576 10.49%
    경제 및 사회 42,540 21.68%
    과학 기술 19,681 10.03%
    문화 생활 및 여가 21,348 10.88%
    미용과 패션 21,997 11.21%
    스포츠 및 e 스포츠 21,688 11.05%
    여행, 관광 및 명소 24,276 12.37%
    정치 3,603 1.84%
    콘텐츠 소비 20,526 10.46%
    합계 196,235 100.00%
    화자별
    구축 규모 
    화자 수량 구축 비율
    (발화)
    2인 2,953,371 90.96%
    3인 293,515 9.04%
    합계 3,246,902 100.00%

    - 데이터 분포
    (1) 발화 내 문장 수 분포
     발화 내 문장 수는 발화 내 한 문장으로 이루어진 발화가 전체의 43.66%, 두 문장으로 이루어진 발화가 전체의 24.82%, 세 문장으로 이루어진 발화가 전체의 1.95%를 차지하며, 기타 네 문장으로 이루어진 발화가 전체의 0.21%를 차지한다.

    발화내문장수분포 그래프 이미지


    (2) 대화 내 발화 수 분포
     대화 내 발화는 최소 14발화를 기준으로 하며, 16발화가 전체의 90.26%, 24발화가 전체의 6.08%를 차지한다.

    대화내발화수분포 그래프 이미지


    (3) 화자 성별 분포
     대화의 화자의 성별 분포는 남성 50.43%, 여성 49.57%로 이루어져 있다.

    화자성별분포 그래프 이미지


    (4) 화자 연령대 분포
     대화의 화자 연령 분포는 10대 4.65%, 20대 50.15%, 30대 42.22%, 40대 2.80%, 50대(이상) 0.18%로 이루어져 있다.

    화자연령대분포 그래프 이미지

  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    - 모든 도메인(건강 및 식음료/여행, 관광 및 명소/문화생활 및 여가/미용과 패션/스포츠 및 e스포츠/콘텐츠 소비/정치/경제 및 사회/과학 기술)에서 사용되는 사전 학습 언어모델은 같으나, 도메인별 라벨링이 다르기 때문에 총 9개, 각 1개씩 Dialogue State Tracking 모델을 구현
    - 사전 학습 언어모델은 Kconvo-RoBERTa를 사용하였으며, [CLS] 토큰을 통해 special state(ex. 가격대, 평가/후기/감상)을 예측하고, Text 토큰을 통해 standard state(ex. 장소/지역/조직, 인물 등)을 예측
    - 모델의 입력값은 주고받는 발화 쌍을 하나로 묶어서 Kconvo-RoBERTa에 입력됨
    - Kconvo-RoBERTa에서 추출되는 [CLS] 토큰을 통해 special state(slot-key: 가격대, 평가/후기/감상)을 분류하며, special state을 예측할 시, 예측된 special state에 대한 values(slot-value: yes, no, dontcare, soso) 중 하나를 예측
    - Kconvo-RoBERTa에서 추출되는 text 토큰들에서 BIO 태깅을 통해 standard state(slot-key: 장소/지역/조직, 시간 등)를 예측하며, 예측된 standard state의 시작점과 종료점(B-tag를 시작으로 마지막 I-tag까지)를 values(slot-value: 한국, 오전 10시 등)로 정의
    - 1개의 입력 발화 쌍에 special state와 standard state 모두 존재할 수 있기 때문에, 동시에 학습을 진행

    AI모델 이미지(Kconvo-RoBERTa)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    - 어노테이션 포맷

    어노테이션 포맷
    No 속성명 타입 필수 속성 설명 예시
    여부
    1 info Object Y 대화 메타정보  
    2 info.category String Y 데이터셋 종류 한국어SNS 멀티턴 대화
    3 info.id String Y 데이터셋 식별자 79
    4 info.topic String Y 대화 주제 건강 및 식음료
    5 info.keyword String Y 대화 키워드 밀키스 제로 출시
    6 info.speaker Object Y 발화자 정보  
    7 info.speaker.speakerAId String Y 발화자 A의 ID 39
    8 info.speaker.speakerASex String Y 발화자 A의 성별 여자
    9 info.speaker.speakerAAge String Y 발화자 A의 연령대 20
    10 info.speaker.speakerBId String Y 발화자 B의 ID 104
    11 info.speaker.speakerBSex String Y 발화자 B의 성별 남자
    12 info.speaker.speakerBAge String Y 발화자 B의 연령대 20
    13 info.speaker.speaerCId String   발화자 C의 ID 77
    14 info.speaker.speakerCSex String   발화자 C의 성별 남자
    15 info.speaker.speakerCAge String   발화자 C의 연령대 30
    16 utterances Object Y 발화 정보  
    17 utterances.terminate Boolean Y 대화 종료 표시 True / False
    18 utterances.speaker String Y 발화자 speakerA
    19 utterances.text String Y 발화 text 너 제로 칼로리 탄산음료 좋아함?
    20 utterances.new_words String   사용된 신조어 레알
    21 utterances.speech_act String Y 발화의 화행 class 정보 요청 / 정보 제공 
    22 utterances.slot Object Y 발화의 slot 정보  
    23 utterances.slot.key String   발화의 slot 항목 class 제품/서비스
    24 utterances.slot.value String   slot 항목의 값 밀키스
    25 utterances.turn_id String Y 턴 id 000079-2
    26 utterances.utterance_id String Y 발화 id 79.4

    - 데이터 포맷
    (1) 대화 메타 정보

    대화 메타 정보
    대화 ID 화자A
    ID
    화자A
    성별
    화자A
    연령대
    화자B
    ID
    화자B
    성별
    화자B
    연령대
    주제 키워드
    79 39 여자 20 104 남자 20 건강 및 식음료 밀키스 제로 출시

     

    (2) 발화 데이터

    발화 데이터
    발화
    번호
    발화자 발화 신조어 화행 slot_data
    1 A 야! 바쁘냐~. 오늘의 저메추 부탁할게. 저메추 친교 및 잡담 {"날짜/기간/계절":"오늘"}
    2 B 왜 너 먹는걸 맨날 나한테 물어봐ㅋㅋ. 나는 귀찮아서 냉동실에 있는 치즈 돈까스 에프에 돌려 먹을란다. 에프 친교 및 잡담 {"제품/서비스":"치즈 돈까스"}
    3 A 야. 너 저번부터 왜 자꾸 냉동 식품만 먹어?   친교 및 잡담 {"제품/서비스":"냉동 식품"}
    4 B 뭐 어때서 그래. 1인 가구가 매번 재료 사서 요리하기 얼마나 귀찮은줄 알아? 재료 남는 것도 많고. 냉동 간편식이 대세라구.   친교 및 잡담 {"제품/서비스":"냉동 간편식","평가/후기/감상":"yes"}
    5 A 아. 그래? 주로 어디서 구매하는데?   정보 요청  
    6 B 나는 낮에 회사에 있으나 장보러갈 시간이 없어서 주로 마켓컬리나 이마트 새벽 배송으로 주문해서 받아.   정보 제공 {"제품/서비스":"새벽 배송","장소/조직":"마켓컬리; 이마트","시간":"낮"}
    7 A 마켓컬리는 나도 몇 번 이용해 보기는 했어. 뭐 추천할 만한거 있어?   정보 요청 {"장소/조직":"마켓컬리"}
    8 B 응. 빵 좋아하면 리치몬드 과자점이나 우드앤브릭, 메종엠오 같은 오프라인 맛집 빵도 냉동으로 얼려서 배송해줘.   정보 제공 {"제품/서비스":"빵; 오프라인 맛집 빵","장소/조직":"리치몬드 과자점; 우드앤브릭; 메종엠오"}
    9 A 오 진짜 유명한 베이커리들이잖아? 그리고 또?   정보 요청 {"제품/서비스":"베이커리"}
    10 B 아니면 오프라인 맛집이라고 따로 모아둔 카테고리가 있는데, 거기 가면 이연복의 목란 짜장면도 있고 전주의 유명 맛집 베테랑 칼국수 등등 다 냉동 간편식으로 온다구.   정보 제공 {"인물":"이연복","제품/서비스":"오프라인 맛집; 목란 짜장면; 베테랑 칼국수; 냉동 간편식","지역":"전주"}
    11 A 냉동 식품은 뭔가 신선하지 않은 느낌인데 맛이 좀 다르지 않아?   정보 요청 {"제품/서비스":"냉동 식품"}
    12 B 보통은 급속 냉동 기술을 사용해서 얼리니까 해동하고 조리하면 방금 요리한 것 처럼 맛있던데?   정보 제공 {"평가/후기/감상":"yes"}
    13 A 맛나겠다. 근데 나 다이어트도 해야하는데?   정보 요청  
    14 B 응. 탄단지 잘 맞춘 냉동 다이어트 도시락들도 있으니 쟁여두는걸 추천해. 탄단지 정보 제공 {"제품/서비스":"냉동 다이어트 도시락","평가/후기/감상":"yes"}
    15 A 꿀팁 감사감사. 역시 너는 아는 게 많구나.   친교 및 잡담  
    16 B 응! 더운 여름에 특히 걍 전자레인지나 에어프라이어로 끝나는 냉동 간편식이 최고니까 꼭 도전해봐.   친교 및 잡담 {"제품/서비스":"냉동 간편식; 에어프라이어; 전자레인지","날짜/기간/계절":"여름"}

     

    (3) JSON 형식 예시

    {
        "info": {
            "category": "한국어SNS 멀티턴 대화",
            "id": "000079",
            "topic": "건강 및 식음료",
            "keyword": "밀키스 제로 출시",
            "speaker": {
                "speakerAId": "0039",
                "speakerASex": "여자",
                "speakerAAge": "20",
                "speakerBId": "0104",
                "speakerBSex": "남자",
                "speakerBAge": "20",
                "speakerCId": null,
                "speakerCSex": null,
                "speakerCAge": null
            }
        },
        "utterances": [
            {
                "speaker": "speakerA",
                "text": "너 제로 칼로리 탄산음료 좋아함?",
                "new_word": "",
                "speech_act": "친교 및 잡담",
                "slot": [
                    {
                        "key": "제품/서비스",
                        "value": "제로 칼로리 탄산음료"
                    }
                ],
                "turn_id": "000079-1",
                "utterance_id": "000079.1"
            },
            {
                "speaker": "speakerB",
                "text": "ㅇㅇ. 일반 탄산음료보다 칼로리 부담이 덜해서 자주 마시는데 그건 왜?",
                "new_word": "",
                "speech_act": "친교 및 잡담",
                "slot": [
                    {
                        "key": "제품/서비스",
                        "value": "일반 탄산음료"
                    },
                    {
                        "key": "영양소/성분",
                        "value": "칼로리"
                    }
                ],
                "turn_id": "000079-1",
                "utterance_id": "000079.2"
            },
            {
                "speaker": "speakerA",
                "text": "그럼 너 밀키스 제로도 마셔봄? 최근에 새로 출시됐다고 하던데.",
                "new_word": "",
                "speech_act": "정보 제공",
                "slot": [
                    {
                        "key": "제품/서비스",
                        "value": "밀키스 제로"
                    }
                ],
                "turn_id": "000079-2",
                "utterance_id": "000079.3"
            },
            {
                "speaker": "speakerB",
                "text": "레알? 밀키스도 제로 칼로리로 나왔다고?",
                "new_word": "레알",
                "speech_act": "정보 요청",
                "slot": [
                    {
                        "key": "제품/서비스",
                        "value": "밀키스"
                    },
                    {
                        "key": "영양소/성분",
                        "value": "제로 칼로리"
                    }
                ],
                "turn_id": "000079-2",
                "utterance_id": "000079.4"
            },
            {
                "speaker": "speakerA",
                "text": "출시된 지 꽤 된 거 같던데 나도 얼마 전에 먹방 유튜버 영상 보고 알았음!",
                "new_word": "먹방",
                "speech_act": "정보 제공",
                "slot": [],
                "turn_id": "000079-3",
                "utterance_id": "000079.5"
            },
            {
                "speaker": "speakerB",
                "text": "오, 대박.. 그럼 너는 밀키스 제로 먹어봤어?",
                "new_word": "대박",
                "speech_act": "친교 및 잡담",
                "slot": [
                    {
                        "key": "제품/서비스",
                        "value": "밀키스 제로"
                    },
                    {
                        "key": "평가/후기/감상",
                        "value": "yes"
                    }
                ],
                "turn_id": "000079-3",
                "utterance_id": "000079.6"
            },
            {
                "speaker": "speakerA",
                "text": "당연하지. 제로 칼로리인데 일반 밀키스 맛이랑 거의 똑같더라ㅋㅋ",
                "new_word": "",
                "speech_act": "정보 제공",
                "slot": [
                    {
                        "key": "영양소/성분",
                        "value": "제로 칼로리"
                    },
                    {
                        "key": "제품/서비스",
                        "value": "밀키스"
                    }
                ],
                "turn_id": "000079-4",
                "utterance_id": "000079.7"
            },
            {
                "speaker": "speakerB",
                "text": "나도 조만간 사먹어봐야겠다. 근데 그건 어디서 살 수 있음?",
                "new_word": "",
                "speech_act": "정보 요청",
                "slot": [],
                "turn_id": "000079-4",
                "utterance_id": "000079.8"
            },
            {
                "speaker": "speakerA",
                "text": "편의점이나 마트에서도 팔고, 온라인 칠성몰 사이트에서도 살 수 있다고 함!",
                "new_word": "",
                "speech_act": "정보 제공",
                "slot": [
                    {
                        "key": "장소/조직",
                        "value": "온라인 칠성몰 사이트"
                    }
                ],
                "turn_id": "000079-5",
                "utterance_id": "000079.9"
            },
            {
                "speaker": "speakerB",
                "text": "그렇구만. 밀키스 제로는 그럼 캔으로만 출시된 거야?",
                "new_word": "",
                "speech_act": "정보 요청",
                "slot": [
                    {
                        "key": "제품/서비스",
                        "value": "밀키스 제로"
                    }
                ],
                "turn_id": "000079-5",
                "utterance_id": "000079.10"
            },
            {
                "speaker": "speakerA",
                "text": "ㄴㄴ. 250mL 캔이랑 300mL, 500mL 페트병으로도 출시됨!",
                "new_word": "",
                "speech_act": "정보 제공",
                "slot": [
                    {
                        "key": "제품/서비스",
                        "value": "페트병"
                    }
                ],
                "turn_id": "000079-6",
                "utterance_id": "000079.11"
            },
            {
                "speaker": "speakerB",
                "text": "페트병으로도 나왔다니 박박이네. 밀키스 팬들 엄청 좋아하겠다ㅋㅋ",
                "new_word": "박박",
                "speech_act": "친교 및 잡담",
                "slot": [
                    {
                        "key": "제품/서비스",
                        "value": "밀키스; 페트병"
                    },
                    {
                        "key": "평가/후기/감상",
                        "value": "yes"
                    }
                ],
                "turn_id": "000079-6",
                "utterance_id": "000079.12"
            },
            {
                "speaker": "speakerA",
                "text": "그러니까ㅋㅋ 요즘 제로 칼로리 음료가 대세이긴 한가봄.",
                "new_word": "",
                "speech_act": "친교 및 잡담",
                "slot": [
                    {
                        "key": "제품/서비스",
                        "value": "제로 칼로리 음료"
                    },
                    {
                        "key": "평가/후기/감상",
                        "value": "yes"
                    }
                ],
                "turn_id": "000079-7",
                "utterance_id": "000079.13"
            },
            {
                "speaker": "speakerB",
                "text": "니 이야기 들으니까 맛이 더 궁금해지네. 내일 당장 편의점 가서 사와야겠다ㅋㅋ",
                "new_word": "",
                "speech_act": "친교 및 잡담",
                "slot": [
                    {
                        "key": "날짜/기간/계절",
                        "value": "내일"
                    },
                    {
                        "key": "평가/후기/감상",
                        "value": "yes"
                    }
                ],
                "turn_id": "000079-7",
                "utterance_id": "000079.14"
            },
            {
                "speaker": "speakerA",
                "text": "편의점에 캔 음료 원 플러스 원 행사도 종종 하니까 사서 먹어봐ㅋㅋ 완전 추천함!",
                "new_word": "",
                "speech_act": "정보 제공",
                "slot": [
                    {
                        "key": "사건",
                        "value": "캔 음료 원 플러스 원 행사"
                    },
                    {
                        "key": "평가/후기/감상",
                        "value": "yes"
                    }
                ],
                "turn_id": "000079-8",
                "utterance_id": "000079.15"
            },
            {
                "speaker": "speakerB",
                "text": "오키! 먹어보고 나서 후기 말해줄게.",
                "new_word": "",
                "speech_act": "친교 및 잡담",
                "slot": [],
                "turn_id": "000079-8",
                "utterance_id": "000079.16"
            }
        ]
    }

  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜엔에이치엔다이퀘스트
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    이주환 070-4658-4427 [email protected] 데이터 검수, AI학습모델 개발
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    ㈜미디어 코퍼스 데이터 수집, 가공
    심심이(주) 데이터 정제, 워크벤치 개발
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    박일섭 02)881-5758 [email protected]
    AI모델 관련 문의처
    AI모델 관련 문의처
    담당자명 전화번호 이메일
    이주환 070-4658-4427 [email protected]
    저작도구 관련 문의처
    저작도구 관련 문의처
    담당자명 전화번호 이메일
    최정회 02-562-5332 [email protected]
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.