콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#자연어

NEW 생성형AI 베트남어 말뭉치 데이터

베트남어 말뭉치 데이터 아이콘 이미지
  • 분야한국어
  • 유형 텍스트
구축년도 : 2023 갱신년월 : 2024-10 조회수 : 1,691 다운로드 : 88 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.1 2024-10-30 데이터 최종 개방
    1.0 2024-06-28 데이터 개방 Beta Version

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2024-06-28 산출물 공개 Beta Version

    소개

    - 베트남어의 언어 이해와 자연어 생성 능력을 위해 베트남에 대한 사회, 정치, 경제, 문화/예술, 역사 및 산업분야 등 다양한 주제와 분야에 대한 텍스트 데이터를 수집/정제.가공하여 인공지능(AI) 학습용 데이터셋 구축

    구축목적

    - 해외(베트남) 인공지능 서비스 시장진출 지원을 위한 베트남어 원천의 말뭉치 데이터를 구축하여 AI 모델 학습을 통한 해외진출 AI 모델기술 발전에 활용할 수 있음
  • - 데이터 구축 규모
        구축 물량 : 242,473,248 어절 구축 

    데이터 구축 규모
    클래스 분류 총 구축 어절 비율
    1 사회/정치/일반 51,631,982 21.3%
    2 IT/과학 10,488,643 4.3%
    3 지리/자연/국가 16,114,816 6.6%
    4 건강/의학 17,994,087 7.4%
    5 문화/역사/예술 78,242,476 32.3%
    6 경제/산업분야 26,285,074 10.8%
    7 관광/생활정보/스포츠 41,716,170 17.2%
    합계 242,473,248 100%

     

    - 데이터 분포
        1. 출처 분포 : 베트남 뚜오이째 신문사, 문화대, 하노이머이 신문사, 베트남 법률데이트베이스, 과학기술부, 기획투자부 전자정보 포털, 기획투자부, 베트남 관광청 신문, 베트남통신사, 보건부, 산업통산부, 개인사이트 등 

    데이터 분포
    구분 구성비

    출처 분포

    [그림] 03_출처 분포

    개인사이트 2.47%
    계획투자부 0.03%
    과학기술부 1.21%
    구텐베르크 프로젝트 25.77%
    기획투자부 0.62%
    기획투자부 전자정보 포털 0.71%
    꽁트엉 산업 및 무역 잡지 2.71%
    농업 및 농촌 개발부 0.50%
    문화대 5.26%
    문화및개발연구소 1.61%
    문화체육관광부 0.84%
    베트남 관광청 신문 0.17%
    베트남 뚜오이째 신문사 8.48%
    베트남 스포츠 플러스 2.52%
    베트남넷 신문 7.86%
    베트남라오스 0.17%
    베트남법률데이트베이스 4.74%
    베트남통신사 17.24%
    보건부 4.02%
    산업통산부 2.09%
    산업통상부 1.73%
    외교정보부 0.27%
    요안냔째신문 1.90%
    정부전자신문 0.02%
    중앙경제위원회 1.87%
    체육국 2.18%
    하노이머이 신문사 0.01%
    환경경제 2.97%
    소계 100%

        2. 유형별 분포 : 뉴스, 문학, 법률 

    유형별 분포 : 뉴스, 문학, 법률
    구분 구성비

    유형별 분포

    [그림] 04_유형별 분포

    뉴스 68.42%
    문학 26.83%
    법률 4.75%
    소계 100%

        3. 어절수 분포 : 100초과 ~ 200이하, 200초과 ~ 300이하, 300초과 ~ 400이하, 400초과 ~ 1000이하, 1000초과 ~ 2000이하

    어절수 분포
    구분 구성비

    어절수 분포

    [그림] 05_어절수 분포

    100초과 ~ 200이하 0.01%
    200초과 ~ 300이하 1.97%
    300초과 ~ 400이하 6.99%
    400초과 ~ 1000이하 90.77%
    1000초과 ~ 2000이하 0.26%
    소계 100%

        4. 주제 분포 : 사회/정치/일반, IT/과학, 지리/자연/국가, 건강/의학, 문화/역사/예술, 경제/산업분야, 관광/생활정보/스포츠

    주제 분포
    구분 구성비

    주제 분포

    [그림] 06_주제 분포

    1.사회/정치/일반 21.29%
    2.IT/과학 4.33%
    3.지리/자연/국가 6.65%
    4.건강/의학 7.42%
    5.문화/역사/예술 32.27%
    6.경제/산업분야 10.84%
    7.관광/생활정보/스포츠 17.20%
    소계 100%
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    - 모델학습
    모델은 GPT-3를 베이스로 하는 GPT-NeoX 1.3B를 사용하였으며 질문 답변, 번역, 대화, 작문 등 자연어처리 임무에서 높은 품질의 텍스트를 생성 할 수 있는 언어모델로 구축하였다. 모델 학습을 위한 데이터는 전체 2억 어절에 해당하며 주제별로 분류되어 있으며 (사회/정치/일반, IT/과학, 지리/자연/국가, 건강/의학, 문화/역사/예술, 경제/산업분야, 관광/생활정보/스포츠)으로 구성하였다. 전체 데이터로 사전학습을 수행하였고 질문과 답변 추가 데이터를 사용하여 파인튜닝을 하여 베트남어에 적합한 LLM언어모델로 개발하였다.

    AI모델 학습

    [그림] 07_AI모델 학습

    - 서비스 활용 시나리오
        가. 한국 기업 지원
            • 산업 및 물류 분야 등 다양한 베트남 시장에 진출한 한국 기업에게 베트남어 상담 LLM 챗봇 시스템을 도입 하여 대 베트남 고객의 서비스 수준을 높이고 빠른 현지화를 할 수 있도록 지원
        나. 베트남 기업 지원
           • 베트남 자국민을 대상으로 하는 상품 문의에 대한 상담, 상품 구매 추천 등 다양한 서비스를 베트남어 상담 LLM 챗봇 시스템으로 지원
           • 기업 내 임직원을 위한 업무 가이드 등 빠르고 효율적인 업무 지원하는 LLM 챗봇 시스템
        다. 공공 기관 지원
           • 대민 서비스를 학습한 AI챗봇으로 민원의 전화 및 방문 등 공공서비스를 제공하는 공공기관에서 반복되는 많은 민원 업무부담을 경감하도록 지원
        라. 재한 근로자 및 유학생 지원
           • 한국에서 근로 및 유학을 희망하거나 한국내에 있는 베트남인에 대해 근로 및 유학에 대한 정보를 베트남어로 번역하여 학습 시킨 후 근로 및 유학생활 등에 대한 상담 챗봇 서비스 지원
        마. AI 모델 수출
           • 베트남어 말뭉치 데이터를 활용하여 인공지능 챗봇 및 대화 시스템의 개발과 향상에 활용하며 학습 완료된 AI 모델의 베트남 수출

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    - 데이터 설명
    베트남어 언어로 작성된 원시데이터로부터 베트남어 텍스트 말뭉치 데이터를 수집하고, 적합한 원천 데이터를 추출하는 저작도구를 활용하여 정제작업을 수행하며, 정제된 원천데이터를 가공 및 검수하여 메타데이터를 적용한 데이터셋으로, 데이터의 다양성을 추구하며 정제 작업시 개인정보, 저작권, 민감한 이슈 등의 요소를 해결한 데이터임

    데이터 설명

    [그림] 01_데이터 설명


    - 데이터 포맷

    데이터 포맷
    공정구분 파일종류 파일 설명 비고
    수집 .txt 베트남어 말뭉치 텍스트 파일 원시데이터
    .csv 환경정보 파일
    정제 .txt 베트남어 말뭉치 텍스트 파일 원천데이터
    .csv 메타정보 파일
    가공 .txt 베트남어 말뭉치 텍스트 파일 가공데이터
    .json 메타정보 파일
    학습 .txt 베트남어 말뭉치 텍스트 파일 학습데이터
    .json 메타정보 파일

     

    - 어노테이션 포맷

    어노테이션 포맷
    No 항목명 길이 타입 필수
    여부
    한글명 영문명
    1 데이터셋 DataSet 30 String Y
    2 데이터셋 버전 Version 10 String Y
    3 고유식별자 DocumentID 22 String Y
    4 작업자 코드 WorkerID 5 String Y
    5 텍스트 생성 일자 CreatedDate 8 String Y
    6 발행 일자 IssueDate 8 String Y
    7 저작자(한글) Writer_KR 100 String N
    8 저작자(베트남어) Writer_VN 100 String N
    9 저작권 소유자(한글) Copyrighter_KR 100 String N
    10 저작권 소유자(베트남어) Copyrighter_VN 100 String N
    11 원본 파일 형태 OriginExtension 50 String Y
    12 데이터 출처 Data Sources 100 String Y
    13 자료유형 Data Type 50 String Y
    14 주제 분류(한글) Topic_KR 100 String Y
    15 주제 분류(베트남어) Topic_VN 100 String Y
    16 스타일 [문어체,구어체] Text_Style 50 String Y
    17 토큰수(어절수) WordCount   Number Y
    18 파일 사이즈 FileSize 15 String Y
    19 인코딩 타입 EncodingType 10 String Y
    20 텍스트 제목 Title 500 String Y
    21 텍스트 내용 Text 4000 String Y

     

    - 어노테이션 예시

    JSON_어노테이션

    [그림] 02_JSON_어노테이션

  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜딥로딩
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    최환조 02-568-2035 [email protected] 총괄책임자
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    ㈜인사이트정보 정제/가공/검수
    부산외국어대학교 수집
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    박준철 02-568-2035 [email protected]
    AI모델 관련 문의처
    AI모델 관련 문의처
    담당자명 전화번호 이메일
    오승묵 02-568-2035 [email protected]
    저작도구 관련 문의처
    저작도구 관련 문의처
    담당자명 전화번호 이메일
    박준철 02-568-2035 [email protected]
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.