AI-Hub

#자연어

NEW 생성형AI 베트남어 말뭉치 데이터

분야한국어
유형 텍스트

구축년도 : 2023 갱신년월 : 2024-10 조회수 : 1,691 다운로드 : 88 용량 :

샘플 데이터

※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

소개 파일 목록 (API 다운로드)

※ 내국인만 데이터 신청이 가능합니다.

문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.1	2024-10-30	데이터 최종 개방
1.0	2024-06-28	데이터 개방	Beta Version

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2024-06-28	산출물 공개	Beta Version

소개

- 베트남어의 언어 이해와 자연어 생성 능력을 위해 베트남에 대한 사회, 정치, 경제, 문화/예술, 역사 및 산업분야 등 다양한 주제와 분야에 대한 텍스트 데이터를 수집/정제.가공하여 인공지능(AI) 학습용 데이터셋 구축

구축목적

- 해외(베트남) 인공지능 서비스 시장진출 지원을 위한 베트남어 원천의 말뭉치 데이터를 구축하여 AI 모델 학습을 통한 해외진출 AI 모델기술 발전에 활용할 수 있음

메타데이터 구조표
데이터 영역	한국어	데이터 유형	텍스트
데이터 형식	txt	데이터 출처	자체 수집
라벨링 유형	질의응답(베트남어)	라벨링 형식	JSON
데이터 활용 서비스	베트남어 ChatGPT 서비스, 베트남어 기반의 SNS 대화 추천 서비스	데이터 구축년도/ 데이터 구축량	2023년/242,473,248 어절의 베트남어 말뭉치 데이터 구축

- 데이터 구축 규모
구축 물량 : 242,473,248 어절 구축

데이터 구축 규모
클래스 분류		총 구축 어절	비율
1	사회/정치/일반	51,631,982	21.3%
2	IT/과학	10,488,643	4.3%
3	지리/자연/국가	16,114,816	6.6%
4	건강/의학	17,994,087	7.4%
5	문화/역사/예술	78,242,476	32.3%
6	경제/산업분야	26,285,074	10.8%
7	관광/생활정보/스포츠	41,716,170	17.2%
합계		242,473,248	100%

- 데이터 분포
1. 출처 분포 : 베트남 뚜오이째 신문사, 문화대, 하노이머이 신문사, 베트남 법률데이트베이스, 과학기술부, 기획투자부 전자정보 포털, 기획투자부, 베트남 관광청 신문, 베트남통신사, 보건부, 산업통산부, 개인사이트 등

데이터 분포
구분	구성비	[그림] 03_출처 분포
개인사이트	2.47%
계획투자부	0.03%
과학기술부	1.21%
구텐베르크 프로젝트	25.77%
기획투자부	0.62%
기획투자부 전자정보 포털	0.71%
꽁트엉 산업 및 무역 잡지	2.71%
농업 및 농촌 개발부	0.50%
문화대	5.26%
문화및개발연구소	1.61%
문화체육관광부	0.84%
베트남 관광청 신문	0.17%
베트남 뚜오이째 신문사	8.48%
베트남 스포츠 플러스	2.52%
베트남넷 신문	7.86%
베트남라오스	0.17%
베트남법률데이트베이스	4.74%
베트남통신사	17.24%
보건부	4.02%
산업통산부	2.09%
산업통상부	1.73%
외교정보부	0.27%
요안냔째신문	1.90%
정부전자신문	0.02%
중앙경제위원회	1.87%
체육국	2.18%
하노이머이 신문사	0.01%
환경경제	2.97%
소계	100%

2. 유형별 분포 : 뉴스, 문학, 법률

유형별 분포 : 뉴스, 문학, 법률
구분	구성비	[그림] 04_유형별 분포
뉴스	68.42%
문학	26.83%
법률	4.75%
소계	100%

3. 어절수 분포 : 100초과 ~ 200이하, 200초과 ~ 300이하, 300초과 ~ 400이하, 400초과 ~ 1000이하, 1000초과 ~ 2000이하

어절수 분포
구분	구성비	[그림] 05_어절수 분포
100초과 ~ 200이하	0.01%
200초과 ~ 300이하	1.97%
300초과 ~ 400이하	6.99%
400초과 ~ 1000이하	90.77%
1000초과 ~ 2000이하	0.26%
소계	100%

4. 주제 분포 : 사회/정치/일반, IT/과학, 지리/자연/국가, 건강/의학, 문화/역사/예술, 경제/산업분야, 관광/생활정보/스포츠

주제 분포
구분	구성비	[그림] 06_주제 분포
1.사회/정치/일반	21.29%
2.IT/과학	4.33%
3.지리/자연/국가	6.65%
4.건강/의학	7.42%
5.문화/역사/예술	32.27%
6.경제/산업분야	10.84%
7.관광/생활정보/스포츠	17.20%
소계	100%

저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드
- 모델학습
모델은 GPT-3를 베이스로 하는 GPT-NeoX 1.3B를 사용하였으며 질문 답변, 번역, 대화, 작문 등 자연어처리 임무에서 높은 품질의 텍스트를 생성 할 수 있는 언어모델로 구축하였다. 모델 학습을 위한 데이터는 전체 2억 어절에 해당하며 주제별로 분류되어 있으며 (사회/정치/일반, IT/과학, 지리/자연/국가, 건강/의학, 문화/역사/예술, 경제/산업분야, 관광/생활정보/스포츠)으로 구성하였다. 전체 데이터로 사전학습을 수행하였고 질문과 답변 추가 데이터를 사용하여 파인튜닝을 하여 베트남어에 적합한 LLM언어모델로 개발하였다.

[그림] 07_AI모델 학습

- 서비스 활용 시나리오
   가. 한국 기업 지원
   • 산업 및 물류 분야 등 다양한 베트남 시장에 진출한 한국 기업에게 베트남어 상담 LLM 챗봇 시스템을 도입 하여 대 베트남 고객의 서비스 수준을 높이고 빠른 현지화를 할 수 있도록 지원
   나. 베트남 기업 지원
   • 베트남 자국민을 대상으로 하는 상품 문의에 대한 상담, 상품 구매 추천 등 다양한 서비스를 베트남어 상담 LLM 챗봇 시스템으로 지원
   • 기업 내 임직원을 위한 업무 가이드 등 빠르고 효율적인 업무 지원하는 LLM 챗봇 시스템
   다. 공공 기관 지원
   • 대민 서비스를 학습한 AI챗봇으로 민원의 전화 및 방문 등 공공서비스를 제공하는 공공기관에서 반복되는 많은 민원 업무부담을 경감하도록 지원
   라. 재한 근로자 및 유학생 지원
   • 한국에서 근로 및 유학을 희망하거나 한국내에 있는 베트남인에 대해 근로 및 유학에 대한 정보를 베트남어로 번역하여 학습 시킨 후 근로 및 유학생활 등에 대한 상담 챗봇 서비스 지원
   마. AI 모델 수출
   • 베트남어 말뭉치 데이터를 활용하여 인공지능 챗봇 및 대화 시스템의 개발과 향상에 활용하며 학습 완료된 AI 모델의 베트남 수출

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

- 데이터 설명
베트남어 언어로 작성된 원시데이터로부터 베트남어 텍스트 말뭉치 데이터를 수집하고, 적합한 원천 데이터를 추출하는 저작도구를 활용하여 정제작업을 수행하며, 정제된 원천데이터를 가공 및 검수하여 메타데이터를 적용한 데이터셋으로, 데이터의 다양성을 추구하며 정제 작업시 개인정보, 저작권, 민감한 이슈 등의 요소를 해결한 데이터임

데이터 설명

[그림] 01_데이터 설명

- 데이터 포맷

데이터 포맷
공정구분	파일종류	파일 설명	비고
수집	.txt	베트남어 말뭉치 텍스트 파일	원시데이터
수집	.csv	환경정보 파일	원시데이터
정제	.txt	베트남어 말뭉치 텍스트 파일	원천데이터
정제	.csv	메타정보 파일	원천데이터
가공	.txt	베트남어 말뭉치 텍스트 파일	가공데이터
가공	.json	메타정보 파일	가공데이터
학습	.txt	베트남어 말뭉치 텍스트 파일	학습데이터
학습	.json	메타정보 파일	학습데이터

- 어노테이션 포맷

어노테이션 포맷
No	항목명		길이	타입	필수 여부
No	한글명	영문명	길이	타입	필수 여부
1	데이터셋	DataSet	30	String	Y
2	데이터셋 버전	Version	10	String	Y
3	고유식별자	DocumentID	22	String	Y
4	작업자 코드	WorkerID	5	String	Y
5	텍스트 생성 일자	CreatedDate	8	String	Y
6	발행 일자	IssueDate	8	String	Y
7	저작자(한글)	Writer_KR	100	String	N
8	저작자(베트남어)	Writer_VN	100	String	N
9	저작권 소유자(한글)	Copyrighter_KR	100	String	N
10	저작권 소유자(베트남어)	Copyrighter_VN	100	String	N
11	원본 파일 형태	OriginExtension	50	String	Y
12	데이터 출처	Data Sources	100	String	Y
13	자료유형	Data Type	50	String	Y
14	주제 분류(한글)	Topic_KR	100	String	Y
15	주제 분류(베트남어)	Topic_VN	100	String	Y
16	스타일 [문어체,구어체]	Text_Style	50	String	Y
17	토큰수(어절수)	WordCount		Number	Y
18	파일 사이즈	FileSize	15	String	Y
19	인코딩 타입	EncodingType	10	String	Y
20	텍스트 제목	Title	500	String	Y
21	텍스트 내용	Text	4000	String	Y

- 어노테이션 예시

JSON_어노테이션

[그림] 02_JSON_어노테이션

데이터셋 구축 담당자

수행기관(주관) : ㈜딥로딩

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
최환조	02-568-2035	[email protected]	총괄책임자

수행기관(참여)

수행기관(참여)
기관명	담당업무
㈜인사이트정보	정제/가공/검수
부산외국어대학교	수집

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
박준철	02-568-2035	[email protected]

AI모델 관련 문의처

AI모델 관련 문의처
담당자명	전화번호	이메일
오승묵	02-568-2035	[email protected]

저작도구 관련 문의처

저작도구 관련 문의처
담당자명	전화번호	이메일
박준철	02-568-2035	[email protected]

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의