발화유형(문어, 구어, 채팅)별 기계번역 병렬 말뭉치
- 분야한국어
- 유형 텍스트
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2023-11-03 데이터 최종 개방 1.0 2023-05-26 데이터 개방(Beta Version) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-06-13 데이터설명서, 담당자 정보 수정 2024-01-12 산출물 전체 공개 2023-12-01 구축업체정보 수정 2023-11-24 구축업체정보 수정 2023-06-02 구축업체정보 수정 소개
- 한국어 계열 기계번역의 언어별 성능, 어투, 도메인 등, 다양한 요소를 평가할 수 있도록 벤치마크 데이터셋 구축
구축목적
- 자연어 이해 및 자연어 생성에 대한 연구 및 개발한 언어모델 평가 등에 활용 - 다양한 산업에서 민원·응대 등에 활용되는 챗봇, AI 비서와 같은 언어모델 평가 등에 활용
-
메타데이터 구조표 데이터 영역 한국어 데이터 유형 텍스트 데이터 형식 JSON 데이터 출처 신규 제작 라벨링 유형 번역(자연어) 라벨링 형식 JSON 데이터 활용 서비스 기계번역 데이터 구축년도/
데이터 구축량2022년/90,003건 -
데이터 통계
데이터 구축 규모
데이터 구축 규모 데이터 종류 규모 텍스트 데이터 90,003건 데이터 분포
○ 언어쌍별 분포데이터 분포○ 언어쌍별 분포 언어쌍 비율 en-ko 16.67% jp-ko 16.67% zh-ko 16.67% ko-en 16.67% ko-jp 16.67% ko-zh 16.67% 총 100% ○ 발화유형별 분포
데이터 분포○ 발화유형별 분포 발화유형 비율 CH 33.33% SP 33.33% WR 33.33% 총 100% ○ 주제별 분포데이터 분포○ 주제별 분포 주제 비율 CA 40.01% ES 19.98% SH 19.95% ST 20.07% 총 100% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드모델 학습
○ 한중일영 번역 모델
AI-hub 데이터를 이용하여 Transformer 모델을 학습한 모델. 한중일영에 대해서 기본적인 번역 과업을 수행할 수 있음.예시) [한->영]
입력: “구글로 빨리 찾아봤어요.“
출력: “Well, I had a quick research via Google.” -
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 번역 정확도 (한-영, 1 fold) Machine Translation Fairseq BLEU 0.005 점 0.4261 점 2 번역 정확도 (한-영, 2 fold) Machine Translation Fairseq BLEU 0.005 점 0.4277 점 3 번역 정확도 (한-영, 3 fold) Machine Translation Fairseq BLEU 0.005 점 0.4269 점 4 번역 정확도 (한-중, 1 fold) Machine Translation Fairseq BLEU 0.005 점 0.6583 점 5 번역 정확도 (한-중, 2 fold) Machine Translation Fairseq BLEU 0.005 점 0.6602 점 6 번역 정확도 (한-중, 3 fold) Machine Translation Fairseq BLEU 0.005 점 0.663 점 7 번역 정확도 (한-일, 1 fold) Machine Translation Fairseq BLEU 0.005 점 0.5694 점 8 번역 정확도 (한-일, 2 fold) Machine Translation Fairseq BLEU 0.005 점 0.5712 점 9 번역 정확도 (한-일, 3 fold) Machine Translation Fairseq BLEU 0.005 점 0.5688 점
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드데이터 포맷
대표도면 및 JSON 형식
{ "id": "100013-1244-1-1",
"fileName": "en-ko_CH_CA_en_ko_100013-1244-1-1",
"dataSet": "기계번역 병렬 말뭉치 데이터",
"domain": "CA",
"style": "CH",
"isDialect": "Y",
"sourceText": "Looking forward to getting her palette.Love her stuff!",
"targetText": "그녀의 아이새도우 완전 기대하고 있어. 그녀의 물건들 사랑해!",
"sourceLanguage": "en",
"targetLanguage": "ko"
}데이터 구성
데이터 구성 데이터 유형 구분 설명 원천데이터 발화유형 채팅체(CH), 구어체(SP), 문어체(WR) 라벨링데이터 번역문 원문에 대한 언어쌍별 번역문 어노테이션 포맷
어노테이션 포맷 No 항목 타입 필수여부 한글명 영문명 1 데이터 아이디 id String Y 2 파일 이름 fileName String Y 3 데이터셋 dataSet String Y 4 도메인 domain String Y 5 어체 style String Y 6 중의적 표현 여부 isDialect String Y 7 원 문장 sourceText String Y 8 인간 번역문장 targetText String Y 9 소스 언어 sourceLanguage String Y 10 타겟 언어 targetLanguage String Y 실제 예시
{ "id": "100013-1244-1-1",
"fileName": "en-ko_CH_CA_en_ko_100013-1244-1-1",
"dataSet": "기계번역 병렬 말뭉치 데이터",
"domain": "CA",
"style": "CH",
"isDialect": "Y",
"sourceText": "Looking forward to getting her palette.Love her stuff!",
"targetText": "그녀의 아이새도우 완전 기대하고 있어. 그녀의 물건들 사랑해!",
"sourceLanguage": "en",
"targetLanguage": "ko"
}
-
데이터셋 구축 담당자
수행기관(주관) : 한국외국어대학교
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 신선호 02-2173-2493 [email protected] 데이터 설계 및 원천데이터 가공, 라벨링데이터 검수 수행기관(참여)
수행기관(참여) 기관명 담당업무 엠브레인퍼블릭 원시데이터 수집 및 정제 카카오엔터프라이즈 AI 학습 모델링 ㈜오피니언라이브 저작도구 개발 및 운영, 품질관리 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 신선호 02-2173-2493 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.