콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#자연어

방송 콘텐츠 한-중, 한-일 번역 병렬 말뭉치 데이터

방송 콘텐츠 한-중, 한-일 번역 병렬 말뭉치 데이터
  • 분야한국어
  • 유형 텍스트
구축년도 : 2021 갱신년월 : 2022-07 조회수 : 8,206 다운로드 : 570 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2022-07-29 데이터 최초 개방

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2022-12-08 메타데이터 정보 수정
    2022-07-29 콘텐츠 최초 등록

    소개

    • 신경망 기반 기계 번역기 학습 데이터로 활용하기 위한 한중, 한일 말뭉치
    • 방송 콘텐츠 분야 번역기의 성능 향상을 위한 학습용 데이터

    구축목적

    • 주요 언어의 방송 콘텐츠를 효과적으로 현지화 할 수 있는 인공 신경망 기계 번역기 학습용 말뭉치 데이터 구축
  • 1. 데이터 구축 규모

    1. 데이터 구축 규모
    항목명 지표 규모
    구축량 문장수 • 한-중 75만
    • 한-일 75만
    • 중-한 45만
    • 일-한 45만
    주제 분포 비율 13개 세부 분야별 데이터 분포 확인
    문장 길이 분포 수량 (어절 수) • 한국어: 평균 15어절 (최소 2어절~최대 30어절)
    • 중국어: 평균 15글자수 (최소 2글자 ~ 최대 30글자)

     

    2. 데이터 분포

    2. 데이터 분포
    언어 대분야 세부 분야 데이터 구축 목표 수량
    한-중 TV 방송 교양 200,000
    관찰예능 250,000
    리얼버라이어티 예능 300,000
    소계 750,000
    한-일 TV 방송 교양 200,000
    관찰예능 350,000
    리얼버라이어티 예능 200,000
    소계 750,000
    중-한 TV 방송 드라마_
    판타지/로맨스
    260,000
    드라마_
    범죄/서스팬스/액션
    90,000
    드라마_
    도시/가족/어드벤처
    100,000
    소계 450,000
    일-한 라디오 방송  일상 180,000
    문화 180,000
    경제 20,000
    사회 70,000
    소계 450,000
    합계 2,400,000
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    1. Attention 기반 Transformer 기계 번역기 모델

    방송 콘텐츠 한-중, 한-일 번역 병렬 말뭉치 데이터- Attention 기반 Transformer 기계 번역기 모델

    • Transformer 기계 번역기를 현재로 상용에서 사용하고 있는 기계 번역기 모델임
    • Transformer의 경우 우수한 결과물을 만들기 위해서는 필수적으로 우수한 학습 데이터가 필요함
    • 언어별 본 과제 분야에 특화된 번역기 모델을 학습하여 해당 분야의 수요 기관에서 직접적으로 사용이 가능함
       

    2. 유효성 검증 모델의 학습 및 검증 조건

    2. 유효성 검증 모델의 학습 및 검증 조건
    유효성 검증 모델 학습 및 검증 조건
    개발 언어 Python 3.7
    프레임워크 PyTorch 1.8.1
    학습 알고리즘 Transformer
    학습 조건 – Number of epochs: 50
    – Batch size: 64 / 128
    – Learning rate: 0.003
    – Dropout: 0.1
    파일 형식 학습 데이터셋: csv
    평가 데이터셋: csv
    전체 구축 데이터 대비 모델에 적용되는 비율 100% (1,500,000건)
    모델 학습 과정별
    데이터 분류 및 비율 정보
    – Training Set: 80% (1,920,000건)
    – Validation Set:10% (240,000건)
    – Test Set: 10% (240,000건)
  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 기계번역 정확도(한-중) Machine Translation openNMT BLEU 0.7 0.7485
    2 기계번역 정확도(한-일) Machine Translation openNMT BLEU 0.7 0.738
    3 기계번역 정확도(중-한) Machine Translation openNMT BLEU 0.7 0.7084
    4 기계번역 정확도(일-한) Machine Translation openNMT BLEU 0.7 0.7121

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    1. 라벨링 데이터 포맷

    1. 라벨링 데이터 포맷
    구분 항목명 타입 필수여부 설명
    1 data Object Y 데이터셋 정보
      1.1 data.sn String N 시리얼 넘버
    data.file_name String N 파일 이름
    data.data_set String Y 데이터 분류
    data.domain String Y 대분야
    data.subdomain String N 하위 분야
    data.source String Y 출처
    data.[출발언어] String Y 개인정보 비식별화 처리된 원문 문장
    (예: ko, en)
    data.[출발언어]_cleaned String N 띄어쓰기, 오탈자, 문장 구조를 보정한 원문 문장 (개인정보가 포함된 문장은 제외)
    data.[출발언어]_original String Y 1차적으로 정제된 원문 문장
    data.mt String N 기계 번역문
    data.[도착언어] String Y 번역문 (영문)
    data.source_language String Y 원문 언어 코드
    data.target_language String Y 번역문 언어 코드
    data.license String Y 원문의 라이선스, 명시적 라이선스 또는 상용 사용 여부 명시
    data.word_count_[출발언어] Number Y 원문 어절수
    data.word_count_[도착언어] Number Y 번역문 어절수
    data.word_ratio Float Y 원문, 영어
    어절 비율
    data.included_unknown _words Boolean Y 전문용어 포함 여부
    data.included_unknown_words Boolean Y 신조어, 약어, 은어 포함 여부
    data.style String Y 문어체와 구어체 구분하여 원문의 문체 명시
    1.2 data.context Object N 문맥을 파악할 수 있는 문장들의 정보
      1.2.1 context.group_id String Y 동일한 문맥(그룹)의 식별 정보
    context.group_index Number Y 동일한 문맥에서의 순차 정보
    context.talker String N 구어체의 경우 화자 정보
    1.3 data.ner Object N 문장 내 개체명 정보
      1.3.1 ner.text String Y 원문 중 NER 태깅을 한 문장
    ner.tags Array Y NER 태그 정보
      1.3.1.1 tags.tag String Y NER 태그들의 상세 정보
    tags.value String Y 태깅된 단어
    tags.position Array Y 태깅된 단어의 원문 내의 위치 정보
    [start_pos, end_pos]

     

    2. 라벨링 데이터 예시

    방송 콘텐츠 한-중, 한-일 번역 병렬 말뭉치 데이터- 라벨링 데이터 예시

  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜ 트위그팜
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    최규동 1833-5926 [email protected] · 데이터 구축
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    에퀴코리아 · 데이터 수집, 정제, 가공, 검수
    한국외국어대학교 · 데이터 수집, 정제, 가공, 검수
    중앙대학교 · 데이터 수집, 정제, 가공, 검수
    푸르모디티 · 데이터 수집, 정제, 가공, 검수
    악티보 · 사업 관리
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    최규동 1833-5926 [email protected]
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.