콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#기계번역 # 오류평가 # 사후교정 # 기계번역 품질 예측

기계번역 품질 검증 데이터

기계번역 품질 검증 데이터 아이콘 이미지
  • 분야한국어
  • 유형 텍스트
구축년도 : 2022 갱신년월 : 2023-12 조회수 : 5,189 다운로드 : 407 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.1 2023-12-08 데이터 최종 개방
    1.0 2023-07-31 데이터 개방(Beta Version)

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2024-06-13 데이터설명서, 담당자 정보 수정
    2024-01-12 산출물 전체 공개
    2023-12-01 구축업체정보 수정
    2023-11-24 구축업체정보 수정

    소개

    - 한국어-영어 양방향에 대하여 기계번역 사후교정 및 어절, 문장, 문서 수준에서 기계번역 품질주석 데이터 구축

    구축목적

    - 자연어 이해 및 자연어 생성에 대한 연구 및 개발한 언어모델 평가 등에 활용
    - 다양한 산업에서 민원·응대 등에 활용되는 챗봇, AI 비서와 같은 언어모델 평가 등에 활용
  • 데이터 구축 규모

    데이터 구축 규모
    데이터 종류 규모
    텍스트 데이터 620,002건

     

     ○ 데이터셋별 분포

    ○ 데이터셋별 분포
    데이터셋명 수량
    052-1 MTPE 310,000
    052-2 QE 310,002
    620,002

     

    ○ 주제별 분포

    ○ 주제별 분포
    주제 비율
    CA 40.22%
    ES 19.98%
    SH 20.01%
    ST 19.79%
    100%

     

    주제별 분포 차트

  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    모델 학습

    ○ 기계번역 사후 교정 모델기계번역된 문장을 사람과 비슷한 번역으로 교정해주는 모델
      예시)
      입력: 조의 국내 첫 공연인 쇼팽 피아노 협주곡 1번과 2번을 연주할 예정이다.
      출력: 조성진은 국내 첫 공연에서 쇼팽 피아노 협주곡 1번과 2번을 연주할 예정이다.

    ○ 문서 수준의 기계번역 품질예측 모델한->영 그리고 영->한 방향에서 원문장과 기계번역된 문서의 특정문장이 주어졌을 때 MQM 점수를 예측하는 모델.예시)입력: Many choose to meet their friends for a beer at the outside seating area at night to enjoy the chill atmosphere.,많은 사람들은 밤에 야외 좌석 공간에서   시원한 분위기를 즐기기 위해 친구들을 만나 맥주를 마시곤 합니다.출력: 0.8074413520467247
    ○ 문장 수준의 기계번역 품질예측 모델한->영 그리고 영->한 방향에서 원문장과 기계번역된 문장이 주어졌을 때 SQM 점수를 예측하는 모델.예시)입력: 이따가 피시방에서 아이스크림 물고 롤?,Eat ice cream and rolls at the PC room later?출력: -0.827451103646026
    ○ 어절 수준의 기계번역 품질예측 모델한->영 그리고 영->한 방향에서 원문장과 기계번역된 문장이 주어졌을 때 기계번역된 문장의 어절 수준으로 좋은 번역인지 안좋은 번역인지 분류해주는 모델.예시)입력: 원문장 - 욕실까지 외부가 아닌 텐트 안에 있어 편의성을 높였다.기계번역문장 - "Even the bathroom is inside the tent, not outside, so the convenience is increased."출력: Good Good Good Good Good Good Good Good Good Good Good Bad Bad Bad
     

  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 문서, 문장, 어절 수준의 기계번역 품질예측 데이터에서 학습 데이터 그리고 평가 데이터 매핑 정확도 Prediction COMET22 + COMET-KIWI Accuracy 50 % 98.2 %
    2 문서 수준의 기계번역 품질예측 정확도(MQM, 영-한) Prediction COMET22 + COMET-KIWI Correlation(Kendall) 0.05 0.293
    3 문서 수준의 기계번역 품질예측 정확도(MQM, 한-영) Prediction COMET22 + COMET-KIWI Correlation(Kendall) 0.05 0.333
    4 문장 수준의 기계번역 품질예측 정확도(SQM, 영-한) Prediction COMET22 + COMET-KIWI Correlation(Kendall) 0.05 0.344
    5 문장 수준의 기계번역 품질예측 정확도(SQM, 한-영) Prediction COMET22 + COMET-KIWI Correlation(Kendall) 0.05 0.341
    6 어절 수준의 기계번역 품질예측 정확도 (영-한) Prediction COMET22 + COMET-KIWI Precision 60 % 70.4 %
    7 어절 수준의 기계번역 품질예측 정확도 (한-영) Prediction COMET22 + COMET-KIWI Precision 60 % 68.3 %

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    데이터 포맷   대표도면 및 JSON 형식

    {  "documentId": "100017-1196",
      "fileName": "en-ko_SH_en_ko_100017-1196-1-1_1",
      "dataSet": "기계번역 품질 예측 데이터",
      "domain": "SH",
      "sourceLanguage": "en",
      "targetLanguage": "ko",
      "segments": {
        "segmentId": "100017-1196-1-1",
        "index": 1,
        "mtSource": "GOOGLE",
        "sourceText": "Technically, we don’t know for sure if he’s virus-free.",
        "mtText": "기술적으로 우리는 그가 바이러스에 감염되지 않았는지 확실하지 않습니다.",
        "score": 40.0,
        "document": [
          {
            "severity": "CRITICAL",
            "startPoint": 19,
            "endPoint": 28,
            "errorSpan": "19-28"
          },
          {
            "severity": "CRITICAL",
            "startPoint": 29,
            "endPoint": 39,
            "errorSpan": "29-39"
          }
        ],
        "words": [
          {
            "wordIndex": 1,
            "startPoint": 0,
            "endPoint": 5,
            "text": "기술적으로",
            "state": "Good"
          },
          {
            "wordIndex": 2,
            "startPoint": 6,
            "endPoint": 9,
            "text": "우리는",
            "state": "Good"
          },
          {
            "wordIndex": 3,
            "startPoint": 10,
            "endPoint": 12,
            "text": "그가",
            "state": "Good"
          },
          {
            "wordIndex": 4,
            "startPoint": 13,
            "endPoint": 18,
            "text": "바이러스에",
            "state": "Good"
          },
          {
            "wordIndex": 5,
            "startPoint": 19,
            "endPoint": 23,
            "text": "감염되지",
            "state": "Bad"
          },
          {
            "wordIndex": 6,
            "startPoint": 24,
            "endPoint": 28,
            "text": "않았는지",
            "state": "Bad"
          },
          {
            "wordIndex": 7,
            "startPoint": 29,
            "endPoint": 33,
            "text": "확실하지",
            "state": "Bad"
          },
          {
            "wordIndex": 8,
            "startPoint": 34,
            "endPoint": 39,
            "text": "않습니다.",
            "state": "Bad"
          }
        ]
      }
    }

    데이터 구성

    데이터 구성
    데이터 유형 구분 설명
    원천데이터 주제 문화예술(CA), 경제사회(ES), 생활건강(SH), 과학기술(ST)
    라벨링데이터 사후교정 기계번역 사후교정문
    품질주석 기계번역 어절, 문장, 문서 단위 품질 주석

     

    어노테이션 포맷

    ○ MTPE

    어노테이션 포맷○ MTPE
    No 항목 타입 필수여부
      한글명 영문명    
    1 문서 아이디 documentId String Y
    2 파일이름 fileName String Y
    3 데이터셋 dataSet String Y
    4 도메인 domain String Y
    5 소스 언어 sourceLanguage String Y
    6 타겟 언어 targetLanguage String Y
    7 문서 내 문장 목록 segments Object Y
      7-1 문장 아이디 segments.segmentId String Y
    7-2 기계번역기 출처 segments.mtSource String Y
    7-3 출발어 문장 segments.sourceText String Y
    7-4 기계번역 문장 segments.mtText String Y
    7-5 사후교정 문장 segments.targetText String Y

     

    ○ QE

    어노테이션 포맷○ QE
    구분 항목 타입 필수여부
      한글명 영문명    
    1 문서 아이디 documentId String Y
    2 파일이름 fileName String Y
    3 데이터셋 dataSet String Y
    4 도메인 domain String Y
    5 소스 언어 sourceLanguage String Y
    6 타겟 언어 targetLanguage String Y
    7 문장 segments Object Y
      7-1 문장 아이디 segments.segmentId String Y
    7-2 평가자 구분 segments.index Number Y
    7-3 기계번역기 출처 segments.mtSource String Y
    7-4 출발어 문장 segments.sourceText String Y
    7-5 기계번역 문장 segments.mtText String Y
    7-6 문장 단위 평가 segments.score Number Y
    7-7 문서 단위 평가 segments.document Array Y
      7-7-1 심각도  segments.document[].severity String N
    7-7-2 오류의 시작 위치 segments.document[].startPoint Number N
    7-7-3 오류의 끝 위치 segments.document[].endPoint Number N
    7-7-4 오류 span 정보 segments.document[].errorSpan String N
    7-8 어절 단위 평가 segments.words Array Y
      7-8-1 문장 내 어절 순서 segments.words[].wordIndex Number Y
    7-8-2 어절의 시작 위치 segments.words[].startPoint Number Y
    7-8-3 어절의 끝 위치 segments.words[].endPoint Number Y
    7-8-4 어절 내용 segments.words[].text String Y
    7-8-5 어절 평가 segments.words[].state String Y

     

    실제 예시

    {  "id": "100008-1-1-1",
      "fileName": "TX_CA_1_100008-1-1-1",
      "dataSet": "한국어 철자 및 맞춤법 교정용 병렬 데이터",
      "domain": "CA",
      "ko": "지금까지 다녀 본 여행지 중 좋았던 곳 추천해줘.",
      "corrected": "지금까지 다녀 본 여행지 중 좋았던 곳 추천해 줘.",
      "error": [
        {
          "errorType": "spac",
          "startPoint": 22,
          "endPoint": 27
        }
      ]
    }

    {  "id": "100008-1-1-1",
      "fileName": "TX_CA_1_100008-1-1-1",
      "dataSet": "한국어 철자 및 맞춤법 교정용 병렬 데이터",
      "domain": "CA",
      "ko": "지금까지 다녀 본 여행지 중 좋았던 곳 추천해줘.",
      "corrected": "지금까지 다녀 본 여행지 중 좋았던 곳 추천해 줘.",
      "error": [
        {
          "errorType": "spac",
          "startPoint": 22,
          "endPoint": 27
        }
      ]
    }

     

  • 데이터셋 구축 담당자

    수행기관(주관) : 한국외국어대학교
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    신선호 02-2173-2493 [email protected] 데이터 설계 및 원천데이터 가공, 라벨링데이터 검수
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    엠브레인퍼블릭 원시데이터 수집 및 정제
    카카오엔터프라이즈 AI 학습 모델링
    ㈜오피니언라이브 저작도구 개발 및 운영, 품질관리
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    신선호 02-2173-2493 [email protected]
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.