콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#자연어

NEW 생성형AI 금융 분야 다국어 병렬 말뭉치 데이터

금융 분야 다국어 병렬 말뭉치 데이터 아이콘 이미지
  • 분야금융
  • 유형 텍스트
구축년도 : 2023 갱신년월 : 2024-10 조회수 : 10,255 다운로드 : 265 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.1 2024-10-30 데이터 최종 개방
    1.0 2024-10-21 데이터 개방 Beta Version

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2024-06-28 산출물 공개 Beta Version

    소개

    - 국내 금융기관의 금융 분야 통번역 서비스를 지원하기 위한 금융 분야의 다국어 번역 데이터

    구축목적

    - 금융 분야의 다국어 번역 병렬 말뭉치를 구축하여, 금융 분야 기계 번역기의 품질 고도화
    (한국어↔영어/한국어↔중국어/한국어↔일본어/한국어↔베트남어/한국어↔인도네시아어)
  • - 데이터 구축 규모

    데이터 구축 규모
    문서유형 라벨링 언어 문서수 문장수 평균어절수
    공시정보 영어 61,461 100,721 16.6
    일본어 59,081 107,880 16.4
    중국어 63,911 101,207 16.6
    베트남어 64,983 107,185 16.6
    인도네시아어 50,849 105,051 16.5
    소계 300,285 522,044 16.5
    뉴스기사 영어 39,421 103,913 18.3
    일본어 39,980 100,012 18.6
    중국어 38,983 100,467 18.5
    베트남어 40,834 101,003 18.6
    인도네시아어 39,056 100,162 18.3
    소계 198,274 505,557 18.5
    규제정보 영어 41,061 101,117 16.5
    일본어 44,079 100,100 16.3
    중국어 48,431 100,785 16.5
    베트남어 37,800 102,319 16
    인도네시아어 40,063 100,740 17
    소계 211,434 505,061 16.5
    보고서 영어 26,790 101,535 17.1
    일본어 26,579 100,007 18.4
    중국어 27,730 102,289 16.9
    베트남어 30,764 101,562 16.5
    인도네시아어 31,017 103,614 16.4
    소계 142,880 509,007 17
    학술논문 영어 37,303 101,220 18.9
    일본어 36,989 100,000 19.4
    중국어 36,659 100,405 19.3
    베트남어 32,108 100,331 19.6
    인도네시아어 31,258 101,045 19
    소계 174,317 503,001 19.2
    합계 1,027,190 2,544,670 17.5

     

    - 데이터 분포
      - 금융 문서 카테고리별 분포

    금융 문서 카테고리별 분포
    문서 유형 목표 구성비 결과 구성비
    공시정보 20% 29.20%
    뉴스기사 20% 19.30%
    규제정보 20% 20.60%
    보고서 20% 13.90%
    학술논문 20% 17.00%

     

      - 언어별 분포

    언어별 분포
    언어 목표 구성비 결과 구성비
    영어 20% 20.00%
    일본어 20% 19.90%
    중국어 20% 19.90%
    베트남어 20% 20.10%
    인도네시아어 20% 20.10%
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    - 모델학습
      - 모델 아키텍쳐: attention 알고리즘 바탕의 encoder, decoder로 구성
      - 본 사업에 구축된 병렬 코퍼스로 각 언어세트에 맞는 번역 모델 구축
      - Systran의 AutoML (모델스튜디오)를 활용하여 효율적인 학습 및 모델 관리

    AI 모델 상세
    AI모델 task AI모델 성능지표 및 목표값 Data I/O
    Translation Systran MT (Transformer) 언어별 BLEU Score를 측정하며, 언어별 목표 점수 이상 달성 Input data: source text
    Ÿ 한국어-영어: 55점이상 Output data: target text
    Ÿ 한국어-중국어: 55점 이상  
    Ÿ 한국어-일본어: 55점 이상  
    Ÿ 한국어-베트남어: 45점 이상  
    Ÿ 한국어-인도네시아어: 45점 이상  

     

    Systran MT (Transformer) 이미지

     

    - 서비스 활용 시나리오
      - 본 사업을 통해 구축된 모델을 바탕으로 사업성 적절성 검토 후 서비스 구축 or 모델 공개 등을 통해 가치 창출
      - 금융 분야 전문 모델 출시를 통해 해외 금융 서비스를 고려하거나 해 외 금융 자료를 번역하고 분석하는데 활용 가능
      - 시스트란이 제공하는 직접 학습 가능한 AutoML + Cloud 기반의 SAAS(Software-as-a-Service) 형태의 번역 서비스 제공 가능
      - 이를 통해 해외 금융 자료 분석을 하고자 하는 고객 혹은 해외 금융 분야에 진출하는 업체들에 다양한 서비스 제공 가능

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

      - 국내 금융 분야의 문서를 수집하였으며, 문서 유형은 공시정보, 뉴스 기사, 규제정보, 보고서, 학술논문 등 5개로 분류함
      - 라벨링 유형은 번역(MTPE)으로 한국어를 영어, 일본어, 중국어, 베트 남어, 인도네시아어 등 5개 외국어로 번역함
      - 다국어 병렬 말뭉치 데이터는 한국어 원문 (ko), 기계번역문(mt), 기 계번역문을 포스트에디팅한 최종 번역문 (mtpe)으로 구성함
      - 문서 유형별 제공하는 정보를 문서 정보로 정의하여 데이터를 구축함
    - 데이터 구성
    1) 공통 항목

    데이터 구성 공통
    항목 항목 설명 타입
    meta doc_no 문서 번호 string
    domain 구축할 데이터셋의 분야 string
    category 원시데이터의 문서 유형 string
    license 원문에 대한 라이센스 string
    source_language 출발 언어의 언어 코드값 string
    target_language 도착 언어의 언어코드 string
    sents page 문서 단위인 쪽 번호를 기재함* number
    sn 문장에 부여한 고유 시리얼 번호 string
    source_original 원시 데이터 추출 문장 string
    source_cleaned 정제된 원천데이터 string
    mt 기계번역문 string
    mtpe 기계번역문을 포스트에디팅한 최종 번역문 string

    *page: 규제정보, 보고서, 학술논문에 포함된 항목이며, 문서 1개를 쪽수로 구분함

     

    2) 문서유형별 ‘문서정보(doc_info)’ 구성 항목

    문서유형별 ‘문서정보(doc_info)’ 구성 항목
    문서 유형 항목 항목 설명 타입
    공시정보 doc_info source 원시데이터의 작성기관, 자료 출처 string
    dis_no 공시번호 string
    doc_name 공시정보 문서의 제목 string
    com_name 공시정보를 공개한 기업명 string
    date 공시일 number
    규제정보 doc_info source 원시데이터의 작성기관, 자료 출처 string
    title 규제정보의 제목 string
    date 문서 작성일 number
    보고서 doc_info source 원시데이터의 작성기관, 자료 출처 string
    title 보고서의 제목 string
    date 문서 작성일 number
    학술논문 doc_info source 원시데이터의 작성기관, 자료 출처 string
    journal_name 학술논문이 발간된 학술지명 string
    vol_info 학술지의 발간 정보 (권, 호, 논문의 페이지 번호 등) string
    doi 학술논문의 고유 식별번호 string
    title 학술 논문의 제목 string
    date 학술논문 발간월 number

    *뉴스기사의 경우, AI 허브에 데이터 업로드 시 “doc_info”를 공개하지 말아야 한다는 저 작권자의 요청에 따라, 최종데이터 제출 시, 뉴스 기사의 “doc_info” 삭제함


    - 어노테이션 포맷
    1) 공시정보

    공시정보
    No 속성명 타입 필수여부 속성 설명 예시
    1 meta object 필수 문서의 메타 정보  
    1-2   doc_no string 필수 공시 정보 문서 번호 “dis1”, “dis2”, ...
    1-3   domain string 필수 구축할 데이터셋의 분야 “금융”
    1-4   category string 필수 원시데이터의 문서구분/내용구분 “공시정보”
    1-5   license string 필수 원문에 대한 라이센스 “open”
    1-6   source_language string 필수 출발 언어의 언어 코드값 “ko”
    1-7   target_language string 필수 도착 언어의 언어 코드 값 “en”, “ja”, “zh”, “vi”, “id”
    2 doc_info object 필수 문서별 속성 정보  
    2-1   source string 필수 원시데이터의 작성 기관/작성자, 자료 출처 “금융감독원”
    2-2   dis_no number 필수 공시번호 20220720000382
    2-3   doc_name string 필수 공시정보 문서의 제목 “주요사항보고서”
    2-4   com_name string 필수 공시정보를 공개한 기업명 “삼강엠앤티(주)”
    2-5   date number 필수 공시일을 기재함 YYYYMMDD
    3 sents array 필수 라벨링 데이터 정보  
    3-1   sn string 필수 문장에 부여한 고유 시리얼 번호 “dic1sent1”, “dic2sent1”, ...
    3-2   source_original string 필수 원시 데이터 추출 문장  
    3-3   source_cleaned string 필수 정제된 원천데이터  
    3-4   mt string 필수 기계번역문  
    3-5   mtpe string 필수 기계번역문을 포스트에디팅한 최종 번역문  

     

    2) 뉴스기사

    뉴스기사
    No 속성명 타입 필수여부 속성 설명 예시
    1 meta object 필수 문서의 메타 정보  
    1-1   doc_no string 필수 뉴스기사의 문서 번호 “news1”, “news2”, ...
    1-2   domain string 필수 구축할 데이터셋의 분야 “금융”
    1-3   category string 필수 원시데이터의 문서구분/내용구분 “뉴스기사”
    1-4   license string 필수 원문에 대한 라이센스 “open”
    1-5   source_language string 필수 출발 언어의 언어 코드값 “ko”
    1-6   target_language string 필수 도착 언어의 언어 코드 값 “en”, “ja”, “zh”, “vi”, “id”
    2 sents array 필수 라벨링 데이터 정보  
    2-1   sn string 필수 문장에 부여한 고유 시리얼 번호 “news1sent1”, “news2sent1”, ...
    2-2   source_original string 필수 원시 데이터 추출 문장  
    2-3   source_cleaned string 필수 정제된 원천데이터  
    2-4   mt string 필수 기계번역문  
    2-5   mtpe string 필수 기계번역문을 포스트에디팅한 최종 번역문  

     

    3) 규제정보/보고서

    규제정보/보고서
    No 속성명 타입 필수여부 속성 설명 예시
    1 meta object 필수 문서의 메타 정보  
    1-1   doc_no string 필수 문서 번호 규제정보: “law1”, “law2”, …
    보고서: “report1”, “report2”, …
    1-2   domain string 필수 구축할 데이터셋의 분야 “금융”
    1-3   category string 필수 원시데이터의 문서구분/내용구분 “규제정보”
    “보고서”
    1-4   license string 필수 원문에 대한 라이센스 “open”
    1-5   source_language string 필수 출발 언어의 언어 코드값 “ko”
    1-6   target_language string 필수 도착 언어의 언어 코드 값 “en”, “ja”, “zh”, “vi”, “id”
    2 doc_info object 필수 문서별 속성 정보  
    2-1   source string 필수 원시데이터의 작성 기관/작성자, 자료 출처  
    2-2   title number 필수 문서 제목  
    2-3   date number 선택 문서 작성일 YYYYMMDD
    3 sents array 필수 라벨링 데이터 정보  
    3-1   page number 필수 문서 단위인 쪽 번호를 기재함 1, 2, 3, ...
    3-2   sn string 필수 문장에 부여한 고유 시리얼 번호  
    3-3   source_original string 필수 원시 데이터 추출 문장  
    3-4   source_cleaned string 필수 정제된 원천데이터  
    3-5   mt string 필수 기계번역문  
    3-6   mtpe string 필수 기계번역문을 포스트에디팅한 최종 번역문  

     

    4) 학술논문

    학술논문
    No 속성명 타입 필수여부 속성 설명 예시
    1 meta object 필수 문서의 메타 정보  
    1-1   doc_no string 필수 학술 논문의 문서 번호 “paper1”, “paper2”, ...
    1-2   domain string 필수 구축할 데이터셋의 분야 “금융”
    1-3   category string 필수 원시데이터의 문서구분/내용구분 “학술논문”
    1-4   license string 필수 원문에 대한 라이센스 “open”
    1-5   source_language string 필수 출발 언어의 언어 코드값 “ko”
    1-6   target_language string 필수 도착 언어의 언어 코드 값 “en”, “ja”, “zh”, “vi”, “id”
    2 doc_info object 필수 문서별 속성 정보  
    2-1   source string 필수 원시데이터의 작성 기관/작성자, 자료 출처 “한국금융학회”, ...
    2-2   journal_name string 필수 학술논문이 발간된 학술지명 “금융연구”, ...
    2-3   vol_info string 필수 학술지의 발간 정보 (권, 호, 논문의 페이지 번호 등) “2017, vol.31, no.4, pp. 133-167 (35 pages)”, ...
    2-4   doi string 필수 학술논문의 고유 식별번호 “10.17924/solc.2018.49.191”, ...
    2-5   title string 필수 학술 논문의 제목  
    2-6   date number 필수 학술논문 발간월을 기재함 YYYYMMDD
    3 sents array 필수 라벨링 데이터 정보  
    3-1   page number 필수 문서 단위인 쪽 번호를 기재함 1, 2, 3, ...
    3-2   sn string 필수 문장에 부여한 고유 시리얼 번호 “paper1sent1”, “paper2sent1”, ...
    3-3   source_original string 필수 원시 데이터 추출 문장  
    3-4   source_cleaned string 필수 정제된 원천데이터  
    3-5   mt string 필수 기계번역문  
    3-6   mtpe string 필수 기계번역문을 포스트에디팅한 최종 번역문  

     

    - 실제 예시

    공시정보 베트남어 번역
    < 공시정보 베트남어 번역>
    { "meta": { "doc_no": "dis247330", "domain": "금융", "category": "공시정보", "license": "open", "source_language": "ko", "target_language": "vi"
     }, "doc_info": { "source": "금융감독원", "dis_no": 20210817001666, "doc_name": "반기보고서", "com_name": "(주)성남시민프로축구단", "date": 20210817
     }, "sents": [ {
    "sn": "dis247330sent154074043",
    "source_original": "당사는 2011년 1월 1일부터 시행되는 일반기업회계기준에 따라 재무제표를 작성하였으며, 2020년 12월 31일로 종료하는 회계연도의 연차 재무제표를 작성할 때에 적용한 것과 동일한 회계정책을 적용하고 있습니다.",
    "source_cleaned": "당사는 2011년 1월 1일부터 시행되는 일반기업회계기준에 따라 재무제표를 작성하였으며, 2020년 12월 31일로 종료하는 회계연도의 연차 재무제표를 작성할 때에 적용한 것과 동일한 회계정책을 적용하고 있습니다.",
    "mt": "Côngty đãchunbbáocáotàichínhtheoTiêuchunKếtoánDoanhnghipThông thưng, cóhiulctngày1 tháng1 năm2011, vàđangápdngchínhsáchkếtoántươngtựđượcápdngkhilpbáocáotàichínhhàngnămchonă
    mtàichínhkếtthúcvàongày31 tháng12 năm2020.",
    "mtpe": "Côngty chúngtôiđãlpbáocáotàichínhtheochunmckếtoándoanhnghiptnghpcóhiulctngày1 tháng1 năm2011 vàchúngtôiđangápdngcácchínhsáchkếtoántươngtnhưcácchínhsáchđãápdngkhilpbáocáotàichínhnămchonămtàichínhkếtthúcngày31 tháng12 năm2020."
     }, {
    "sn": "dis247330sent154074196",
    "source_original": "당반기와 전반기중 발생한 무형자산의 변동내용은 다음과 같으며 무형자산상각비의과목으로 손익계산서에 계상하였습니다.",
    "source_cleaned": "당반기와 전반기중 발생한 무형자산의 변동내용은 다음과 같으며 무형자산상각비의과목으로 손익계산서에 계상하였습니다.",
    "mt": "Nhngthayđivtàisnphi vtthxyratrongnunămvànunămlànhngnidung sau, vàđưclitkêtronghóađơnlãisutnhưmtmônhcchi phíkhuhao tàisnphi vtth.",
    "mtpe": "Nhngthayđivtàisnvôhìnhxyratrongnahintivànunămnhưsauvàđưcghinhnvàobáocáokếtquhongkinhdoanhnhưmitưngcachi phíkhuhao tàisnvôhình."
     } ]
    }

     

    뉴스기사 인도네시아어 번역
    < 뉴스기사 인도네시아어 번역>
    { "meta": { "doc_no": "news286809", "domain": "금융", "category": "뉴스기사", "license": "open", "source_language": "ko", "target_language": "id"
     }, "sents": [ {
    "sn": "news286809sent3432515",
    "source_original": "이날 오전 9시 13분 현재 유가증권시장에서 한솔테크닉스는전 거래일보다 11.33% 하락한 6천420원에 거래되고 있다.",
    "source_cleaned": "이날 오전 9시 13분 현재 유가증권시장에서 한솔테크닉스는전 거래일보다 11.33% 하락한 6천420원에 거래되고 있다.",
    "mt": "Pada pukul9:13 pagi, di pasar saham, Hansoltechdiperdagangkanpada 6.420 won, turun11,33% darihariperdagangansebelumnya.",
    "mtpe": "Pada pukul09:13 di hariyang sama, Hansol Technics diperdagangkanpada 6.420 won, turun11,33% darihariperdagangansebelumnya."
     }, {
    "sn": "news286809sent3432516",
    "source_original": "한솔테크닉스는지난 19일 운영자금 조달을 위해 518억원 규모의 주주배정 후 실권주일반공모 방식 유상증자를 결정했다고 공시했다.",
    "source_cleaned": "한솔테크닉스는지난 19일 운영자금 조달을 위해 518억 원 규모의 주주배정 후 실권주일반공모 방식 유상증자를 결정했다고 공시했다.",
    "mt": "Pada tanggal19, Han Sol Technologies mengumumkanpada tanggal19 bahwamerekatelahmemutuskanuntukmenambahmodal melaluipenawaranumumhaknyatasetelahmengalokasikanpemegangsahamsebesar51,8 miliarwon untukmengumpulkandana operasional.",
    "mtpe": "Hansol Technics mengumumkanpada tanggal19 bahwamerekatelahmemutuskanuntukmeningkatkanmodal untukpeningkatanmodal disetormelaluipenawaranumumsahamreal-rights setelahmengalokasikan51,8 miliarwon kepadapemegangsahamuntukmengumpulkandana operasional."
     } ]
    }

     

    규제정보 일본어 번역
    < 규제정보 일본어 번역>
    { "meta": { "doc_no": "law3027", "domain": "금융", "category": "규제정보", "license": "open", "source_language": "ko", "target_language": "ja"
     }, "doc_info": { "source": "법제처", "title": "자본시장과_금융투자업에_관한_법률_시행령(대통령령)(제33542호)_477", "date": 20230613
     }, "sents": [ {
    "page": 334,
    "sn": "law3027sent62996",
    "source_original": "⑩ 법 부칙 제3조제12항에 따라 설립등기를 한 때에는 종전의 「증권거래법 시행령」 제84조의28제5항에 따라 성립된 주권의 매매거래로서 결제가 종결되지 아니한 것은 제178조에 따라 같은 조건으로 거래가 성립된 것으로 본다.",
    "source_cleaned": "⑩ 법 부칙 제3조제12항에 따라 설립등기를 한 때에는 종전의 「증권거래법 시행령」 제84조의28제5항에 따라 성립된 주권의 매매거래로서 결제가 종결되지 아니한 것은 제178조에 따라 같은 조건으로 거래가 성립된 것으로 본다.",
    "mt": "⑩法付則第3条第12項により設立登記をした時には従来の「証券取引法施行令」第84の28第5項により成立した主の売買取引として決済が終結されなかったのは第178により同じ条件で取引が成立したと見なす。",
    "mtpe": "⑩法の付則第3条第12項により設立登記をした時には従来の「証券取引法施行令」第84の28第5項により成立した株券の売買取引として決済が終結されなかったものは第178に基づき同じ条件で取引が成立したと見なす。"
     }, {
    "page": 334,
    "sn": "law3027sent62995",
    "source_original": "제5조(주식등의대량보유 등의 보고대상 중요계약) 법 부칙 제21조제2항에서 “주요계약내용 등 대통령령으로 정하는 중요한 사항”이란제155조 각 호의 어느 하나에 해당하는 사항을 말한다.",
    "source_cleaned": "부칙 제21조 제2항에서 “주요계약내용 등 대통령령으로 정하는 중요한 사항”이란제155조 각 호의 어느 하나에 해당하는 사항을 말한다.",
    "mt": "付則第21条第2項で「主要契約内容など大統領令で定める重要な事項」とは、第155条各号のいずれかに該する事項をいう。",
    "mtpe": "付則の第21条第2項の「主要契約内容など大統領令で定める重要な事項」とは、第155条各号のいずれかに該する事項をいう。"
     } ]
    }

     

    보고서 영어 번역
    < 보고서 영어 번역>

    { "meta": { "doc_no": "report1967", "domain": "금융", "category": "보고서", "license": "open", "source_language": "ko", "target_language": "en"
     }, "doc_info": { "source": "한국무역보험공사", "title": "亞신흥국에 대한 불안감 완화와 수출업체 네고물량에대한
    기대감으로 1,110원대 등락 예상", "date": 20130826
     }, "sents": [ {
    "page": 1,
    "sn": "report1967sent21603",
    "source_original": "금일 달러-원 환율은 아시아 신흥국에 대한 불한감완화와 네고물량으로1,110원대에서 등락할 것으로 예상된다.",
    "source_cleaned": "금일 달러-원 환율은 아시아 신흥국에 대한 불한감완화와 네고물량으로1,110원대에서 등락할 것으로 예상된다.",
    "mt": "Today'sdollar-wonexchangerateisexpectedtofluctuatefromaroundKRW 1,110 duetoeasedcomplaintsagainstemergingAsiancountriesand thevolumeof thenego.",

    "mtpe": "The dollar-wonexchangerateisexpectedtofluctuateintherangeof KRW 1,110 today, ascomplaintsagainstemergingAsiancountrieseaseand negotiationvolumesincrease."
     }, {
    "page": 1,
    "sn": "report1967sent21608",
    "source_original": "뉴욕증시는 주택지표 부진에 따른 Fed양적완화조치 규모감축 시행 시기 지연 가능성으로 상승하였다.",
    "source_cleaned": "뉴욕증시는 주택지표 부진에 따른 Fed양적완화조치 규모감축 시행 시기 지연 가능성으로 상승하였다.",
    "mt": "New York StockExchange The possibilityof adelayinthetimingof implementingtheFed'squantitativeeasingmeasuresduetosluggishhousingindicatorshasrisen.",
    "mtpe": "The New York StockExchange hasrisenduetothepossibilityof adelayinthetimingof implementingtheFed'squantitativeeasingmeasures, whichiscausedbysluggishhousingindicators."
     } ]
    }

     

    학술논문 중국어 번역
    < 학술논문 중국어 번역>
    { "meta": { "doc_no": "paper20919", "domain": "금융", "category": "학술논문", "license": "open", "source_language": "ko", "target_language": "zh"
     }, "doc_info": { "source": "법학연구소", "journal_name": "외법논집", "vol_info": "2018, vol.42,no.1, pp. 217-246 (30 pages)", "doi": "10.17257/hufslr.2018.42.1.217", "title": "금융광고와 금융소비자 보호 - 규제 정비방향과 법적 과제 -", "date": 201802
     }, "sents": [ {
    "page": 2,
    "sn": "paper20919sent222135",
    "source_original": "대표적으로 TV나 신문⋅잡지⋅전단지등을 통한 광고와 인터넷⋅사이트등에 게시된 정보, 그 리고버스⋅지하철⋅택시에부착된 다양한 광고 등을 통해 금융상품에 대한 일정한 이미지가 형 성되기때문이다.",
    "source_cleaned": "대표적으로 TV나 신문⋅잡지⋅전단지등을 통한 광고와 인터넷⋅사이트등에 게시된 정보, 그 리고버스⋅지하철⋅택시에부착된 다양한 광고 등을 통해 금융상품에 대한 일정한 이미지가 형 성되기때문이다.",
    "mt": "具有代表性的是,通过电视报纸杂志传单等广告和网络网站等上登载的信息,以及公交⋅地⋅出租车上贴着的各种广告等对金融商品的一定形象形成了。",
    "mtpe": "因为最具代表性的是通过电视报纸杂志传单等广告和网上网站上发布的信息,还有公、地、出租车上贴着的多种广告等对金融商品的一定形象形成了。"
     }, {
    "page": 2,
    "sn": "paper20919sent222141",
    "source_original": "이처럼 금융상품의 경우 판매단계에서 금융회사의 적 정한 정보 제공과 금융소비자에게 적합한 상품의 권유는 기본이고 필수라 할 것이다.",
    "source_cleaned": "이처럼 금융상품의 경우 판매단계에서 금융회사의 적 정한 정보 제공과 금융소비자에게 적합한 상품의 권유는 기본이고 필수라 할 것이다.",
    "mt": "像这样,金融商品在销售阶段,提供金融公司适当的信息和推荐适合金融消费者的商品是基本,也是必须的。",
    "mtpe": "像这样,金融商品在销售阶段,金融公司提供适当的信息和推荐适合金融消费者的商品是基本和必须的。"
     } ]
    }
  • 데이터셋 구축 담당자

    수행기관(주관) : 글나무 주식회사
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    방다솜 부장 02-3210-0601 [email protected] 데이터 구축 PM
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    주식회사 렉스코드 라벨링 데이터 구축 (영어, 중국어)
    주식회사 시스트란 저작도구 개발 및 운영, AI 모델 학습
    주식회사 트위그팜 라벨링 데이터 구축 (일본어)
    한샘글로벌 주식회사 라벨링 데이터 구축 (베트남어, 인도네시아어)
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    글나무 문선희 대표 02-3210-0609 [email protected]
    글나무 방다솜 부장 02-3210-0601 [email protected]
    AI모델 관련 문의처
    AI모델 관련 문의처
    담당자명 전화번호 이메일
    시스트란 지용훈 연구원 042-472-6840 [email protected]
    저작도구 관련 문의처
    저작도구 관련 문의처
    담당자명 전화번호 이메일
    시스트란 이동호 연구원 042-472-6840 [email protected]
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.