콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#자연어

NEW 생성형AI 한국어 다중 이벤트 추출 데이터

한국어 다중 이벤트 추출 데이터 아이콘 이미지
  • 분야한국어
  • 유형 텍스트
구축년도 : 2023 갱신년월 : 2024-10 조회수 : 2,314 다운로드 : 179 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.1 2024-10-30 데이터 최종 개방
    1.0 2024-07-05 데이터 개방 Beta Version

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2024-07-05 산출물 공개 Beta Version

    소개

    - 텍스트 내 다중 이벤트 추출 기반의 이해 기술 개발을 위한 학습용 데이터 구축

    구축목적

    - 자연어 이해 연구에 활용 가능한 텍스트 내 다중 사건 및 사건 주체/객체 추출 데이터는 다양한 자연어 처리 응용 시스템 개발을 위해 활용함
  • - 데이터 구축 규모
      - 원천데이터 : 230,837건
      - 다중이벤트 데이터 : (문서) 7,216건 / (이벤트) 17,625건
        
    - 데이터 분포
      - 원천데이터 구축 분포 

    원천데이터 구축 분포
    순번 카테고리명 건수 비율
    1 스포츠 33,318건 14.30%
    2 연예 33,018건 14.30%
    3 증권 32,898건 14.30%
    4 산업 33,001건 14.30%
    5 라이프 32,907건 14.30%
    6 오피니언 32,953건 14.30%
    7 부동산 32,922건 14.30%
    합계 230,837건 100%

     

      - 원천데이터  매체별 분포  

          뉴스(MBN, 매일경제신문) 228,440건(98.96%)

          매거진(매일경제신문) : 2,397건 (1.04%)


      - 카테고리별 문서 및 이벤트 건수 분포

    카테고리별 문서 및 이벤트 건수 분포
    순번 카테고리명 문서 건수 비율 이벤트 건수 비율
    1 스포츠 954 14% 2,109 12%
    2 연예 920 13% 2,101 12%
    3 라이프 1,044 15% 2,656 15%
    4 증권 1,358 19% 3,296 19%
    5 부동산 1,082 15% 2,821 16%
    6 산업 852 12% 2,106 12%
    7 오피니언 831 12% 2,144 12%
    합계 7,041 100% 17,233 100%

     

      - 카테고리별 이벤트 유형 분포

    카테고리별 이벤트 유형 분포
    순번 카테고리명 이벤트 유형 유형 건수 비율 순번 카테고리명 이벤트 유형 유형 건수 비율
    1 스포츠 선수 성적 509 2.95% 4 산업 산업제품의 안전점검 26 0.15%
    선수 순위 508 2.95% 산업제품 매매 211 1.22%
    경기 결과 444 2.58% 산업제품출시 691 4.01%
    경기 승부 정보 446 2.59% 산업업체의 발전 1,005 5.83%
    선수 거취 202 1.17% 산업업체의 수익 173 1.00%
    2 연예 영화 정보 558 3.24% 5 라이프 여행 182 1.06%
    가수 활동 355 2.06% 상품판매 1021 5.92%
    앨범 발매 443 2.57% 국내업체의 기술개발 551 3.20%
    수상 정보 256 1.49% 공개 719 4.17%
    음원 차트 순위 489 2.84% 질병 183 1.06%
    3 증권 증권 영업이익 1122 6.51% 7 부동산 부동산 매매 313 1.82%
    증권 매매 714 4.14% 부동산 시장분석 869 5.04%
    증권 거래 정보 777 4.51% 부동산 정책 670 3.89%
    증권회사 인수 169 0.98% 건축건설 사업 890 5.16%
    증권분석 514 2.98% 부동산 피해 79 0.46%
    6 오피니언 국내외 사건 2,144 12.44% 합계 17,233 100%
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    모델학습
    본 사업에서 구축한 데이터가 한국어 다중이벤트 추출 모델에 활용될 수 있기에 모델 학습에 적절한 학습, 검증, 시험 데이터셋을 준비하는 것을 제안함

    모델학습
    모델분류 구분 학습(Training) 검증(Validation) 시험(Test)
    음성인식 개요  - pre-trained BERT 모델을 활용하여
        SpERT 알고리즘 fine-tuning 학습
     - GPU 학습 사용
     - 학습 도중 모델 성과 평가 및 비교
     - micro F1 score 점수
     - 모델 학습 완료 후
     - 모델 테스트
    데이터 비율 80% 10% 10%

     

     

    서비스 활용 시나리오

     - ChatGPT와 같이 초거대 AI(Large Language Model: LLM) 모델은 치명적 단점으로 꼽히는 사실 왜곡(Hallucination) 문제가 있음
     - 이러한 문제는 이벤트 추출 모델을 학습함으로써, 구조화되지 않은 텍스트 데이터에서 중요한 정보를 식별하고 추출하여 사실 왜곡 문제를 지식 주입(Knowledge Injection)과 같은 방식으로 해결할 수 있음
     - 이벤트 추출을 통해 얻은 정보를 지식그래프에 접목함으로써 개인화된 지식그래프를 구축하여, 대화형 개인화 지식 답변을 제공하는 서비스로도 확장될 수 있음

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    - 메타 데이터셋 구성

    메타 데이터셋 구성
    메타데이터 항목명 타입 필수 항목 설명
    DataSet Object Y 데이터셋 정보
    Identifier Number Y 데이터셋 식별자
    name String Y 데이터셋 이름
    src_path String Y 데이터셋 이름데이터셋 폴더위치
    label_path String Y 데이터셋 레이블 폴더위치
    category Number Y 데이터셋 카테고리
    type Number Y 데이터셋 타입

     

    - 어노테이션 포맷

    어노테이션 포맷
    No. 항목명 타입 필수 항목 설명 비고
    1 Dataset Object Y 데이터셋 정보  
      1.1 Identifier Number Y 데이터셋 식별자  
      1.2 name String Y 데이터셋 이름  
      1.3 src_path String Y 데이터셋 더위치  
      1.4 label_path String Y 레이블 폴더위치  
      1.5 category Number Y 데이터셋 카테고리  
      1.6 type Number Y 데이터셋 타입  
    2 data Object Y 레코드의 리스트  
      2.1 doc_id Number Y 문서 번호  
      2.2 doc_title String Y 문서 제목  
      2.3 doc_source String Y 문서 발행기관  
      2.4 doc_pubish Number Y 문서 발행일자 YYYYMMDD
      2.5 created String Y 문서 생성일자 YYYYMMDDH24MISS
      2.6 text String Y 문서 내용  
      2.7 text_category String Y 문서 도메인 1:증권, 2:부동산,,,
      2.8 text_category_cd String Y 문서 도메인 코드 D-13-T, D-13-E...
      2.9 event_quantity Number Y 이벤트 갯수  
      2.1 event Array Y 이벤트 정보  
        2.10.1 sentence String Y 이벤트 문장  
        2.10.2 event_entity Array Y 이벤트 개체  
          2.10.2.1 entity_value Array Y 이벤트 개체 값  
          2.10.2.2 entity_length Number Y 이벤트 개체 길이  
          2.10.2.3 start_index Number Y 이벤트 개체 시작점  
          2.10.2.4 end_index Number Y 이벤트 종료 종료점  
        2.10.3 event_arguement Array Y 이벤트 값  
          2.10.3.1 event_num Number Y 이벤트 순서  
          2.10.3.2 event_type String Y 이벤트 유형  
          2.10.3.3 trigger_value String Y 이벤트 트리거  
          2.10.3.4 dtrigger_length Number Y 이벤트 트리거 길이  
          2.10.3.5 trigger_start_index Number Y 이벤트 트리거 시작점  
          2.10.3.6 trigger_end_index Number Y 이벤트 트리거 종료점  
          2.10.3.7 subject Number Y 이벤트 주체 자리값  
          2.10.3.8 object Number Y 이벤트 객체 자리값  

     

    - 데이터 포맷
      - 원천데이터 포맷 예시

    데이터 포맷 - 원천데이터 포맷 예시
    IDX ID DATA_TITLE DATA_TEXT FILENAME MEDIA_TYPE MEDIA_NAME CATEGORY
    26156 4281960 애플, 3분기 최고매출…페북도 30%나 늘어 애플과 페이스북이 지난 30일(현지시간) 실적을 발표하면서 주요 정보기술(IT) 회사들의 3분기 결산이 대부분 마무리됐다. 결과를 요약하면 탄탄한 비즈니스 모델을 갖추고 있는 회사들은 시장에서 좋은 평가를 받고 있다.
    애플은 이날 3분기 매출액 640억달러(약 75조원)를 기록했다고 발표했는데, 전년 대비 소폭(2%) 상승해 역대 최고 분기매출이지만 순이익은 3% 줄어들었다. 게다가 아이폰 매출액은 전년 대비 9% 줄어들었다.
    그러나 애플 주가는 실적 발표 이후 2% 상승했다. 비록 아이폰 매출이 줄었다 하더라도 애플뮤직, 아이클라우드, 앱스토어 등과 같은 서비스 매출이 늘고 있기 때문이다.
    페이스북도 강력한 고객 기반에서 나오는 높은 수익성을 유지하고 있다. 3분기 페이스북은 매출 177억달러(약 21조원)를 기록했다고 밝혔는데, 이는 전년 대비 29%나 증가한 것이다. 이용자 1인당 평균 매출은 7.26달러로 지난해 대비 19%나 상승했다. 그 결과 순이익도 전년 대비 18.6% 증가했다. 페이스북 주가는 이날 하루만 4% 이상 상승했으며, 연초에 비해서는 43%나 올랐다.
    output_2_I_4281960.csv 뉴스 매일경제 100305

     

      - json 형식 

    json 형식
    {
        "Dataset": {
            "Identifier": 4281960,
            "name": "ME_Trainning_D_13_I_4281960.json",
            "src_path": "13-2/데이터가공/산업",
            "label_path": "home/13-2MEE/MEE_Trainning/MEE_Trainning_D_13_I",
            "category": 100305,
            "type": 0
        },
        "data": {
            "doc_id": 27383,
            "doc_title": "애플, 3분기 최고매출…페북도 30%나 늘어",
            "doc_source": "매일경제",
            "doc_published": 20191101,
            "created": "20231016 13:39:11",
            "text": "애플과 페이스북이 지난 30일(현지시간) 실적을 발표하면서 주요 정보기술(IT) 회사들의 3분기 결산이 대부분 마무리됐다. 결과를 요약하면 탄탄한 비즈니스 모델을 갖추고 있는 회사들은 시장에서 좋은 평가를 받고 있다.   애플은 이날 3분기 매출액 640억달러(약 75조원)를 기록했다고 발표했는데, 전년 대비 소폭(2%) 상승해 역대 최고 분기매출이지만 순이익은 3% 줄어들었다. 게다가 아이폰 매출액은 전년 대비 9% 줄어들었다.   그러나 애플 주가는 실적 발표 이후 2% 상승했다. 비록 아이폰 매출이 줄었다 하더라도 애플뮤직, 아이클라우드, 앱스토어 등과 같은 서비스 매출이 늘고 있기 때문이다.   페이스북도 강력한 고객 기반에서 나오는 높은 수익성을 유지하고 있다. 3분기 페이스북은 매출 177억달러(약 21조원)를 기록했다고 밝혔는데, 이는 전년 대비 29%나 증가한 것이다. 이용자 1인당 평균 매출은 7.26달러로 지난해 대비 19%나 상승했다. 그 결과 순이익도 전년 대비 18.6% 증가했다. 페이스북 주가는 이날 하루만 4% 이상 상승했으며, 연초에 비해서는 43%나 올랐다.    [실리콘밸리 = 신현규 특파원]",
            "text_category": "산업",
            "text_category_cd": "D-13-I",
            "event_quantity": 2,
            "event": [
                {
                    "sentence": "게다가 아이폰 매출액은 전년 대비 9% 줄어들었다.",
                    "event_entity": [
                        {
                            "entity_value": "아이폰 매출액",
                            "entity_length": 7,
                            "start_index": 4,
                            "end_index": 11
                        },
                        {
                            "entity_value": "9%",
                            "entity_length": 2,
                            "start_index": 19,
                            "end_index": 21
                        }
                    ],
                    "event_argument": [
                        {
                            "event_num": 1,
                            "event_type": "산업제품 매매",
                            "trigger_value": "줄어들었다.",
                            "trigger_length": 6,
                            "trigger_start_index": 22,
                            "trigger_end_index": 28,
                            "subject": 0,
                            "object": 1
                        }
                    ]
                },
                {
                    "sentence": "이용자 1인당 평균 매출은 7.26달러로 지난해 대비 19%나 상승했다.",
                    "event_entity": [
                        {
                            "entity_value": "이용자 1인당 평균 매출",
                            "entity_length": 13,
                            "start_index": 0,
                            "end_index": 13
                        },
                        {
                            "entity_value": "19%",
                            "entity_length": 3,
                            "start_index": 30,
                            "end_index": 33
                        }
                    ],
                    "event_argument": [
                        {
                            "event_num": 2,
                            "event_type": "산업제품 매매",
                            "trigger_value": "상승했다.",
                            "trigger_length": 5,
                            "trigger_start_index": 35,
                            "trigger_end_index": 40,
                            "subject": 0,
                            "object": 1
                        }
                    ]
                }
            ]
        }
    }
  • 데이터셋 구축 담당자

    수행기관(주관) : 에스에스엘
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    박찬림 010-8873-5217 [email protected] 주관 사업관리 및 품질 업무
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    KDX한국데이터거래소 수집 및 정제 업무
    데이터누리 가공 업무
    솔트룩스 AI 학습
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    노지혜 02-2000-5934 [email protected]
    이지훈 02-6953-5313 [email protected]
    AI모델 관련 문의처
    AI모델 관련 문의처
    담당자명 전화번호 이메일
    유춘식 02-2193-1600 [email protected]
    박미향 02-2193-1600 [email protected]
    저작도구 관련 문의처
    저작도구 관련 문의처
    담당자명 전화번호 이메일
    이광진 02-6953-5313 [email protected]
    이성재 02-6953-5313 [email protected]
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.