콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#자연어

방송 콘텐츠 대본 요약 데이터

방송 콘텐츠 대본 요약 아이콘
  • 분야한국어
  • 유형 텍스트
구축년도 : 2021 갱신년월 : 2022-07 조회수 : 13,062 다운로드 : 1,056 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2022-07-12 데이터 최초 개방

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2022-07-12 콘텐츠 최초 등록

    소개

    정제가 완료된 다양한 방송 콘텐츠 대본 데이터로부터 생성 요약문을 도출한 방송 콘텐츠 대본 요약 AI 데이터셋으로, 방송 데이터의 분류는 물론, 대사의 요약, 상황 묘사, 상황 추론의 데이터를 구축함으로써 방송콘텐츠의 보존과 더불어 재활용의 가치를 부여하여 방송콘텐츠의 재생산, 유통을 활성화

    구축목적

    요약 텍스트 데이터셋 개방 및 활용 기술/가이드 공개를 활용한 다양한 문서 텍스트 요약 알고리즘 모델 개발 및 응용 서비스 구축 기회 제공
  • 1. 데이터 구축 규모

    1. 데이터 구축 규모
    데이터 데이터 출처 데이터 규모 데이터 분포 데이터 형식
    가족관련방송 KBS 미디어 20,000 20% - 원시 데이터 (mp4)
    현대드라마 KBS 미디어 20,000 20% 원천 데이터 (xml/json)
    역사극 KBS 미디어 14,000 14%  
    시사 KBS 미디어 17,000 17%  
    교양지식 KBS 미디어 13,000 13%  
    예능 KBS 미디어 16,000 16%  
    합계 100,000 100%  

     

    2. 데이터 분포
    2.1 문서 유형 및 문서 종류별 분포

    2.1 문서 유형 및 문서 종류별 분포
    데이터 종류 2~3문장 20% 요약 합계
    fm_drama 10,786 11,214 22,000
    fs_drama 11,500 10,502 22,002
    history 8,333 7,350 15,683
    c_event 9,642 9,341 18,983
    culture 7,625 6,825 14,450
    enter 11,278 9,968 21,246
    합계 59,164 55,200 114,364
    - 각 요약 별 1문장 요약은 필수로 포함되어 있어, 실제 학습 데이터 규모는 2배임

     

    2.2 요약 길이별 분포

    2.2 요약 길이별 분포
    요약 길이 건수 비율
    2~3문장 59,164 51.73%
    20% 요약 55,200 48.27%
    합계 114,364 100%

     

  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    방송 콘텐츠 대본 요약 모델 설계/개발 개요

    • 트랜스포머(Transformer) 아키텍처를 사용하는 T5(Text-to-text transfer transformer) 모델을 활용하여 멀티-태스크 러닝으로 방송 콘텐츠 대본 요약 모델을 개발하여 성능을 측정함
    • 최종 성능은 한문장 요약, 3문장 요약, 20% 요약의 모든 태스크를 멀티로 수행한 결과 ROUGE-L 기준 37.549로 측정됨

    요약 모델 구조 

    • 요약 모델에 사용한 사전학습 모델은 와이즈넛에서 개발한 KoT5 (https://github.com/wisenut-research/KoT5)를 사용하여 파인튜닝을 진행함
    • KoT5는 구글에서 공개한 T5: Text-To-Text Transfer Transformer 모델의 구조를 그대로 사용하며, 한국어 데이터로 학습한 모델로 각 레이어 마다 Self Attention, Multi-head Attention, Feed Forward 구조를 가지고 있음

    방송 콘텐츠 대본 요약-요약 모델 구조_1_KoT5 모델 구조도

    <그림> KoT5 모델 구조도
     
    • 활용한 모델은 small 모델과 base 모델로 각 모델의 구성은 다음 표와 같음
    모델의 구성
      파라메터 수 hidden size 레이어 수 어텐션 헤드 수
    (임베딩 차원) (인코더+디코더)
    KoT5-small 60M 512 6 + 6 8
    KoT5-base 220M 768 12 + 12 12

     

    요약 모델 파인튜닝

    • 학습데이터는 (5)에서 검수완료된 방송 콘텐츠 대본 요약 데이터 중 Training셋과 Validation 셋을 사용하여 학습을 수행하였고, Test 셋은 평가용으로만 사용함
    • 각 도메인별, 출력 길이별 멀티 태스크러닝을 하기 위해서 모델의 입력을 프롬프팅(prompting)하도록 구현하였음. 프롬프팅은 입력의 앞부분에 수행할 도메인, 출력 길이, TASK를 자연어 형식으로 바꿔 주는 것으로 아래 그림과 같이 입력하였음

    방송 콘텐츠 대본 요약-요약 모델 파인튜닝_1

     

    요약 모델 평가 결과

    • 평가데이터는 (5)에서 검수완료된 방송 콘텐츠 대본 요약 데이터 중 Test셋을 사용하여 각 도메인 별, 길이 별 ROUGE 점수를 계산함
    • ROUGE는 문장간 중복되는 단어의 수에 따라 ROUGE-1(유니그램), ROUGE-2(바이그램), ROUGE-L(최장 길이 매칭)으로 계산할 수 있음
    • 평가시 사용한 토큰의 단위는 형태소 분석 결과로 나온 형태소단위로 오픈소스 형태소 분석기인 KOMORAN(https://github.com/shineware/KOMORAN)을 사용하였음

     

    요약 모델 평가 결과
    도메인 길이 KoT5 small  KoT5 base
    ROUGE-1, ROUGE-2, ROUGE-L ROUGE-1, ROUGE-2, ROUGE-L
    전체 전체 48.003 23.655 35.779 49.697 25.401 37.549
    전체 한문장 43.460 20.315 34.288 45.224 22.013 35.929
    전체 세문장 54.016 28.070 37.894 55.690 29.935 39.915
    전체 20% 48.002 23.652 35.788 49.692 25.405 37.545
    시사 전체 44.967 20.788 32.662 47.255 23.163 35.043
    교양지식 전체 46.707 23.815 35.617 48.715 26.023 37.599
    예능 전체 49.521 26.968 38.627 50.966 28.550 40.133
    드라마1 전체 47.960 22.425 34.981 49.562 23.942 36.641
    드라마2 전체 49.022 23.966 36.247 50.616 25.572 38.009
    역사극 전체 49.743 24.474 36.956 50.934 25.769 38.216

     

    • 전체 평균 ROUGE-L 기준으로 37.549의 결과를 보였고, 요약의 길이가 짧은 한문장 요약 보다 요약의 길이가 긴 20% 요약과 세문장 요약이 더 좋은 성능을 보임
    • 도메인 별로는 직관적인 표현이 많은 예능이 가장 높고 상대적으로 사전 지식이 필요한 시사와 드라마 장르에서 낮은 결과를 보임

     

  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 생성요약 모델 성능평가 Text Summary Transformer ROUGE-L 35 % 37.55 %

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    데이터 포맷 및 원문데이터 포맷

    데이터 포맷 및 원문데이터 포맷
      내용
    문서 ID SCRIPT-fm_drama-80616
    문서범주 SCRIPT
    문서유형 fm_drama
    문서명 80616_NC_금쪽같은내새끼_20040616.txt
    발행자 KBS
    발행처 KBS
    발행연도 2004
    출처 금쪽같은내새끼
    원문 ID SCRIPT-fm_drama-80616-00030
    원문
    해설]성애침실 (밤).
    성애](핸드폰) 별일없니... 엄마가 옆에 계실테니 긴 얘긴 못하겠구, 걱정돼서 그냥 안부 전화했다... 고맙긴! 내가 무슨 도움도 못되구... 정말 미안하구나! 그래! 음... 끊어! (민섭, 들어오는데 피하듯 나간다)
    해설]거실 (밤).
    성애](주방 쪽으로 향하는데)
    해설]민섭, 뒤따라나오고.
    점순](수박쟁반 들고 온다) 수박이나 좀 먹자!
    해설]모두 앉으며.
    민섭]나는 말이야, 당신이 돈을 버니까 그거 하나는 참 좋아! 누가 보증서 달라는 사람이 없어! 또 혹시 그런 요청이 와두 핑계 대기 좋거든! 난 돈없다아...
    성애]갑자기 무슨 소리야?
    민섭]응? 응... 응...
    (점순]눈치 보듯)... 수박, 맛있네!
    점순]내기 얘기했다! 입다물으라구 했는데 얘기해서 미안 하다 만... 사람 인사가 그게 아닌데 가보지두 못허구...
    성애]...
    민섭](혼잣말처럼) 앗참, 그거나 갖구 한 번 가봐야겠네!"

     

    어노테이션 포맷

    어노테이션 포맷
    단계 수준 1 수준 2 수준3 타입 필수값 다양성분석여부 설명 유효값 / 허용범위 / 예시
    여부
    수집 Meta doc_id 문서ID string Y   문서범주(과제구분)-문서유형-획득SEQ# (5자리숫자) SCRIPT-fm_drama-12345
    획득 doc_category 문서범주 string Y - SCRIPT: 방송 콘텐츠 대본 요약 SCRIPT
      doc_type 문서유형 string Y O 1.가족관련방송fm_drama 1. fm_drama
      2.현대드라마fs_drama 2.fs_drama
      3.역사극history 3.history
      4.시사c_event 4.c_event
      5.교양지식culture 5.culture
      6.예능enter 6.enter
      doc_name 문서명 string Y   (확보 수집한 원천데이터 파일명)  
      author 발행자 string Option      
      publisher 발행처 string Option      
      published_year 발행연도 string Option   YYYY ex. 2018,2021
      doc_origin 출처 string Y      
    정제 passage_id 원문 ID string Y   문서 ID + 분리순서(가공SEQ#) SCRIPT-fm_drama-12345-00032
    SCRIPT-fm_drama-00001(5자리)
    -00001(5자리)
    passage 원문(전체글) string Y   구축 대상 원문/원본 문단  
    가공 Annotation Summary1 1문장 요약 string Y      
    Summary2 2~3문장요약 string Option      
    Summary3 20% 요약 string Option      
    공통 filename 파일명   string Y   passage_id SCRIPT-fm_drama-00001-00032.json
    SCRIPT-fm_drama-12345-00032

     

    실제 예시

    방송 콘텐츠 대본 요약-실제 예시_1

  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜와이즈넛
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    김정민 이사 02-3404-7237 [email protected] 총괄 책임자
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    ㈜딥네츄럴 전영민 이사
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    김정민 이사 02-3404-7237 [email protected]
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.