콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#자연어

NEW 생성형AI 동화 이해도 테스트를 위한 질의응답쌍 생성 데이터

동화 이해도 테스트를 위한 질의응답쌍 생성 데이터 아이콘 이미지
  • 분야한국어
  • 유형 텍스트
구축년도 : 2023 갱신년월 : 2024-10 조회수 : 2,048 다운로드 : 167 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.1 2024-10-30 데이터 최종 개방
    1.0 2024-06-28 데이터 개방 Beta Version

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2024-06-28 산출물 공개 Beta Version

    소개

    - 어린이의 동화 이해도 테스트를 위한 동화 단락을 기반으로 하는 질의응답쌍 생성 데이터,
    - 동화 단락 기반 질의응답(QA) 기술을 통한 자연어 생성 데이터

    구축목적

    - 동화를 기반으로, 인공지능 학습용 데이터 구축 개방을 통한 문화, 출판, 교육, 분야에 디지털대전 생태계 조성 및 일상화 실현
  • - 데이터 구축 규모

    데이터 구축 규모
    데이터명 데이터 형태 원문 규모 어노테이션
    규모
    결과물 규모
    추출 요약 생성요약
    009-013
    동화 이해도 테스트를 위한 질의응답 쌍 생성 데이터
    텍스트 100,000건 100,054건 52,384건
    (3문장 추출)
    100,054건
    (1문장 생성)

     

    - 데이터 분포
     - 콘텐츠 분류(어린이용 동화, 소설 도서 누리과정 5개 영역)
     - 교육부 2022년 누리과정 5개 분류 및 수업 시간 비율로 분포 산정

    데이터 분포
    분류 체계 도서 분배율 계획
    유아 초등(참고)
    의사소통 국어 27%
    영어
    자연탐구 수학 37%
    과학
    사회관계 사회 18%
    도덕
    예술경험 음악 9%
    미술
    신체운동/건강 체육 9%

     - 출판사 도서 통계를 기준으로 유아의 경우 스토리당 평균 단락 수 20개, 초등 저학년의 경우 단락 수 평균 40개, 초등 고학년의 경우 단락 수 평균 70개를 기준으로 분류 비율 산정

    데이터 분포 - 출판사 도서 통계 기준
    구분 유아 초등저학년 초등고학년
    단락 수 분포 20% 30% 50%
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    - 활용 AI모델
       - 참조 모델은 FairytaleQA 데이터셋의 state-of-the-art 모델으로 선정함
         (It is AI’s Turn to Ask Humans a Question: Question-Answer Pair Generation for Children’s Story Books, https://aclanthology.org/2022.acl-long.54.pdf)
       - 참조 논문에서 제시한 질의응답쌍 생성 프레임워크는 총 3가지의 과정으로 구성되어 있음

    AI 모델 SOTA 모델 이미지

                         SOTA 모델 
      (1) 정답 후보군 추출: 주어진 동화 단락에 대해 Spacy POS 태거를 활용한 명사구 및 개체명 추출, Propbank’s 의미역 추출기를 통한 의미역 추출을 통해 정답 후보군들을 추출함

      (2) 질문 생성: QA 데이터를 활용하여 BART 언어생성 기반 사전학습 언어모델에 대해, 단락을 입력으로 넣어주고 질의를 생성하도록 파인튜닝 학습함. 해당 모델을 통해 주어진 단락 및 (1)에서 추출한 정답 후보군에 대해 질의를 생성함

      (3) 최종 QA 생성: 랭킹 모듈을 활용하여 생성된 질의응답쌍 후보군 중 높은 순위에 랭크된 질의응답쌍을 최종 쌍으로 채택함. 이때 랭킹 모듈의 학습은, QA 데이터를 활용해 DistilBERT 언어이해 기반 사전학습 언어모델을 파인튜닝함. 올바른 질의응답쌍을 1으로, (1)과 (2)의 과정을 통해 생성된 QA 모델을 0으로 둔 후 모델로 하여금 주어진 질의응답쌍이 모델이 생성한 결과인지, 또는 정답쌍인지를 분류하도록 함. 최종 질의응답쌍 랭크 및 선정 과정에서는 비선형 함수인 softmax 함수를 활용하여, 입력된 질의응답쌍에 대해 정답쌍일 확률을 예측함. 해당 확률이 높은 질의응답쌍 N개를 최종 후보군으로 선정함


    - 유효성 검증 방법
       - 주요 참조가 FairytaleQA 이므로 모델 검증에 FairytaleQA 데이터셋의 SOTA를 참조하여 설정함
       - 유효성 검증의 경우 다음 2가지 매트릭을 활용하여 정량적으로 평가함
       - ROUGE 점수는 예측값과 정답 간의 겹치는 unigram의 수를 사용하는 ROUGE-1, bigram의 수를 이용하는 ROUGE-2, 그리고 최장 길이로 매칭되는 문자열을 측정하는  ROUGE-L (Largest)로 나뉘며, 본 과제에서는 ROUGE-L 점수를 기준으로 측정함

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    - 데이터 구성

    데이터 구성
    데이터 항목 설명
    도서명 ●  도서의 제목
    글 저자 ●  009-013 질의응답쌍 생성 데이터 글 작가 성명 사용
    이미지 작가 ●  009-014 동화 삽화 생성 데이터 그림 작가 성명 사용
    ISBN ●  도서 출간 정보, 납본 여부 확인
    출간년도 ●  도서의 출판 년도
    출판사 명 ●  출간 출판사
    책내 단락 개수 ●  도서 전체 단락의 개수
    5개 주제 분류 ●  누리교육과정 5개 분류 사용
     - 의사소통, 자연탐구, 사회관계, 예술경험, 신체운동/건강
     - 누리(유치원)과정 행정규칙 교육부 고시
       제2019-152호 [별첨] 2019 개정 누리과정 고시문-교육부.PDF
    독서연령 ● 아동 발달단계 기준 3개 분류
     - 유아 만 4~6세(1)
     - 초등학교저학년 만 7~9세(2)
     - 초등학교고학년 만 10~12세(3)

     

    - 어노테이션 포맷

    어노테이션 포맷
    구분 속성명 타입 필수 여부 설명 비고
    1 title string Y 도서명  
    2 author string Y 저자  
    3 illustrator string N 이미지 작가  
    4 isbn string Y ISBN 도서 식별 넘버  
    5 publishedYear number N 출간년도  
    6 publisher string N 출판사명  
    7 paragraphInfoCount number N 책내 단락 개수  
    8 paragraphInfo array Y 단락 정보  
      8-1 srcTextID string Y 단락 식별코드  
    8-2 srcText string Y 단락 텍스트  
    8-3 srcPage number Y 단락 페이지 정보  
    8-4 srcSententsEA number Y 단락 문장 수  
    8-5 srcWordEA number Y 단락 어절 수  
    8-6 character string N 핵심용어1(캐릭터)  
    8-7 setting string N 핵심용어2(셋팅)  
    8-8 action string N 핵심용어3(액션)  
    8-9 feeling string N 핵심용어4(감정)  
    8-10 causalRelationship string N 핵심용어5(인과)  
    8-11 outcomeResolution string N 핵심용어6(결과)  
    8-12 prediction string N 핵심용어7(예측)  
    8-13 queAnsPairInfoCount number Y 단락내 질의응답 쌍 개수  
    8-14 queAnsPairInfo array Y 질의응답쌍 정보  
      8-14-1 classification string Y 주제 “의사소통”,“자연탐구”,“
    사회관계”,“예술경험”,“신
    체운동_건강”
    8-14-2 readAge string Y 독서연령 “유아”,“초등_저학년”,“초 등_고학년”
    8-14-3 question string Y 질문 텍스트  
    8-14-4 queType number Y 질문 유형 1 = 캐릭터,  2  = 셋팅,  3
    = 액션, 4  = 감정,  5  =
    인과,  6 = 결과, 7  = 예측
    8-14-5 queFormat string Y 질문형식 단답/서술
    8-14-6 ansType string Y 응답타입 명시적/함축적
    8-14-7 ansCount number Y 복수응답 수 1~5개
        8-14-8 ansM1 string Y 답변1 답변 1개 이상
    8-14-9 ansM2 string N 답변2  
    8-14-10 ansM3 string N 답변3  
    8-14-11 ansM4 string N 답변4  
    8-14-12 ansM5 string N 답변5  

     

    - 데이터 포맷
     - 원문데이터 포맷 화면 예시

    원문데이터 포맷 화면 예시
     - JSON 파일 형식

    데이터포맷 JSON 파일 형식 이미지

     

    - 실제 예시

    실제 예시 이미지

  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜미니게이트
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    황지영 070-4088-0143 [email protected] 실무총괄
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    ㈜아람키즈 데이터 획득/수집
    ㈜아이피아 데이터 검수 및 AI학습
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    황지영 070-4088-0143 [email protected]
    손호배 070-4088-0105 [email protected]
    AI모델 관련 문의처
    AI모델 관련 문의처
    담당자명 전화번호 이메일
    최재우 070-4088-0103 [email protected]
    이정선 070-4088-0103 [email protected]
    저작도구 관련 문의처
    저작도구 관련 문의처
    담당자명 전화번호 이메일
    박귀숙 070-9098-9155 [email protected]
    김동국 070-4764-8853 [email protected]
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.