AI-Hub

#뉴스 본문 데이터셋 # 정답 없는 데이터셋 # 설명 가능 데이터셋 # 표준 데이터셋 # 질문 # 단서 # 답 # 기계독해

기계독해

분야한국어
유형 텍스트

구축년도 : 2018 갱신년월 : 2019-05 조회수 : 11,827 다운로드 : 3,255 용량 :

소개 파일 목록 (API 다운로드)

※ 내국인만 데이터 신청이 가능합니다.

문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.0	2019-05-15	데이터 최초 개방

소개

기계독해 개발에 활용될 수 있는 뉴스 본문 기반 학습 데이터셋 45만 건을 구축한 지식베이스 제공

메타데이터 구조표
데이터 영역	한국어	데이터 유형	텍스트
데이터 형식		데이터 출처
라벨링 유형		라벨링 형식
데이터 활용 서비스		데이터 구축년도/ 데이터 구축량	2018년/45만

구축내용

기계독해 개발에 활용될 수 있는 뉴스 본문 기반 학습 데이터셋 45만 건 구축
※ 기계독해(Machine Reading Comprehension, MRC) : 제시된 본문 안에서 질의에 대한 정답을 추론하는 딥러닝 기반 기술
데이터의 종류 및 포함 내용

특허 데이터 구축내용 표 (데이터 종류, 포함 내용, 제공방식)
데이터 종류	포함 내용	제공 방식
표준 데이터셋	질문과 답(25만 건)	파일
정답 없는 데이터셋	본문에서 답을 찾을 수 없는 질문(10만 건)	파일
설명 가능 데이터셋	질문과 답과 그 답을 선택한 단서(10만 건)	파일

기계독해- 기계 독해 분야 구축 내용 설명 이미지 예시

<기계 독해 분야 구축 내용 설명 이미지 예시>

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.0	2019.05.15	데이터 최초 개방

필요성

기존 AI질의응답 서비스의 기반이 되어온 지식베이스(Knowledge Base)가 가진 한계 및 비효율성 등을 극복하기 위해 딥러닝 기반의 정답 추론 기술 대두
SQuAD 등 영문 데이터 셋은 다양하게 공개 되었지만 한국어 데이터 셋은 부족한 상황

구축내용

기계독해 개발에 활용될 수 있는 뉴스 본문 기반 학습 데이터셋 45만 건 구축
※ 기계독해(Machine Reading Comprehension, MRC) : 제시된 본문 안에서 질의에 대한 정답을 추론하는 딥러닝 기반 기술
데이터의 종류 및 포함 내용

특허 데이터 구축내용 표 (데이터 종류, 포함 내용, 제공방식)
데이터 종류	포함 내용	제공 방식
표준 데이터셋	질문과 답(25만 건)	파일
정답 없는 데이터셋	본문에서 답을 찾을 수 없는 질문(10만 건)	파일
설명 가능 데이터셋	질문과 답과 그 답을 선택한 단서(10만 건)	파일

기계독해- 기계 독해 분야 구축 내용 설명 이미지 예시

<기계 독해 분야 구축 내용 설명 이미지 예시>

데이터 구조

표준 데이터셋
제목(title)
본문의 카테고리(source)
본문(context)
질문 번호(id)
육하원칙(classtype)
질문(question)
정답의 시작위치(answer_start)
정답(text)

정답 없는 데이터셋
제목(title)
본문의 카테고리(source)
본문(context)
질문 번호(id)
육하원칙(classtype)
질문(question)

설명 가능 데이터셋
제목(title)
본문의 카테고리(source)
본문(context)
질문 번호(id)
육하원칙(classtype)
질문(question)
정답의 시작위치(answer_start)
정답(text)
단서의 시작위치(clue_start)
단서(clue)

예시


{"data": [{
	"source": 6,
	"paragraphs": [{
		"qas": [{
			"question": "쎈 마이웨이 관련 기자간담회 누가 했어",
			"id": "m4_278529-1",
			"answers":[{
			"answer_start": 0,
			"text": "박영선"
		}],
		"clue":[{
			"clue_start": 4,
			"clue_text": "PD"
		}],
		"classtype": "work_who"
		}],
		"context": "박영선 PD는 18일 오후 서울 양천구 목동 SBS에서 모비딕의 토크 콘텐츠 쎈 마이웨이 관련 기자간담회를 열고 출연진에 신뢰를 드러냈다."
	}],
	"title": “1"
}

※한 본문에 대해 qas(질문 - 답)가 여러 개일 수 있음

※질문 번호(id) 생성규칙: [제작자]-[질문번호]_[고유질문일 경우 (1), 유사질문일 경우(2)]

본문 카테고리(source)의 기입형태 및 설명

본문 카테고리(source)의 기입형태 및 설명
기입형태	해당 본문 카테고리
1	정치
2	경제
3	사회
4	생활
5	IT/과학
6	연예
7	스포츠
8	문화
9	미용/건강

육하원칙(classtype)의 기입 형태 및 설명

육하원칙(classtype)의 기입 형태 및 설명
기입형태	해당 본문 카테고리
work_where	어디서
work_who	누가
work_what	무엇을
work_how	어떻게
work_why	왜
work_when	언제

활용예시

지식 베이스 QA엔진에서 답하지 못한 질문에 답하는 QA 엔진 개발
문서를 읽지 않아도 특정 질문에 대한 답을 알 수 있게 해주는 서비스 개발

데이터셋 구축 담당자

수행기관(주관) : 마인즈랩

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
안준환(마인즈랩)	031-625-4349

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
안준환(마인즈랩)	031-625-4349	[email protected]

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의