AI-Hub

#자연어

NEW 생성형AI 법률안 검토 보고서 요약 데이터

분야한국어
유형 텍스트

구축년도 : 2023 갱신년월 : 2024-10 조회수 : 4,675 다운로드 : 320 용량 :

샘플 데이터

※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

소개 파일 목록 (API 다운로드)

※ 내국인만 데이터 신청이 가능합니다.

문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.1	2024-10-30	데이터 최종 개방
1.0	2024-06-28	데이터 개방	Beta Version

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2024-11-21	산출물 수정, 구축업체 정보수정	활용 가이드라인
2024-06-28	산출물 공개	Beta Version

소개

- 국회에서는 의안정보시스템(likms.assembly.go.kr/bill)을 통해 국회의 의정활동에서 산출되는 법률안의 제정, 개정의 각 단계와 각 의안에 대해 전문위원이 검토한 내용을 보고서 형태로 제공하고 있음.

구축목적

- 법률 제정 및 개정 등에 대한 법률안 검토보고서의 AI 요약 모델 구축에 사용할 수 있는 학습 데이터 제공

메타데이터 구조표
데이터 영역	한국어	데이터 유형	텍스트
데이터 형식	텍스트	데이터 출처	의안정보시스템(likms.assembly.go.kr/bill)
라벨링 유형	내용요약(자연어)	라벨링 형식	json
데이터 활용 서비스	- 의안정보시스템에서 제공하는 법률 제정 및 개정 보고서에 대한 요약 서비스 제공 대국민 서비스의 품질 향상. - 법률안 검토보고서의 데이터로 학습된 AI모델을 활용한 Legal Tech 서비스 개발. - 법률 개정 및 제정에 관한 법안 예측 지원 서비스 개발.	데이터 구축년도/ 데이터 구축량	2023년/원시 데이터 : 5만건 라벨링 데이터 : 국회 법률안 검토보고서 3만건 이상

- 데이터 구축 규모
데이터 구축을 위한 수집 작업이 개시된 2023년 07월 현재 기준 19대 ~ 21대 국회에서 공개한 약 6만 개의 보고서를 선별 및 수집하고 계류 의안, 결의안, 예산안 등을 제외한 법률 검토 보고서 3만개를 선정하여 요약 데이터 구축 대상으로 하였음.

데이터 구축 규모
회기			전체 의안 수
21대 (2020-2024)			21,961
20대 (2016-2020)			25,221
19대 (2012-2016)			18,926

[의안정보시스템의 제공데이터(2023.07월 기준)]

- 데이터 분포(충분성, 균등성, 편향성 여부 확인)
데이터 수집 결과 30,000건의 검토보고서를 확보하였고, 각 보고서는 1개 이상의 쟁점(논의 내용)을 포함하고 있어 요약 데이터셋(json 산출물)은 각 쟁점을 하나의 단위로 하도록 구축되었음.

데이터 분포
회기	구축 데이터셋	비율
21대 (2020-2024)	8,312	14%
20대 (2016-2020)	31,972	54%
19대 (2012-2016)	18,926	32%

[법률안 검토보고서 구축 결과 요약]

데이터셋은 다양한 소관위원회 별 취급 법안들에 대한 효율적인 비율 유지를 위해 4개의 그룹으로 분류하여 각 그룹 간 동등한 비율을 달성하였음.

[그룹1] - 데이터셋 12,219개(24%, 95MB)
공적연금강화와노후빈곤해소를위한특별위원회, 국회운영위원회, 기획재정위원회,
국가정보원등국가기관의정치적중립성강화를위한제도개선특별위원회,
민생경제안정특별위원회, 법제사법위원회, 사법개혁특별위원회, 정무위원회,
아동·여성대상성폭력대책특별위원회, 예산결산특별위원회, 정치개혁특별위원회,
평창동계올림픽및국제경기대회지원특별위원회, 헌법개정및정치개혁특별위원회

[그룹2] - 데이터셋 9,986개(20%, 71MB)
과학기술정보방송통신위원회, 교육과학기술위원회, 교육문화체육관광위원회
교육위원회, 국방위원회, 미래창조과학방송통신위원회, 산업통상자원위원회
산업통상자원중소벤처기업위원회, 여성가족위원회, 외교통상통일위원회
외교통일위원회, 정보위원회, 지식경제위원회

[그룹3] - 데이터셋 13,801개(27%, 92MB)
국토교통위원회, 국토해양위원회, 문화체육관광위원회, 안전행정위원회, 행정안전위원회

[그룹4] - 데이터셋 14,844개(29%, 102MB)
농림축산식품해양수산위원회, 보건복지위원회, 환경노동위원회

저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드

AI 모델 상세 설명서 다운로드

AI 모델 상세 설명서 다운로드 AI 모델 다운로드

- 활용 모델
- 학습 모델 알고리즘

학습 모델 알고리즘
AI모델 task	AI모델(후보)	성능 지표 및 목표값	Data I/O
이해	BART	ROUGE-1 (40.6 이상)	Input data : Text Sequence output data : Text Sequence
● BART는 sequence-to-sequence 모델을 사전학습하기 위한 denoising autoencoder(DAE)로 사용되며, 텍스트를 변형시킨 후 원본 텍스트로 재구성하도록 훈련 ● BART 모델은 양방향 트랜스포머 Encoder와 Autoregressive 트랜스포머 Decoder를 결합한 구조 ● BART는 입력 문장의 양방향 정보를 이해하면서도 이전 문장의 정보를 활용하여 다음 단어를 예측할 수 있는 장점 존재 ● 이러한 특징으로 인해 BART는 생성 태스크와 이해 태스크 모두에 적용 가능하며, 기존의 BERT보다 성능이 좋을 가능성 높음 ● BART는 다양한 corruption 방식을 활용하여 입력 텍스트를 손상시키고, 이를 복원하도록 학습

● 디지털 대전환의 가속화로 국내 기업·기관의 경쟁력 향상 및 인공지능의 활성화를 위한 AI 산업 기반 조성 및 활성화
● 디지털플랫폼정부에서는 다양한 데이터를 연계·활용하므로 다양한 데이터를 통합하는 데이터 아키텍처의 구조화가 필요하며, 디지털 대전환 시대를 맞아 인공지능 학습용 데이터 구축ㆍ개방을 통해 전 산업에 지능화 혁신 및 성장 견인
● 법률안 검토보고서 요약 서비스, Legel Tech 서비스, 국회 회의록 기반 지식검색 질의응답 모델을 활용하여 챗GPT 관련 신규 비즈니스 모델 개발 및 유관 기업 기술 제휴 및 MOU 등 추진
● 인공지능 학습용 데이터 수집, 정제ㆍ가공, 검증 등 전주기에 직접고용과 함께 크라우드소싱 방식을 도입하여 대규모 일자리 창출
● 한국 고유의 언어자원을 중심으로 한 기술 기반 영역의 설정은 AI 기술 수준의 추격과 경쟁력 있는 기술 영역의 선점
● 법률 제정 및 개정에 대한 최신 정보를 쉽게 파악할 수 있는 요약 서비스 제공
● 지식기반 AI 질의응답 서비스를 통한 국민들과의 소통의 창 활성화

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

- 어노테이션 포맷 및 규격

어노테이션 포맷 및 규격
No	항목명	타입	구분	항목 설명	예시
1	id	number	필수	데이터셋 번호	1
2	bill_id	number	필수	의안번호	PRC_B2R1D0S3P3N0Q1L0W0W9Y0M5T0P6A3
3	title	string	필수	검토보고서 제목	국가균형발전 특별법 일부개정법률안 검토보고서
4	committee	string	필수	소관위원회	기획재정위원회
5	field	string	선택	해당 법 분야	국가균형발전특별법
6	enactment	string	선택	제정 여부	N
7	amendment	string	선택	개정 여부	Y
8	proposer	string	필수	대표 발의자	최인호
9	advisor	string	필수	담당 전문위원	송대호
10	date	string	필수	보고서 게시일	2021-06-28
11	session	number	필수	해당 국회 회기	21
12	paragraph	string	필수	요약대상 원문	제정안 심사과정에서 현행 산업위기대응특별지역 규정의 보완 실익 및 그 밖의 긴급 지원 및 사전 관리 사항의 필요성 등을 종합적으로 검토하여 별도의 특별법 제정 여부를 결정할 필요가 있다고 보임
13	ext_summary	string	필수	추출요약 데이터	현행 산업위기대응특별지역 규정의 보완 실익 및 그 밖의 긴급 지원 및 사전 관리 사항의 필요성 등을 종합적으로 검토하여 별도의 특별법 제정 여부를 결정할 필요가 있다고 보임
14	gen_summary	string	필수	생성요약 데이터	산업위기대응특별지역 규정을 검토하여 별도 특별법의 제정 필요성에 대한 논의가 필요함.
15	teminology	string	선택	전문용어	무역분쟁, 수출, COVID-19, 산업위기지역
16	disposal	string	선택	의안 처리결과	대안반영폐기

- 어노테이션 데이터 정보구조 정의

어노테이션 데이터 정보구조 정의
항목		설명
id		데이터셋 번호
메타 정보 (자동)	bill_id	의안번호
	session	해당 국회 회기
	title	의안 검토보고서명
	committee	소관위원회명
	date	보고서 게시일자
메타 정보 (반자동)	field	해당 법 분야
	enactment	제정여부
	amendment	개정여부
	proposer	대표발의자
	advisor	담당 전문위원
가공 작업 (수동)	paragraph	요약 대상 원문(원천데이터)
	ext_summary	주요 문장
	gen_summary	생성요약 데이터
	terminology	전문용어 엔티티
	disposal	의안 처리결과

데이터셋 구축 담당자

수행기관(주관) : ㈜비네아

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
민병원	042-716-0095	[email protected]	총괄 책임자

수행기관(참여)

수행기관(참여)
기관명	담당업무
㈜비네아	데이터 가공 / 검수 / 품질
나라이이넷㈜	데이터 가공 / 검수
이지메타㈜	데이터 획득 / 정제 / 가공 / 검수
㈜무하유	학습 모델

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
서민석	02-584-3489	[email protected]

AI모델 관련 문의처

AI모델 관련 문의처
담당자명	전화번호	이메일
김준경	02-6233-8400	[email protected]

저작도구 관련 문의처

저작도구 관련 문의처
담당자명	전화번호	이메일
서민석	02-584-3489	[email protected]

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의