NEW 생성형AI 법률안 검토 보고서 요약 데이터
- 분야한국어
- 유형 텍스트
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2024-10-30 데이터 최종 개방 1.0 2024-06-28 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-11-21 산출물 수정, 구축업체 정보수정 활용 가이드라인 2024-06-28 산출물 공개 Beta Version 소개
- 국회에서는 의안정보시스템(likms.assembly.go.kr/bill)을 통해 국회의 의정활동에서 산출되는 법률안의 제정, 개정의 각 단계와 각 의안에 대해 전문위원이 검토한 내용을 보고서 형태로 제공하고 있음.
구축목적
- 법률 제정 및 개정 등에 대한 법률안 검토보고서의 AI 요약 모델 구축에 사용할 수 있는 학습 데이터 제공
-
메타데이터 구조표 데이터 영역 한국어 데이터 유형 텍스트 데이터 형식 텍스트 데이터 출처 의안정보시스템(likms.assembly.go.kr/bill) 라벨링 유형 내용요약(자연어) 라벨링 형식 json 데이터 활용 서비스 - 의안정보시스템에서 제공하는 법률 제정 및 개정 보고서에 대한 요약 서비스 제공 대국민 서비스의 품질 향상. - 법률안 검토보고서의 데이터로 학습된 AI모델을 활용한 Legal Tech 서비스 개발. - 법률 개정 및 제정에 관한 법안 예측 지원 서비스 개발. 데이터 구축년도/
데이터 구축량2023년/원시 데이터 : 5만건 라벨링 데이터 : 국회 법률안 검토보고서 3만건 이상 -
- 데이터 구축 규모
데이터 구축을 위한 수집 작업이 개시된 2023년 07월 현재 기준 19대 ~ 21대 국회에서 공개한 약 6만 개의 보고서를 선별 및 수집하고 계류 의안, 결의안, 예산안 등을 제외한 법률 검토 보고서 3만개를 선정하여 요약 데이터 구축 대상으로 하였음.데이터 구축 규모 회기 전체 의안 수 21대 (2020-2024) 21,961 20대 (2016-2020) 25,221 19대 (2012-2016) 18,926 [의안정보시스템의 제공데이터(2023.07월 기준)]
- 데이터 분포(충분성, 균등성, 편향성 여부 확인)
데이터 수집 결과 30,000건의 검토보고서를 확보하였고, 각 보고서는 1개 이상의 쟁점(논의 내용)을 포함하고 있어 요약 데이터셋(json 산출물)은 각 쟁점을 하나의 단위로 하도록 구축되었음.데이터 분포 회기 구축 데이터셋 비율 21대 (2020-2024) 8,312 14% 20대 (2016-2020) 31,972 54% 19대 (2012-2016) 18,926 32% [법률안 검토보고서 구축 결과 요약]
데이터셋은 다양한 소관위원회 별 취급 법안들에 대한 효율적인 비율 유지를 위해 4개의 그룹으로 분류하여 각 그룹 간 동등한 비율을 달성하였음.[그룹1] - 데이터셋 12,219개(24%, 95MB)
공적연금강화와노후빈곤해소를위한특별위원회, 국회운영위원회, 기획재정위원회,
국가정보원등국가기관의정치적중립성강화를위한제도개선특별위원회,
민생경제안정특별위원회, 법제사법위원회, 사법개혁특별위원회, 정무위원회,
아동·여성대상성폭력대책특별위원회, 예산결산특별위원회, 정치개혁특별위원회,
평창동계올림픽및국제경기대회지원특별위원회, 헌법개정및정치개혁특별위원회[그룹2] - 데이터셋 9,986개(20%, 71MB)
과학기술정보방송통신위원회, 교육과학기술위원회, 교육문화체육관광위원회
교육위원회, 국방위원회, 미래창조과학방송통신위원회, 산업통상자원위원회
산업통상자원중소벤처기업위원회, 여성가족위원회, 외교통상통일위원회
외교통일위원회, 정보위원회, 지식경제위원회[그룹3] - 데이터셋 13,801개(27%, 92MB)
국토교통위원회, 국토해양위원회, 문화체육관광위원회, 안전행정위원회, 행정안전위원회[그룹4] - 데이터셋 14,844개(29%, 102MB)
농림축산식품해양수산위원회, 보건복지위원회, 환경노동위원회
-
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드- 활용 모델
- 학습 모델 알고리즘학습 모델 알고리즘 AI모델 task AI모델(후보) 성능 지표 및 목표값 Data I/O 이해 BART ROUGE-1 (40.6 이상) Input data :
Text Sequence
output data :
Text Sequence● BART는 sequence-to-sequence 모델을 사전학습하기 위한 denoising autoencoder(DAE)로 사용되며, 텍스트를 변형시킨 후 원본 텍스트로 재구성하도록 훈련
● BART 모델은 양방향 트랜스포머 Encoder와 Autoregressive 트랜스포머 Decoder를 결합한 구조
● BART는 입력 문장의 양방향 정보를 이해하면서도 이전 문장의 정보를 활용하여 다음 단어를 예측할 수 있는 장점 존재
● 이러한 특징으로 인해 BART는 생성 태스크와 이해 태스크 모두에 적용 가능하며, 기존의 BERT보다 성능이 좋을 가능성 높음
● BART는 다양한 corruption 방식을 활용하여 입력 텍스트를 손상시키고, 이를 복원하도록 학습● 디지털 대전환의 가속화로 국내 기업·기관의 경쟁력 향상 및 인공지능의 활성화를 위한 AI 산업 기반 조성 및 활성화
● 디지털플랫폼정부에서는 다양한 데이터를 연계·활용하므로 다양한 데이터를 통합하는 데이터 아키텍처의 구조화가 필요하며, 디지털 대전환 시대를 맞아 인공지능 학습용 데이터 구축ㆍ개방을 통해 전 산업에 지능화 혁신 및 성장 견인
● 법률안 검토보고서 요약 서비스, Legel Tech 서비스, 국회 회의록 기반 지식검색 질의응답 모델을 활용하여 챗GPT 관련 신규 비즈니스 모델 개발 및 유관 기업 기술 제휴 및 MOU 등 추진
● 인공지능 학습용 데이터 수집, 정제ㆍ가공, 검증 등 전주기에 직접고용과 함께 크라우드소싱 방식을 도입하여 대규모 일자리 창출
● 한국 고유의 언어자원을 중심으로 한 기술 기반 영역의 설정은 AI 기술 수준의 추격과 경쟁력 있는 기술 영역의 선점
● 법률 제정 및 개정에 대한 최신 정보를 쉽게 파악할 수 있는 요약 서비스 제공
● 지식기반 AI 질의응답 서비스를 통한 국민들과의 소통의 창 활성화 -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드- 어노테이션 포맷 및 규격
어노테이션 포맷 및 규격 No 항목명 타입 구분 항목 설명 예시 1 id number 필수 데이터셋 번호 1 2 bill_id number 필수 의안번호 PRC_B2R1D0S3P3N0Q1L0W0W9Y0M5T0P6A3 3 title string 필수 검토보고서 제목 국가균형발전 특별법 일부개정법률안 검토보고서 4 committee string 필수 소관위원회 기획재정위원회 5 field string 선택 해당 법 분야 국가균형발전특별법 6 enactment string 선택 제정 여부 N 7 amendment string 선택 개정 여부 Y 8 proposer string 필수 대표 발의자 최인호 9 advisor string 필수 담당 전문위원 송대호 10 date string 필수 보고서 게시일 2021-06-28 11 session number 필수 해당 국회 회기 21 12 paragraph string 필수 요약대상 원문 제정안 심사과정에서 현행 산업위기대응특별지역 규정의 보완 실익 및 그 밖의 긴급 지원 및 사전 관리 사항의 필요성 등을 종합적으로 검토하여 별도의 특별법 제정 여부를 결정할 필요가 있다고 보임 13 ext_summary string 필수 추출요약 데이터 현행 산업위기대응특별지역 규정의 보완 실익 및 그 밖의 긴급 지원 및 사전 관리 사항의 필요성 등을 종합적으로 검토하여 별도의 특별법 제정 여부를 결정할 필요가 있다고 보임 14 gen_summary string 필수 생성요약 데이터 산업위기대응특별지역 규정을 검토하여 별도 특별법의 제정 필요성에 대한 논의가 필요함. 15 teminology string 선택 전문용어 무역분쟁, 수출, COVID-19, 산업위기지역 16 disposal string 선택 의안 처리결과 대안반영폐기 - 어노테이션 데이터 정보구조 정의
어노테이션 데이터 정보구조 정의 항목 설명 JSON 포맷 구축 형태 id 데이터셋 번호 메타
정보
(자동)bill_id 의안번호 session 해당 국회 회기 title 의안 검토보고서명 committee 소관위원회명 date 보고서 게시일자 메타
정보
(반자동)field 해당 법 분야 enactment 제정여부 amendment 개정여부 proposer 대표발의자 advisor 담당 전문위원 가공
작업
(수동)paragraph 요약 대상 원문(원천데이터) ext_summary 주요 문장 gen_summary 생성요약 데이터 terminology 전문용어 엔티티 disposal 의안 처리결과 -
데이터셋 구축 담당자
수행기관(주관) : ㈜비네아
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 민병원 042-716-0095 [email protected] 총괄 책임자 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜비네아 데이터 가공 / 검수 / 품질 나라이이넷㈜ 데이터 가공 / 검수 이지메타㈜ 데이터 획득 / 정제 / 가공 / 검수 ㈜무하유 학습 모델 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 서민석 02-584-3489 [email protected] AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 김준경 02-6233-8400 [email protected] 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 서민석 02-584-3489 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.