콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#자연어

NEW 생성형AI 국회 회의록 기반 지식 검색 데이터

국회 회의록 기반 지식 검색 데이터 아이콘 이미지
  • 분야한국어
  • 유형 텍스트
구축년도 : 2023 갱신년월 : 2024-10 조회수 : 6,030 다운로드 : 460 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.1 2024-10-30 데이터 최종 개방
    1.0 2024-06-28 데이터 개방 Beta Version

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2024-11-21 산출물 수정, 구축업체 정보 수정 활용 가이드라인
    2024-06-28 산출물 공개 Beta Version

    소개

    - 국회 회의록에서 발언을 질문과 답변으로 분리하고, 그 질문과 답변을 활용하여  생성한 인공지능 학습용 데이터셋

    구축목적

    - 기계학습이 가능한 학습 데이터를 구축하여, 지능형 입법활동 지원과 인공지능 연구 및 응용 서비스 지원
    - 인공지능을 통해 국민들이 정치에 대한 관심과 참여를 제고
  • - 데이터 구축 규모

    데이터 구축 규모
    데이터 형태 원문 규모 원천데이터 규모 최종 어노테이션 규모
    PDF, XLSX 회의록 11,827건 질의응답쌍 44,033건 질의응답쌍 44,033건

     

    - 데이터 분포(회의별 분포)

    데이터 분포(회의별 분포)
    회의구분 건수 비율
    국정감사 17,928 40.71%
    본회의 1,396 3.17%
    소위원회 18,015 40.91%
    예산결산특별위원회 2,306 5.24%
    특별위원회 4,388 9.96%
    합계 44,033 100%

     

    - 데이터 분포(대수별 분포)

    데이터 분포(대수별 분포)
    대수 건수 비율
    15대 151 0.34%
    16대 1,379 3.14%
    17대 2,036 4.62%
    18대 1,963 4.46%
    19대 1,929 4.38%
    20대 26,209 59.52%
    21대 10,366 23.54%
    합계 44,033 100%

     

    - 데이터 분포(질문 유형별 분포)

    데이터 분포(질문 유형별 분포)
    질문유형 건수 비율
    추출형 40,431 91.82%
    단답형 3,602 8.18%
    합계 44,033 100%
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    - 활용모델
      - 모델학습
    Alpaca(Koalpaca) 모델은 2023년 3월 Meta에서 공개된 대형 언어 모델인 LLaMA를 기반으로 개발. 
    Alpaca는 Meta의 LLaMA-7B 모델을 베이스로 하여 Instruction tuning을 진행하여 개발. 
    모델은 Instruction following 모델로, 인간의 지시에 따라 결과물을 생성하는 역할을 수행. 
    self-instruct 연구는 대형 언어 모델을 사용하여 데이터를 생성하고, 해당 데이터로 다시 대형 언어 모델을 학습시키는 방법론.
    Alpaca에서는 self-instruct 방법론을 단순화하면서도 베이스라인 모델을 개선하여 데이터 생성에 활용함

    AI 모델 상세
    AI모델 task AI모델(후보) 성능 지표 및 목표값 Data I/O
    이해 Alpaca BLEU-2 (Score 20)
    F1-Score (65.4 이상)
    Input data :
    Text Sequence
    output data :
    Text Sequence
    AI모델 이미지

     

    - 학습조건 
      1) 질의 생성

    질의 생성
    no 파라미터 파라미터 값
    1 epoch 3
    2 learning_rate 1.00E-04
    3 weight decay 0.001
    4 per_device_batch_size 3
    5 gradient_accumulation_steps 64
    6 seed 911


      2) 질의 응답

    질의 응답
    no 파라미터 파라미터 값
    1 epoch 3
    2 learning_rate 1.00E-04
    3 weight decay 0.001
    4 per_device_batch_size 3
    5 gradient_accumulation_steps 64
    6 seed 911

      ○ 서비스 활용 시나리오 
        ● 국회에서 다룬 안건 및 의원들의 발언들을 토대로 한 국회 회의록 기반의 챗봇 서비스
        ● 국회 회의록 자료 기반으로 안건별 심사/논의 내용을 문맥 분석을 통해 질의응답쌍 데이터 셋을 구축하여, 질 좋은 학습데이터로 적극 활용으로 자연어 처리 기반을 둔 지식기반 AI 질의응답 서비스, Legal Tech 서비스 개발
        ● 각 법안에 대해 안건 상정부터 제·개정에 따른 다양한 의견들을 참조 및 분석 서비스 제공
        ● 발언자별 발언 내용 분석을 포함한 다양한 의정활동을 돕는 국회 회의록 기반의 기계학습용 기초데이터

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    - 어노테이션 포맷 및 규격

    어노테이션 포맷 및 규격
    No. 항목명 타입 필수
    구분
    항목 설명 예시
    Level1 Level2
    1 filename   string 필수 원천데이터 이름 "SRC_21대_제382회_제1차_소위원회_
    산업통상자원중소벤처기업위원회-중소
    벤처기업소위원회_0001(050173).xlsx"
    2 original   string 필수 원문 URL http://likms.assembly.go.kr/rec...
    3 id   string 필수 ID 501730001
    4 date   string 선택 회의일자 2020년9월9일(수)
    5 conference
    number
      number 필수 회의번호 50173
    6 question
    number
      number 필수 질문번호 1
    7 meeting
    name
      string 필수 회의명 소위원회
    8 generation
    number
      string 필수 국회 대 21
    9 committee
    name
      string 필수 위원회 명 산업통상자원중소벤처기업위...
    10 meeting
    number
      number 필수 회 수 제382회
    11 session
    number
      number 필수 차 수 1차
    12 agenda   string 필수 안건 1. 중소기업기본법 일부개정법률...
    13 law   string 해당시
    필수
    법안 중소기업기본법 일부개정법률...
    14 QnA type   string 필수 질문 유형 추출형
    15 context   string 필수 컨텍스트 전체
    원문
    취지에 동의합니다. 다만 협동조...
    16 context learn   string 필수 학습용 컨텍스트 협동조합 내에서 조합장과 조합원...
    17 context
    summary
    summary q string 필수 생성요약 질문 협동조합에서 조합장과 조합원... 
    summary a string 필수 생성요약 답변 정부는 조합원들의 의견이 반영...
    18 questioner
    name 
      string 필수 질문자 이름 조정훈
    19 questioner
    ID
      number 해당시
    필수
    질문자 의원 ID 7616
    20 questioner  ISNI    number 해당시
    필수
    질문자 의원 ISNI 479096489
    21 questioner affiliation   string 해당시
    필수
    질문자 소속 -
    22 questioner position   string 해당시
    필수
    질문자 직위 위원
    23 question tag number 필수 발언순번 29
    comment string 필수 질문 내용 취지에 동의합니다. 다만 협동조...
    keyword string 해당시
    필수
    키워드 협동조합,조합장,조합원,자금
    24 answerer name   string 필수 응답자 이름 강성천
    25 answerer ID   number 해당시
    필수
    응답자 의원 ID -
    26 answerer
    ISNI
      number 해당시
    필수
    응답자 의원 ISNI -
    27 answerer
    affiliation
      string 해당시
    필수
    응답자 소속 중소벤쳐기업부
    28 answerer
    position
      string 해당시
    필수
    응답자 직위 차관
    29 answer tag number 필수 발언순번 30
    comment string 필수 응답 내용 조합원과 조합장의 갈등은 항상...
    keyword string 해당시
    필수
    키워드 조합원,조합장,중소기업자,협동조합
  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜비네아
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    민병원 042-716-0095 [email protected] 총괄 책임자
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    ㈜비네아 데이터 가공 / 검수
    ㈜퓨쳐누리 데이터 획득, 수집 / 가공 / 검수
    ㈜무하유 학습 모델
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    변회균 070-8014-5292 [email protected]
    서상원 070-8014-5292 [email protected]
    AI모델 관련 문의처
    AI모델 관련 문의처
    담당자명 전화번호 이메일
    김준경 02-6233-8400 [email protected]
    저작도구 관련 문의처
    저작도구 관련 문의처
    담당자명 전화번호 이메일
    서상원 070-8014-5292 [email protected]
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.