-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2024-10-30 데이터 최종 개방 1.0 2024-06-28 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-06-28 산출물 공개 Beta Version 소개
- 국내 법률에 사용되는 용어에 대한 검출, 추론, 분야별 법률 관계성을 학습할 수 있는 데이터
구축목적
- 법률 문서 내 포함된 법률 지식과 용어 개념 기반 법률 관계성을 학습할 수 있는 모델을 통해 데이터 활용성을 높이는 데 목적을 둠
-
메타데이터 구조표 데이터 영역 법률 데이터 유형 텍스트 데이터 형식 csv 데이터 출처 자체 수집 (국세법령정보시스템) 라벨링 유형 트리플 라벨링 형식 json 데이터 활용 서비스 지능형 법률정보시스템 데이터 구축년도/
데이터 구축량2023년/원천데이터 39,035건 / 라벨링 데이터 39,035건 / 서브라벨링 데이터 10,087건 -
- 데이터 구축 규모 및 데이터 분포
· 원천/라벨링 데이터데이터 구축 규모 및 데이터 분포· 원천/라벨링 데이터 문서 종류 세법 분야 (클래스) 데이터 수(건) 비율 (%) 판례문서 국세기본법 1,607 4% 국세징수법 4,753 15% 법인세 5,977 15% 부가가치세 7,754 19% 상속증여세 3,943 10% 양도소득세 6,220 14% 종합소득세 6,204 12% 기타* 2,490 6% 법령 법률 15 최소 수량 이상
구축시행령 17 시행규칙 17 관련 법령 법률 15 시행령 14 시행규칙 9 합계 39,035 100% 트리플 라벨링 1,003,263 100% · 서브라벨링 데이터
데이터 구축 규모 및 데이터 분포· 서브라벨링 데이터 문서 종류 세법 분야 (클래스) 데이터 수(건) 비율 (%) 판례문서 국세기본법 1,250 12.40% 국세징수법 1,250 12.40% 법인세 1,250 12.40% 부가가치세 1,250 12.40% 상속증여세 1,250 12.40% 양도소득세 1,250 12.40% 종합소득세 1,250 12.40% 기타* 1,250 12.40% 법령 법률 15 0.10% 시행령 17 0.20% 시행규칙 17 0.20% 관련 법령 법률 15 0.10% 시행령 14 0.10% 시행규칙 9 0.10% 합계 10,087 100% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드- 활용모델 1 : 지식그래프 기반 법령 간 유사관계 추출 모델 (RotatE)
· 모델 학습 : 본 모델은 법령 간 유사관계를 학습 및 추론하기 위해 triple data 중 법령 간 유사관계를 의미하는 'similar_to' 로 이뤄진 triple 약 3만 5천개로 학습/검증/평가 데이터를 준비할 것을 제안함. 이 모델은 (S, P, O) 구조의 triple 데이터를 학습하며, head, relation (S, P) 에 대한 tail (‘O’) 를 예측하는 방식으로 학습이 진행- 활용모델 2 : 판결문에 적용된 법령 예측 모델 (sRoBERTa + RotatE)
· 모델 학습 : 판결문에 적용된 법령을 예측하기 위해 먼저 판결문을 임베딩하여 유사도가 높은 판결문을 찾고, 해당 판결문에 적용된 법령을 바탕으로 쿼리 판결문의 적용 법령을 예측하는 모델을 제안함. 모델은 샴네트워크의 구조로 가중치를 공유하고 있으며, 적용법령이 비슷한 판결문은 positive, 다른 판결문은 negative로 학습하는 contrastive learning 방식을 활용- 서비스 활용 시나리오 :
· 구축한 모델은 법률 적용 확인 및 법학 관련 연구에 활용 가능
· 법률 적용 확인 : 사용자가 특정 사건이나 상황에 대한 판결문을 입력하면 해당 판결문에 어떤 법령이 적용되었는지 신속하게 분석 가능. 사용자에게 적용된 법령의 세부 내용과 함께 관련된 판례를 제시하며 이해를 도울 수 있음.- 법학 관련 연구 : 특정 주제에 대한 판례문에 관련된 법령을 확인 후 분석 가능함. 특정 주제에 대한 다양한 판례를 탐색하고, 적용 법령에 대해 쉽게 확인 가능
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드- 데이터 설명
- 국내 법률문서에서 주어(Subject)와 목적어(Object)에 해당하는 엔티티를 정의한 Class 분류에 맞춰 정제 후, 관계용어(Predicate)를 매칭하여 SPO 기반 트리플 라벨링 데이터 구축· 엔티티 Class 정의
엔티티 Class 정의 No. Class 설명 예시 1 판례(precedent) 판례문 자체를 나타내는 개체 판례제목, 판례번호, 판례내용, 판결날짜 등 2 소송사건(case) 판례와 관련된 소송 사건을 나타내는 개체 사건번호 등 3 법원(court) 판례를 결정한 법원을 나타내는 개체 법원명 등 4 판사(Judge) 판례를 결정한 판사를 나타내는 개체 판사명 등 5 주문(disposition) 판결의 결론을 나타내는 개체 원고 청구 인용, 원고 청구 기각, 원고 청구 각하, 피고인의 유죄, 피고인의 무죄 등 6 피고(defendant) 판례의 피고를 나타내는 개체 비식별화된 피고명 혹은 피고명 등 7 원고(plaintiff) 판례의 원고를 나타내는 개체 비식별화된 원고명 혹은 원고명 등 8 법률(law) 판례에 적용된 법률을 나타내는 개체 법률명 등 9 행동(action) 행동을 나타내는 개체 행동 내용 등 10 소가(dispute) 민사 재판에서의 소송물의 가액 소송 가액 등 11 벌(penalty) 벌을 나타내는 개체 벌금, 형량 등 · 관계용어 (Predicate) Type 정의
관계용어 (Predicate) Type 정의 No. Type 설명 예시 1 Connect (연결되다) S는 O와 연결되다 판례번호는 심판청구사건번호와 연결된다 2 Judge (판결하다) S는 O를 판결하다 판례번호는 판결 유형을 판결한다 3 decide_of(결정하다) S는 O를 결정하다 판결 제목은 주문을 결정한다 4 Suit (소를 제기하다) S가 O에게 소를 제기하다 원고가 피고에게 소를 제기하다 5 Act (행하다) S가 O를 행하다 원고가 원고 행동을 행하다 6 Issue (쟁점이다) S의 쟁점은 O이다 판례번호의 쟁점은 판례 제목이다 7 refer_to(참조하다) S가 O를 참조하다 법원은 참조조문(관련법령)을 참조한다 8 Cause (야기하다) S가 O를 야기하다 피고는 판례번호를 야기했다 9 was made (만들어지다) S는 O에 의해 만들어지다 판례번호는 법원에 의해 만들어졌다 10 Effect (영향을 끼치다) S는 O에 영향을 끼치다 주문은 판결 유형에 영향을 끼친다 - 어노테이션 포맷 구조
어노테이션 포맷 구조 구분 속성명 타입 필수
여부설명 범위 비고 1 Dataset Object Y 1-1 DataSetNum string Y 데이터셋번호 Feb-90 2 info Object Y 2-1 DocType string Y 2-2 Precedent Object Y (DocType = 판례) 2-2-1 PrecedentID string Y 일련번호(판례) 2-2-2 PrecedentCategory string Y 세법 분야 . 국세기본법
국세징수법
법인세
부가가치세
상속증여세
양도소득세
종합소득세
기타
법령-법률
법령-시행령
법령-시행규칙
관련법령-법률
관련법령-시행령
관련법령-시행규칙2-2-3 PrecedentNum string Y 사건번호 2-2-4 PrecedentLevel string Y 판결유형 1심, 2심, 3심, 4심,
5심, 6심, 조심, 국심2-2-5 PrecedentDate string Y 선고일자 2-2-6 PrecedentName string Y 판결제목 2-2-7 PrecedentKinds string Y 소송유형 2-2-8 PrecedentCourt string Y 법원 2-2-9 PrecedentPlaintiff string Y 원고, 상고인 2-2-10 PrecedentDefendant string Y 피고, 피상고 2-2-11 PrecedentLegal string Y 적용법령 2-2-12 PrecedentContent string Y 판결문 원문 2-3 StatuteInfo Object N 2-3-1 StatuteNum string N 일련번호(법령) 2-3-2 StatuteSubject string N 법령 2-3-3 StatuteKinds string N 법령구분 2-3-4 Office string N 소관부처 2-3-5 DateEnforcement string N 시행일자 2-3-6 ForceDate string N 공포일자 2-3-7 ForceID string N 공포번호 3 Entities array Y 트리플 - Object N 3-1 Topic string N 엔티티 3-2 Link string N 술어 3-3 Thing string N 엔티티값 4 Triple array 트리플 - Object Y SPO 관계 4-1 Subject string Y 주어 엔티티 4-2 Predicate string Y 관계용어 connect, judge,
decide_of, suit,
issue, act, refer_to,
cause, was made,
effect4-3 Object string Y 목적어 엔티티 - 라벨링 데이터 예시
- 서브라벨링데이터 예시
- 국내 법률문서 원문 전체 텍스트화. 온점(.) 기준 ‘∖n’ 입력하여 문장단위 구분 -
데이터셋 구축 담당자
수행기관(주관) : ㈜타임게이트
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김민관 02-575-0409 [email protected] 품질관리 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜엠티데이타 수집 아이티에스노아 정제 호원소프트 가공 아이삭 품질관리 오노마에이아이 모델링 법률사무소 진선 데이터 설계, 법률 자문 법무법인 율촌 데이터 설계, 법률 자문 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 이정기 02-575-0409 [email protected] 김민관 02-575-0409 [email protected] AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 송의한 010-3211-6140 [email protected] 손영관 010-4272-7555 [email protected] 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 이승주 070-4280-5403 [email protected] 구균모 070-4280-5403 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.