-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2023-11-24 데이터 최종 개방 1.1 2023-09-14 데이터 재연결 1.0 2023-06-28 데이터 개방(Beta Version) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2023-11-27 데이터 최종 개방 소개
저작재산권 이용허락을 확보한 의료 및 법률 분야 핵심 전문 도서와 분야 전문성과 최신성을 갖춘 특허(의료), 판결문(법률)을 기반으로 1억 어절의 데이터셋을 구축
구축목적
전문 분야 한국어 말뭉치 표본을 제공하고 자연어처리 산업 활성화와 의료 및 법률 분야 인공지능 솔루션 개발 확대에 기여하고자 함
-
메타데이터 구조표 데이터 영역 법률 데이터 유형 텍스트 데이터 형식 txt 데이터 출처 도서, 특허, 판결문 라벨링 유형 텍스트 라벨링 형식 JSON 데이터 활용 서비스 의료 및 법률 분야에 대한 질의응답 및 상담 서비스, 의료 분야에 대한 진료과 추천 서비스, 법률 분야에 대한 판례 요약 서비스 데이터 구축년도/
데이터 구축량2022년/102,300,332어절 -
Ⅰ. 데이터 구축 규모
- 원천데이터 : 저작재산권 이용허락을 확보한 의료 및 법률 전문 도서와 특허(의료), 판결문(법률)을 기반으로 126,513건 원천데이터 구축
- 라벨링데이터 : 확보된 원천데이터로 총 102,300,332어절 구축Ⅰ. 데이터 구축 규모 언어 구분 원천데이터 라벨링데이터 한국어 의료 46,883건 49,217,568어절 법률 79,630건 53,082,764어절 합 126,513건 102,300,332어절 Ⅱ. 데이터 분포
1. 문장 어절 수 분포Ⅱ. 데이터 분포 1. 문장 어절 수 분포 어절 구간 원천데이터 수 비율 10 어절 미만 1 0.00% 10 어절 ~ 20 어절 10 0.01% 21 어절 ~ 30 어절 27 0.02% 31 어절 ~ 40 어절 33 0.03% 41 어절 ~ 50 어절 61 0.05% 51 어절 ~ 126,381 99.90% 합계 126,513 100% 2. 도서 출판 기간 분포
Ⅱ. 데이터 분포 2. 도서 출판 기간 분포 출판 기간 원천데이터 수 비율 2010년 미만 7,710 6.09% 2010년 ~ 2011년 6,017 4.76% 2012년 ~ 2013년 9,059 7.16% 2014년 ~ 2015년 13,202 10.44% 2016년 ~ 2017년 15,050 11.90% 2018년 ~ 2019년 23,637 18.68% 2020년 ~ 51,838 40.97% 합계 126,513 100% 3. 전문 용어 분포
Ⅱ. 데이터 분포 3. 전문 용어 분포 대분류 중분류 전문 용어 건수 비율 의료 STUDY_FIELD FD_MEDICINE 44,230 0.65% THEORY TR_MED_PROCEDURE 398,906 5.86% TR_MED_MEASURE 169,416 2.49% TR_MED_OBSERVATION 12,193 0.18% ARTIFACTS AFW_MED_DEVICE 180,709 2.66% ORGANIZATION OGG_MEDICINE 11,397 0.17% ANIMAL AM_PART 268,171 3.94% TERM TMM_DISEASE 685,799 10.08% TMM_SYMPTOM 305,514 4.49% TMM_DRUG 238,190 3.50% TM_CELL_TISSUE_ORGAN 1,018,956 14.98% 법률 ORGANIZATION OGG_LAW 374,884 5.51% CIVILIZATION CV_LAW 1,352,497 19.88% CV_TAX 32,807 0.48% EVENT EV_OTHERS 12,405 0.18% TERM TML_PARTY 470,796 6.92% TML_PROCEDURAL_ACTS 208,849 3.07% TML_LITIGATION 165,950 2.44% TML_PROVISION 508,108 7.47% TML_CASE 187,276 2.75% TML_JUDGMENT 155,177 2.28% 합계 6,802,230 100% 4. 분류(독해 난이도) 분포
Ⅱ. 데이터 분포 4. 분류(독해 난이도) 분포 난이도 수준 원천데이터 수 비율 하(일반인이 쉽게 이해) 18,911 14.95% 중(일반인이 어느 정도 이해) 55,643 43.98% 상(일반인이 이해하기 어려움) 51,959 41.07% 합계 126,513 100% 5. 문서 표준 분류 분포
5.1 분야 구성비Ⅱ. 데이터 분포 5. 문서 표준 분류 분포 5.1 분야 구성비 분야 원천데이터 수 어절 수 비율(어절 수 기준) 의료 46,883 49,217,568 48.11% 법률 79,630 53,082,764 51.89% 합계 126,513 102,300,332 100% 5.2 분야별 카테고리 구성비
Ⅱ. 데이터 분포 5. 문서 표준 분류 분포 5.2 분야별 카테고리 구성비 분야 카테고리 원천데이터 수 비율 의료 가정의학 431 0.34% 간호학 7 0.01% 내과학 6,963 5.50% 마취과학 434 0.34% 면역학/병리학/임상병리학 2,461 1.95% 미생물학/기생충학 1,370 1.08% 방사선과학 3,864 3.05% 비뇨기과학 1,110 0.88% 산부인과학 1,630 1.29% 생리학 391 0.31% 생화학 679 0.54% 성형외과학 640 0.51% 소아과학 936 0.74% 신경과학 763 0.60% 신경외과학 1,658 1.31% 안과학/임상안광학 821 0.65% 약학/약리학 3,817 3.02% 예방의학/직업환경의학 1,453 1.15% 응급의학 2,299 1.82% 이비인후과학 2,100 1.66% 일반외과학 1,573 1.24% 재활의학/물리치료학/작업치료학 5,767 4.56% 정신과학 496 0.39% 정형외과학 1,873 1.48% 치의학 2,003 1.58% 피부과학 298 0.24% 해부학 620 0.49% 흉부외과학 426 0.34% 법률 경제법 1,547 1.08% 교육법 150 0.12% 국제법(공법) 305 0.24% 국제법(사법) 1,252 0.99% 노동법등 704 0.56% 민법일반 12,941 10.23% 민사소송법 4,548 3.59% 법학일반 4,208 3.33% 상사법등 11,102 8.78% 소비자/보호법 555 0.44% 의료/보건법 1,231 0.97% 인권/국제인권법 10 0.01% 조세/세법 1,006 0.80% 중재법 6 0.00% 지방자치법 395 0.31% 지적재산권법 3,223 2.55% 친족/상속법 695 0.55% 토지/부동산/주택/농지법 1,328 1.05% 해사/해상/해상운송/해상보험법 690 0.55% 행정법 9,473 7.49% 헌법 12,196 9.64% 형법/형사소송법등 11,676 9.23% 환경/교통법 389 0.31% 합계 126,513 100% -
-
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 KM-BERT NER fine-tuning 성능 비교 Text Generation BERT F1-Score 0.775 점 0.78 점 2 KL-BERT NER fine-tuning 성능 비교 Text Generation BERT F1-Score 0.885 점 0.89 점 3 KM-BERT 언어 모델 성능 Text Generation BERT Perplexity % 153.72 % 4 KL-BERT 언어 모델 성능 Text Generation BERT Perplexity % 87.11 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드1. 데이터포맷
1. 데이터포맷 구분 획득(수집) 단계 정제 단계 가공(라벨링) 단계 데이터 구분 원시데이터 원천데이터 최종데이터 데이터 형태 디지털 파일 디지털 파일 디지털 파일 데이터 포맷 pdf, hwp, MS-Word txt JSON 2. 원시데이터(도서) 메타정보
2. 원시데이터(도서) 메타정보 No. 속성명 필수여부 속성 및 내용 1 BOOK ID Y 도서 ID 2 Book.name Y 도서명 3 Authors Y 저자명 4 Translators N 번역자명 5 Year Y 도서 출판일 6 Page Y 총 페이지수 7 Publisher Y 출판사명 8 Category Y 도서 카테고리 3. 어노테이션 포맷
3. 어노테이션 포맷 No. 속성명 필수여부 Type 항목 설명 예시 1 totalcount Y number 카운트 2 data Y object 데이터셋 2-1 data[].book_id Y string 도서식별 ID MTB000001 LTB000001 2-2 data[].category Y string 카테고리 외과, 헌법 등 도서의 카테고리 2-3 data[].popularity Y number 라벨링 난이도 1(하), 2(중), 3(상) 2-4 data[].keyword N array 키워드 [“포도당”, “포도당신합성”, “단백질 이화작용”] 2-5 data[].text Y string 텍스트 본문 한국의 동물 보호법은 1991년 단 12개의.. 2-6 data[].word_segment Y number 텍스트 어절 수 2-7 data[].publication_ymd Y string 도서 출판일 예시) 20201020 특허 출원일 판결문 선고일 2-8 data[].NE N object 라벨링 오브젝트 2-8-1 data[].NE[].id N number 라벨링 순번 2-8-2 data[].NE[].entity N string 라벨링 대상 텍스트 동물 보호법 2-8-3 data[].NE[].type N string 카테고리 타입 CV_LAW,AM_PART.. 2-8-4 data[].NE[].begin N number Target 시작 위치 2-8-5 data[].NE[].end N number Target 끝 위치 4. 라벨링데이터 예시
{
"book_id": "MTB001487",
"category": "소아과학",
"popularity": 3,
"keyword": [
"신중론",
"손상",
"물리치료",
"뇌성마비",
"근거중심의 진단과 예후"
],
"text": "이를 위해 해리스(Harris, 1996)와 골든(Golden, 1980)은 임상의사 결정에 따른 중재의 과학적 근거를 분석할 때...(중략)...평가의 필요성을 설명하면서 신중론을 얘기했다.",
"word_segment": 571,
"publication_ymd": "20220302",
"NE": [
{
"id": 1,
"entity": "물리치료",
"type": "TR_MED_PROCEDURE",
"begin": 847,
"end": 850
},
{
"id": 2,
"entity": "뇌성마비",
"type": "TMM_DISEASE",
"begin": 1216,
"end": 1219
},
{
"id": 3,
"entity": "소아물리치료",
"type": "TR_MED_PROCEDURE",
"begin": 1365,
"end": 1370
},
{
"id": 4,
"entity": "의학",
"type": "FD_MEDICINE",
"begin": 1390,
"end": 1391
},
{
"book_id": "LTB063045",
"category": "상사법등",
"popularity": 2,
"keyword": [
"파산선고",
"보험금청구권",
"고지의무",
"보험금청구",
"상법"
],
"text": "하지만 보험계약자의 권리가 일정한 범위 이내에서 제한을 받는다. ...(중략)...비로소 보험계약을 해지 또는 해제할 수 있다(제650조 제3항).",
"word_segment": 567,
"publication_ymd": "20210720",
"NE": [
{
"id": 1,
"entity": "계약해지권",
"type": "CV_LAW",
"begin": 49,
"end": 53
},
{
"id": 2,
"entity": "보험금청구권",
"type": "CV_LAW",
"begin": 167,
"end": 172
},
{
"id": 3,
"entity": "제639조 제2항",
"type": "TML_PROVISION",
"begin": 348,
"end": 356
},
{
"id": 4,
"entity": "보험금청구권",
"type": "CV_LAW",
"begin": 423,
"end": 428
},
...(중략) -
데이터셋 구축 담당자
수행기관(주관) : 고려대학교산학협력단
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김종호 02-919-8565 [email protected] 데이터 정제/가공 및 레이블 수행기관(참여)
수행기관(참여) 기관명 담당업무 군자출판사(주) 의료 말뭉치 원천 데이터 수집 ㈜나라지식정보 데이터 품질 검수 ㈜박영사 법률 말뭉치 원천 데이터 수집 ㈜범문에듀케이션 의료 말뭉치 원천 데이터 수집 법문사 법률 말뭉치 원천 데이터 수집 한양대학교산학협력단 모델 개발 및 검증 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 김종호 02-919-8565 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.