-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2024-10-30 데이터 최종 개방 1.0 2024-06-28 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-06-28 산출물 공개 Beta Version 소개
- 문서 내 표의 내용 정보를 구조화된 문장으로 자동 추출하기 위한 표 이미지와 설명문 텍스트 데이터 쌍 구축
구축목적
- 표 이미지 및 이미지에 대응하는 내용 정보 텍스트를 쌍으로 구축하여 표 이미지의 내용 정보에 대한 요약문을 자동 생성하고, 표에 대한 다양한 관점을 제공하는 해설 문장을 생성하기 위함
-
메타데이터 구조표 데이터 영역 영상이미지 데이터 유형 텍스트 , 이미지 데이터 형식 jpg, html 데이터 출처 공공누리 데이터 라벨링 유형 내용요약(자연어) 라벨링 형식 json 데이터 활용 서비스 표 요약/설명 서비스, 장애인용 음성인식 및 보이스 생성 서비스, 설문 요약 서비스 등 데이터 구축년도/
데이터 구축량2023년/404,080건 -
- 데이터 통계
어노테이션 포맷 1) 영상 데이터 데이터 종류 데이터 형태 원천데이터 규모 라벨링데이터 규모 어노테이션 규모 요약문 설명문 기본표 표 이미지 139,995장 139,995건 139,995건
(1문장 생성)139,995건
(3문장 생성)표 내용정보 139,995건 조합표 표 이미지 57,856장 57,856건 57,856건
(1문장 생성)57,856건
(3문장 생성)표 내용정보 57,856건 병합표 표 이미지 125,162장 125,162건 125,162건
(1문장 생성)125,162건
(3문장 생성)표 내용정보 125,162건 콘텐츠 병합표 표 이미지 81,067장 81,067건 81,067건
(1문장 생성)81,067건
(3문장 생성)표 내용정보 81,067건 총계 808,160건 404,080건 404,080건
(1문장 생성)404,080건
(3문장 생성)
- 데이터 분포- 표 종류 분포
데이터 분포 - 표 종류 분포 표 종류 데이터 수량 비율 기본표 139,995 34.65% 조합표 57,856 14.32% 병합표 125,162 30.97% 콘텐츠 병합표 81,067 20.06% 합계 404,080 100.00% - 표 분야 분포
데이터 분포 - 표 분야 분포 표 분야 데이터 수량 비율 경제 74,301 18.39% 산업 106,693 26.40% 과학 39,506 9.78% 문화 26,540 6.57% 보건 16,390 4.06% 교육/사회 140,650 34.81% 합계 404,080 100.00% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드- 활용 모델 : KE-T5-base
사전 학습 데이터 : 국립 국어원 모두의 말뭉치 및 RealNews Dataset 289.02GB
모델 설명 : 다양한 Generative task를 통하여 Downstream task에서 더욱 효과적인 성능을 보이는 모델. Prefix를 통해 모델의 생성 문장을 수행해야하는 task에 적합하도록 학습- 실험 환경
1) 데이터셋 구성
학습데이터 : 323,836 건
검증데이터 : 39,986 건
평가데이터 : 40,258 건
2) 학습 방법
(1) 표 이미지에서 인식된 텍스트 추출
(2) 표 이미지 텍스트로부터 표 설명문/표 요약문을 각각 생성하도록 모델 학습
(표 설명 모델과 표 요약 모델은 독립적인 2개의 모델)
3) 성능평가지표 : BLEU (어휘 매칭 기반 점수), BLEURT (의미 매칭 기반 점수)
4) 성능 평가 결과성능 평가 결과 BLEU BLEURT Table Explanation Model - 0.52 Table Summarization Model 23.44 - 5) 목표 대비 성능
(1) 표 요약 목표 성능 (BLEU) 22.3
KE-T5 요약 모델 성능 (BLEU) 23.44 (+1.14)
(2) 표 설명 목표 성능 (BLEURT) 0.105
KE-T5 설명 모델 성능 (BLEURT) 0.52 (+0.415) -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드- 데이터 구성
데이터 구성 항목 파일포맷 데이터 규모 데이터(라벨링) 유형 데이터 종류 원천 데이터 jpg 404,080장 이미지 표 이미지 html 404,080건 텍스트 표 내용정보 라벨링 데이터 json 404,080건 내용요약(자연어) 표 요약문/표 설명문
- 어노테이션 포맷어노테이션 포맷 구분 속성명 타입 필수여부 설명 범위 1 file_id integer 필수 문서 ID 2 file_name string 필수 표 이미지 파일명 3 file_format string 필수 표 이미지 파일 포맷 4 img_size integer 필수 표 이미지 파일 크기(KB) 5 table_meta object 필수 표 메타데이터 6 table_meta.doc_title string 필수 문서제목 7 table_meta.publisher string 필수 발행기관 8 table_meta.publish_year integer 선택 발행연도 9 table_meta.table_type string 필수 표(테이블) 종류 기본표
조합표
병합표
콘텐츠 병합표10 table_meta.table_field string 필수 표(테이블) 분야 경제
산업
과학
문화
보건
교육/사회11 table_meta.table_unit string 선택 표 단위 12 table_meta.table_title string 필수 표 제목 13 table_meta.table_header string 필수 표 헤더 14 table_meta.table_row_number integer 필수 표 행 개수 15 table_meta.table_column_number integer 필수 표 열 개수 16 table_meta.table_header_bold string 필수 표 헤더 볼드처리 여부 17 table_meta.table_background string 필수 표 바디 배경색 여부 18 table_meta.html_path string 필수 표이미지에서 변환된 html 문서 경로 19 table_data object 필수 표 문장 20 table_data.text_explanation string 필수 표 설명문 21 table_data.text_summary string 필수 표 요약문
- 데이터 포맷1) 원천 데이터
- 표 이미지 : *.jpg- 표 내용정보 : *.html
표 내용정보
< table class="waffle" cellspacing="0" cellpadding="0" >
< thead >
< tr >
< th class="row-header freezebar-origin-ltr" >< /th >
< th id="1805698442C0" style="width:193px;" class="column-headers-background" >A< /th >
< th id="1805698442C1" style="width:109px;" class="column-headers-background" >B< /th >
< th id="1805698442C2" style="width:125px;" class="column-headers-background" >C< /th >
< th id="1805698442C3" style="width:164px;" class="column-headers-background" >D< /th >
< /tr >
< /thead >
< tbody >
< tr style="height: 19px" >
< th id="1805698442R0" style="height: 19px;" class="row-headers-background" >
< div class="row-header-wrapper" style="line-height: 19px" >1< /div >
< /th >
< td class="s0" >구분< /td >
< td class="s0" >단위및기준< /td >
< td class="s0" >줄처< /td >
< td class="s0" >자료 범위< /td >
< /tr >
< tr style="height: 19px" >
< th id="1805698442R1" style="height: 19px;" class="row-headers-background" >
< div class="row-header-wrapper" style="line-height: 19px" >2< /div >
< /th >
< td class="s1" dir="ltr" >실거래가격지수(아파트)< /td >
< td class="s1" >시도 및 강남4구< /td >
< td class="s1" >한국감정원< /td >
< td class="s1" dir="ltr" >2012년 1월~2019년 10월< /td >
< /tr >
< tr style="height: 19px" >
< th id="1805698442R2" style="height: 19px;" class="row-headers-background" >
< div class="row-header-wrapper" style="line-height: 19px" >3< /div >
< /th >
< td class="s1" dir="ltr" >매매 및 전세 중위가격(아파트)< /td >
< td class="s1" >시도 및 강남4구< /td >
< td class="s1" >한국감정원< /td >
< td class="s1" dir="ltr" >2012년 1월~2020년 01월< /td >
< /tr >
< tr style="height: 19px" >
< th id="1805698442R3" style="height: 19px;" class="row-headers-background" >
< div class="row-header-wrapper" style="line-height: 19px" >4< /div >
< /th >
< td class="s1" >전월세전환율< /td >
< td class="s1" >전국< /td >
< td class="s1" >한국감정원< /td >
< td class="s1" dir="ltr" >2012년 1월~22019년 12월< /td >
< /tr >
< tr style="height: 19px" >
< th id="1805698442R4" style="height: 19px;" class="row-headers-background" >
< div class="row-header-wrapper" style="line-height: 19px" >5< /div >
< /th >
< td class="s1" dir="ltr" >주택구매력지수(HAI)< /td >
< td class="s1" >시도 및 강남4구< /td >
< td class="s1" >국민은행< /td >
< td class="s1" dir="ltr" >2012년 1월~2019년 12월< /td >
< /tr >
< tr style="height: 19px" >
< th id="1805698442R5" style="height: 19px;" class="row-headers-background" >
< div class="row-header-wrapper" style="line-height: 19px" >6< /div >
< /th >
< td class="s1" >사회적할인율< /td >
< td class="s1" >전국< /td >
< td class="s1" >예비타당성 조사 수행 총괄지침< /td >
< td class="s1" dir="ltr" >-< /td >
< /tr >
< /tbody >
< /table >2) 라벨링 데이터 : *.json
라벨링 데이터
{
"file_id": 3,
"file_name": "T01_C01_50000_1133_2.jpg",
"file_format": "jpg",
"img_size": 291,
"table_meta": {
"table_meta.doc_title": "아파트 가격거품 검증과 시사점 (2012년~2020년 1월)",
"table_meta.publisher": "국토연구원",
"table_meta.publish_year": 2020,
"table_meta.table_type": "기본표",
"table_meta.table_field": "경제",
"table_meta.table_unit": "",
"table_meta.table_title": "분석자료 범위 및 출처",
"table_meta.table_header": "Y",
"table_meta.table_row_number": 6,
"table_meta.table_column_number": 4,
"table_meta.table_header_bold": "N",
"table_meta.table_background": "N",
"table_meta.html_path": "/원천데이터/T01/C01/T01_C01_50000_1133_2.html"
},
"table_data": {
"table_data.text_explanation": "1) 실거래가격지수(아파트)의 단위 및 기준은 시도 및 강남4구이며 출처는 한국감정원이고 자료 범위는 2012년 1월~2019년 10월이다. 2) 전월세전환율의 단위 및 기준은 전국이며 출처는 한국감정원이고 자료범위는 2012년 1월~2019년 12월이다. 3) 표에 따르면 실거래가격지수, 매매 및 전세 중위가격, 주택구매력지수의 단위 및 기준은 시도 및 강남4구이며 전월세전환율, 사회적할인율의 단위 및 기준은 전국이다.",
"table_data.text_summary": "표는 분석자료 범위 및 출처에 관한 내용으로 6행 4열이며 실거래가격지수, 매매 및 전세 중위가격, 전월세전환율 등에 관한 단위 및 기준, 출처, 자료 범위를 나타낸 표이다."
}
} -
데이터셋 구축 담당자
수행기관(주관) : ㈜메트릭스
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 박래희 02-6377-0826 [email protected] 사업총괄 및 관리 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜스위트케이 데이터 수집, 정제, 가공, 검사, 저작도구 개발 및 운영 브레인벤쳐스 품질검증 건국대학교 산학협력단 AI 모델 개발 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 윤종현 02-3434-3120 [email protected] 이준호 02-3434-3120 [email protected] AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 한미래 010-4539-6105 [email protected] 장영진 010-5594-4777 [email protected] 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 윤종현 02-3434-3120 [email protected] 이준호 02-3434-3120 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.