-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2023-02-22 원천데이터, 라벨링데이터 수정 1.0 2021-06-27 데이터 최초 개방 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2022-10-13 신규 샘플데이터 개방 소개
일상에서 접할 수 있는 다양한 한글 이미지(간판, 책표지)를 이용하여 다양한 OCR 솔루션에 사용될 수 있는 text-in-the-wild 이미지 데이터
구축목적
일상에서 접할 수 있는 실내외 이미지 속 한글의 디지털 텍스트를 다량으로 확보하여, 문서나 필기체 외에 다양한 폰트로 노출되어 있는 한글자원을 효과적으로 활용하기 위한 인공지능 기반 OCR 기술 개발용 학습 데이터셋
-
메타데이터 구조표 데이터 영역 한국어 데이터 유형 이미지 데이터 형식 데이터 출처 라벨링 유형 라벨링 형식 데이터 활용 서비스 데이터 구축년도/
데이터 구축량2020년/50만 -
구축 내용 및 제공 데이터량
-
간판
• 간판 사진은 전국 범위를 대상으로 낮, 밤, 우천, 눈 등 조건하에서 가로/세로형 간판, 돌출형 간판, 창문이용 간판 등을 중심으로 실내외 환경에서 여러 시야각도로 촬영을 목표로 함.
• 최종 인공지능 데이터 : 간판 한글단어 바운딩박스 45만 건이 포함된 1600*1200 해상도의 한글 이미지들과 한글이 입력되어 있는 해당 이미지별 어노테이션 JSON 파일
- JPEG 이미지 약 450,000건 : 한글단어 45만 건에 해당하는 학습 데이터 구축
- 어노테이션 JSON 파일 약 450,000개 : 한글단어 45만 건 이상에 해당하는 학습 데이터 구축 완료
- 이미지와 JSON 파일 수량 비율은 1:1간판 구축 내용 및 제공 데이터량 표 분류 세분류 촬영수량 비율 실외간판 가로형간판 140,000 31.0% 세로형간판 30,000 6.7% 돌출간판 55,000 12.2% 지주이용간판 30,000 6.7% 현수막 30,000 6.7% 창문이용광고물 30,000 6.7% 소계 315,000 70% 실내간판 실내간판 90,000 20% 실내안내판 45,000 10% 소계 135,000 30% 합계 450,000 100% -
책표지
• 최종 인공지능 데이터 : 책표지 한글단어 바운딩박스 5만 건이 포함된 1600*1200 해상도의 한글 이미지들과 한글이 입력되어 있는 해당 이미지별 어노테이션 JSON 파일
- JPEG 이미지 약 50,000건 : 한글단어 5만 건에 해당하는 학습 데이터 구축
- 어노테이션 JSON 파일 약 50,000개 : 한글단어 5만 건 이상에 해당하는 학습 데이터 구축 완료
- 이미지와 JSON 파일 수량 비율은 1:1책표지 구축 내용 및 제공 데이터량 표 분류(KDC) 촬영수량 비율 총류 2,500 5% 철학 3,500 7% 종교 4,000 8% 사회과학 8,000 16% 자연과학 2,500 5% 기술과학 8,000 16% 예술 2,500 5% 언어 4,000 8% 문학 8,000 16% 역사 3,000 6% 기타(유아) 4,000 8% 합 계 50,000 100%
-
-
-
AI 모델 상세 설명서 다운로드
AI 모델 다운로드 -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2021.06.27 데이터 최초 개방 구축 목적
- 일상에서 접할 수 있는 실내외 이미지 속 한글의 디지털 텍스트를 다량으로 확보하여, 문서나 필기체 외에 다양한 폰트로 노출되어 있는 한글자원을 효과적으로 활용하기 위한 인공지능 기반 OCR 기술
개발용 학습 데이터 셋
활용 분야
- 웨어러블카메라 및 모바일OCR(책표지 인식통한 온라인 구매) 등
야외에서 한글의 인식이 필요한 분야
소개
- 문서(font)나 필기체 외에 일상에서 접할 수 있는 다양한 한글 이미지를 이용하여 각종 비정형 한글을 인식함으로써 각종 솔루션에 사용될 수 있는 한글 이미지 학습 데이터 구축
구축 내용 및 제공 데이터량
-
간판
• 간판 사진은 전국 범위를 대상으로 낮, 밤, 우천, 눈 등 조건하에서 가로/세로형 간판, 돌출형 간판, 창문이용 간판 등을 중심으로 실내외 환경에서 여러 시야각도로 촬영을 목표로 함.
• 최종 인공지능 데이터 : 간판 한글단어 바운딩박스 45만 건이 포함된 1600*1200 해상도의 한글 이미지들과 한글이 입력되어 있는 해당 이미지별 어노테이션 JSON 파일
- JPEG 이미지 약 450,000건 : 한글단어 45만 건에 해당하는 학습 데이터 구축
- 어노테이션 JSON 파일 약 450,000개 : 한글단어 45만 건 이상에 해당하는 학습 데이터 구축 완료
- 이미지와 JSON 파일 수량 비율은 1:1간판 구축 내용 및 제공 데이터량 표 분류 세분류 촬영수량 비율 실외간판 가로형간판 140,000 31.0% 세로형간판 30,000 6.7% 돌출간판 55,000 12.2% 지주이용간판 30,000 6.7% 현수막 30,000 6.7% 창문이용광고물 30,000 6.7% 소계 315,000 70% 실내간판 실내간판 90,000 20% 실내안내판 45,000 10% 소계 135,000 30% 합계 450,000 100% -
책표지
• 최종 인공지능 데이터 : 책표지 한글단어 바운딩박스 5만 건이 포함된 1600*1200 해상도의 한글 이미지들과 한글이 입력되어 있는 해당 이미지별 어노테이션 JSON 파일
- JPEG 이미지 약 50,000건 : 한글단어 5만 건에 해당하는 학습 데이터 구축
- 어노테이션 JSON 파일 약 50,000개 : 한글단어 5만 건 이상에 해당하는 학습 데이터 구축 완료
- 이미지와 JSON 파일 수량 비율은 1:1책표지 구축 내용 및 제공 데이터량 표 분류(KDC) 촬영수량 비율 총류 2,500 5% 철학 3,500 7% 종교 4,000 8% 사회과학 8,000 16% 자연과학 2,500 5% 기술과학 8,000 16% 예술 2,500 5% 언어 4,000 8% 문학 8,000 16% 역사 3,000 6% 기타(유아) 4,000 8% 합 계 50,000 100%
대표도면
- 간판 한글 인식(OCR) 학습용 데이터
- 책표지 한글 인식(OCR) 학습 데이터
필요성
- 기존 OCR분야는 최적의 인식을 위해 노이즈 없는 인쇄체나 필기체를 학습 및 인식의 대상으로 집중해 왔으며, 따라서 실내 사무분야 등에서는 인공지능 인식이 성과를 보이고 있음. 그러나 실외 간판이나 책표지와 같은 비정형 폰트형태의 한글을 많이 사용하는 분야는 산업계의 관심 및 투자 부족과 기술개발의 난이도 등으로 해당분야 한글 이미지의 인식율이 매우 낮았음.
- 이에 따라 본 과제에서는 인공지능 OCR엔진이 실내외에 위치한 간판, 책표지의 한글데이터를 인식할 수 있도록 학습데이터를 구축하고 학습모델을 개발하여 비정형 한글데이터의 인식율 향상을 노력하고자 함.
- 1600*1200 해상도의 jpeg 이미지를 촬영하며, 야외(LSVT) 45만장, 책표지 5만장 총 50만장의 이미지 및 라벨링 json 구축 목표
- 본 사업은 야외 간판 한글데이터 수집을 주요 목적으로 하고 있으나, 좀더 다양한 유형의 한글데이터 구축을 위하여 비정형 한글 폰트를 사용하는 책표지의 한글데이터를 일부 포함하여 구축하기로 함.
데이터 구조
- 데이터 구성
데이터 구성 표1 Key Description Type Child Type annotations List Object [ Object id Number image_id Number text String bbox List Object [ Object x좌표 Number y좌표 Number width Number height Number ] cropLables List [] images List Object [ Object 데이터 구성 표2 Key Description Type Child Type id Number width Number height Number file_name String date_created Date ] info List Object [ Object name String description String date_created Date ] metadata List Object [ Object class String subclass String area String device String weather String illuminance String light String outline String wordorientation String wordsize String wordfont String wordcolor String wordconnection String ] - 어노테이션 포맷
어노테이션 포맷 표1 No. 항목 길이 타입 필수
여부한글명 영문명 1 어노테이션 정보 annotations List 1-1 어노테이션 식별자 annotations[].id 10 Number Y 1-2 인식문자이미지식별자 annotations[].image_id 10 Number Y 1-3 어노테이션 텍스트 annotations[].text 1000 String Y 1-4 어노테이션 바운딩박스 annotations[].bbox 4 List 2 Crop라벨 cropLables List 3 이미지정보 images List 3-1 이미지식별자 images[].id 10 Number Y 3-2 이미지너비 images[].width 4 Number Y 3-3 이미지높이 images[].height 4 Number Y 3-4 이미지파일명 images[].file_name 100 String Y 3-5 이미지촬영일자 date_created 100 String Y 4 데이터셋정보 info Object 4-1 데이터셋명 info.name 100 String Y 4-2 데이터셋설명 info.description 1000 String 4-3 데이터셋생성일자 info.date_created 100 String Y 5 메타데이터 metadata List 5-1 분류 metadata[].class 100 String Y 5-2 세분류 metadata[].subclass 100 String 5-3 지역 metadata[].area 100 String 5-4 수집장치 metadata[].device 100 String Y 5-5 날씨 metadata[].weather 100 String 어노테이션 포맷 표2 No. 항목 길이 타입 필수
여부한글명 영문명 5-6 조도 metdata[].illuminance 100 String 5-7 광원 metadata[].light 100 String 5-8 외곽선 선명도 metadata[].outline 100 String Y 5-9 글씨방향 metadata[].wordorientation 100 String Y 5-10 글씨크기 metadata[].wordsize 100 String Y 5-11 글씨폰트 metadata[].wordfont 100 String Y 5-12 글자색 metadata[].wordcolor 100 String Y 5-13 글자연결 metadata[].wordconnection 100 String Y
- 일상에서 접할 수 있는 실내외 이미지 속 한글의 디지털 텍스트를 다량으로 확보하여, 문서나 필기체 외에 다양한 폰트로 노출되어 있는 한글자원을 효과적으로 활용하기 위한 인공지능 기반 OCR 기술
-
데이터셋 구축 담당자
수행기관(주관) : 동양시스템즈
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김시진 02-405-7443 [email protected] · 원문 데이터 확보 및 제공 · 데이터 구축 총괄 수행기관(참여)
수행기관(참여) 기관명 담당업무 인포폴라 · 데이터 수집, 가공 및 검수 넥스인테크놀로지 · 크라우드소싱 플랫폼 개발 앙코르브라보노협동조합 · 데이터 검수 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 정용우(인포플라) 070-5055-4813 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.