AI-Hub

야외 실제 촬영 한글 이미지

분야한국어
유형 이미지

구축년도 : 2020 갱신년월 : 2023-02 조회수 : 15,407 다운로드 : 1,783 용량 :

샘플 데이터

※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

소개 파일 목록 (API 다운로드)

※ 내국인만 데이터 신청이 가능합니다.

문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.1	2023-02-22	원천데이터, 라벨링데이터 수정
1.0	2021-06-27	데이터 최초 개방

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2022-10-13	신규 샘플데이터 개방

소개

일상에서 접할 수 있는 다양한 한글 이미지(간판, 책표지)를 이용하여 다양한 OCR 솔루션에 사용될 수 있는 text-in-the-wild 이미지 데이터

구축목적

일상에서 접할 수 있는 실내외 이미지 속 한글의 디지털 텍스트를 다량으로 확보하여, 문서나 필기체 외에 다양한 폰트로 노출되어 있는 한글자원을 효과적으로 활용하기 위한 인공지능 기반 OCR 기술 개발용 학습 데이터셋

메타데이터 구조표
데이터 영역	한국어	데이터 유형	이미지
데이터 형식		데이터 출처
라벨링 유형		라벨링 형식
데이터 활용 서비스		데이터 구축년도/ 데이터 구축량	2020년/50만

구축 내용 및 제공 데이터량

간판

• 간판 사진은 전국 범위를 대상으로 낮, 밤, 우천, 눈 등 조건하에서 가로/세로형 간판, 돌출형 간판, 창문이용 간판 등을 중심으로 실내외 환경에서 여러 시야각도로 촬영을 목표로 함.
• 최종 인공지능 데이터 : 간판 한글단어 바운딩박스 45만 건이 포함된 1600*1200 해상도의 한글 이미지들과 한글이 입력되어 있는 해당 이미지별 어노테이션 JSON 파일
- JPEG 이미지 약 450,000건 : 한글단어 45만 건에 해당하는 학습 데이터 구축
- 어노테이션 JSON 파일 약 450,000개 : 한글단어 45만 건 이상에 해당하는 학습 데이터 구축 완료
- 이미지와 JSON 파일 수량 비율은 1:1

간판 구축 내용 및 제공 데이터량 표
분류	세분류	촬영수량	비율
실외간판	가로형간판	140,000	31.0%
	세로형간판	30,000	6.7%
	돌출간판	55,000	12.2%
	지주이용간판	30,000	6.7%
	현수막	30,000	6.7%
	창문이용광고물	30,000	6.7%
	소계	315,000	70%
실내간판	실내간판	90,000	20%
	실내안내판	45,000	10%
	소계	135,000	30%
합계		450,000	100%

책표지

• 최종 인공지능 데이터 : 책표지 한글단어 바운딩박스 5만 건이 포함된 1600*1200 해상도의 한글 이미지들과 한글이 입력되어 있는 해당 이미지별 어노테이션 JSON 파일
- JPEG 이미지 약 50,000건 : 한글단어 5만 건에 해당하는 학습 데이터 구축
- 어노테이션 JSON 파일 약 50,000개 : 한글단어 5만 건 이상에 해당하는 학습 데이터 구축 완료
- 이미지와 JSON 파일 수량 비율은 1:1

책표지 구축 내용 및 제공 데이터량 표
분류(KDC)	촬영수량	비율
총류	2,500	5%
철학	3,500	7%
종교	4,000	8%
사회과학	8,000	16%
자연과학	2,500	5%
기술과학	8,000	16%
예술	2,500	5%
언어	4,000	8%
문학	8,000	16%
역사	3,000	6%
기타(유아)	4,000	8%
합 계	50,000	100%

저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드
AI 모델 상세 설명서 다운로드
AI 모델 다운로드

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.0	2021.06.27	데이터 최초 개방

구축 목적

일상에서 접할 수 있는 실내외 이미지 속 한글의 디지털 텍스트를 다량으로 확보하여, 문서나 필기체 외에 다양한 폰트로 노출되어 있는 한글자원을 효과적으로 활용하기 위한 인공지능 기반 OCR 기술
개발용 학습 데이터 셋

활용 분야

웨어러블카메라 및 모바일OCR(책표지 인식통한 온라인 구매) 등
야외에서 한글의 인식이 필요한 분야

소개

문서(font)나 필기체 외에 일상에서 접할 수 있는 다양한 한글 이미지를 이용하여 각종 비정형 한글을 인식함으로써 각종 솔루션에 사용될 수 있는 한글 이미지 학습 데이터 구축

구축 내용 및 제공 데이터량

간판

간판 구축 내용 및 제공 데이터량 표
분류	세분류	촬영수량	비율
실외간판	가로형간판	140,000	31.0%
	세로형간판	30,000	6.7%
	돌출간판	55,000	12.2%
	지주이용간판	30,000	6.7%
	현수막	30,000	6.7%
	창문이용광고물	30,000	6.7%
	소계	315,000	70%
실내간판	실내간판	90,000	20%
	실내안내판	45,000	10%
	소계	135,000	30%
합계		450,000	100%

책표지

책표지 구축 내용 및 제공 데이터량 표
분류(KDC)	촬영수량	비율
총류	2,500	5%
철학	3,500	7%
종교	4,000	8%
사회과학	8,000	16%
자연과학	2,500	5%
기술과학	8,000	16%
예술	2,500	5%
언어	4,000	8%
문학	8,000	16%
역사	3,000	6%
기타(유아)	4,000	8%
합 계	50,000	100%

대표도면

간판 한글 인식(OCR) 학습용 데이터
책표지 한글 인식(OCR) 학습 데이터

필요성

기존 OCR분야는 최적의 인식을 위해 노이즈 없는 인쇄체나 필기체를 학습 및 인식의 대상으로 집중해 왔으며, 따라서 실내 사무분야 등에서는 인공지능 인식이 성과를 보이고 있음. 그러나 실외 간판이나 책표지와 같은 비정형 폰트형태의 한글을 많이 사용하는 분야는 산업계의 관심 및 투자 부족과 기술개발의 난이도 등으로 해당분야 한글 이미지의 인식율이 매우 낮았음.
이에 따라 본 과제에서는 인공지능 OCR엔진이 실내외에 위치한 간판, 책표지의 한글데이터를 인식할 수 있도록 학습데이터를 구축하고 학습모델을 개발하여 비정형 한글데이터의 인식율 향상을 노력하고자 함.
1600*1200 해상도의 jpeg 이미지를 촬영하며, 야외(LSVT) 45만장, 책표지 5만장 총 50만장의 이미지 및 라벨링 json 구축 목표
본 사업은 야외 간판 한글데이터 수집을 주요 목적으로 하고 있으나, 좀더 다양한 유형의 한글데이터 구축을 위하여 비정형 한글 폰트를 사용하는 책표지의 한글데이터를 일부 포함하여 구축하기로 함.

데이터 구조

데이터 구성

데이터 구성 표1
Key	Description	Type	Child Type
annotations		List	Object
[		Object
id		Number
image_id		Number
text		String
bbox		List	Object
[		Object
	x좌표	Number
	y좌표	Number
	width	Number
	height	Number
]
cropLables		List
[]
images		List	Object
[		Object

데이터 구성 표2
Key	Type	Child Type
id	Number
width	Number
height	Number
file_name	String
date_created	Date
]
info	List	Object
[	Object
name	String
description	String
date_created	Date
]
metadata	List	Object
[	Object
class	String
subclass	String
area	String
device	String
weather	String
illuminance	String
light	String
outline	String
wordorientation	String
wordsize	String
wordfont	String
wordcolor	String
wordconnection	String
]

어노테이션 포맷

어노테이션 포맷 표1
No.		항목		길이	타입	필수 여부
No.		한글명	영문명	길이	타입	필수 여부
1		어노테이션 정보	annotations		List
	1-1	어노테이션 식별자	annotations[].id	10	Number	Y
	1-2	인식문자이미지식별자	annotations[].image_id	10	Number	Y
	1-3	어노테이션 텍스트	annotations[].text	1000	String	Y
	1-4	어노테이션 바운딩박스	annotations[].bbox	4	List
2		Crop라벨	cropLables		List
3		이미지정보	images		List
	3-1	이미지식별자	images[].id	10	Number	Y
	3-2	이미지너비	images[].width	4	Number	Y
	3-3	이미지높이	images[].height	4	Number	Y
	3-4	이미지파일명	images[].file_name	100	String	Y
	3-5	이미지촬영일자	date_created	100	String	Y
4		데이터셋정보	info		Object
	4-1	데이터셋명	info.name	100	String	Y
	4-2	데이터셋설명	info.description	1000	String
	4-3	데이터셋생성일자	info.date_created	100	String	Y
5		메타데이터	metadata		List
	5-1	분류	metadata[].class	100	String	Y
	5-2	세분류	metadata[].subclass	100	String
	5-3	지역	metadata[].area	100	String
	5-4	수집장치	metadata[].device	100	String	Y
	5-5	날씨	metadata[].weather	100	String

어노테이션 포맷 표2
No.		항목		길이	타입	필수 여부
No.		한글명	영문명	길이	타입	필수 여부
	5-6	조도	metdata[].illuminance	100	String
	5-7	광원	metadata[].light	100	String
	5-8	외곽선 선명도	metadata[].outline	100	String	Y
	5-9	글씨방향	metadata[].wordorientation	100	String	Y
	5-10	글씨크기	metadata[].wordsize	100	String	Y
	5-11	글씨폰트	metadata[].wordfont	100	String	Y
	5-12	글자색	metadata[].wordcolor	100	String	Y
	5-13	글자연결	metadata[].wordconnection	100	String	Y

데이터셋 구축 담당자

수행기관(주관) : 동양시스템즈

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
김시진	02-405-7443	[email protected]	· 원문 데이터 확보 및 제공 · 데이터 구축 총괄

수행기관(참여)

수행기관(참여)
기관명	담당업무
인포폴라	· 데이터 수집, 가공 및 검수
넥스인테크놀로지	· 크라우드소싱 플랫폼 개발
앙코르브라보노협동조합	· 데이터 검수

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
정용우(인포플라)	070-5055-4813	[email protected]

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.

파일 목록

전체 다운로드 AI 허브 Shell 다운로드 AI 허브 오픈 API 이용안내

연관 데이터

시간 표현 탐지 데이터

추상 요약 사실성 검증 데이터

텍스트 윤리검증 데이터

한국인의 주제적응형 영어말하기 평가데이터

표 정보 질의응답 데이터

채용면접 인터뷰 데이터

한국어 방언 발화(전라도)

한국어 방언 발화(경상도)

야외 실제 촬영 한글 이미지

데이터 개요

데이터 변경이력

데이터 히스토리

소개

구축목적

메타데이터 구조표

데이터 통계

간판

책표지

교육활용 동영상

저작도구

저작도구 설명서 및 저작도구 다운로드

활용 AI 모델 및 코드

AI 모델 상세 설명서 다운로드

어노테이션 포맷 및 데이터 구조

설명서 및 활용가이드 다운로드

간판

책표지

구축 업체

데이터셋 구축 담당자

수행기관(주관) : 동양시스템즈

수행기관(참여)

데이터 관련 문의처

안심존 소개

안심존 이용절차

안심존사용신청서 및 첨부서류목록

안심존 이용문의

파일 목록

연관 데이터