AI-Hub

#자연어 한국어 맞춤법 교정 오탈자 교정

인터페이스(자판/음성)별 고빈도 오류 교정 데이터

분야한국어
유형 텍스트

구축년도 : 2022 갱신년월 : 2023-12 조회수 : 6,445 다운로드 : 385 용량 :

샘플 데이터

※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

소개 파일 목록 (API 다운로드)

※ 내국인만 데이터 신청이 가능합니다.

문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.1	2023-12-01	데이터 최종 개방
1.0	2023-07-31	데이터 개방(Beta Version)

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2023-12-15	산출물 전체 공개

소개

한글 입력 인터페이스(일반 키보드, 스마트폰 쿼티 및 천지인, 음성)에서 특징적으로 나타나는 오탈자 및 띄어쓰기 등 오류를 탐지하고 적절한 맞춤법으로의 자동전환을 학습하기 위한 데이터

구축목적

최신 디지털 기기 인터페이스에서 나타나는 오탈자 및 띄어쓰기를 탐지, 검사할 수 있는 언어모델 연구, 개발을 위함
잘못 된 맞춤법 사용으로 작성된 문장을 올바른 맞춤법으로 교정할 수 있는 언어모델을 연구, 개발하기 위함

메타데이터 구조표
데이터 영역	한국어	데이터 유형	텍스트
데이터 형식	json, csv	데이터 출처	게시판, 뉴스 및 강의 음성, aihub 한국어 SNS 데이터셋
라벨링 유형	오류 교정	라벨링 형식	json
데이터 활용 서비스	맞춤법 오류 교정 서비스	데이터 구축년도/ 데이터 구축량	2022년/290,500

- 데이터 통계
> 데이터 구축 규모

데이터 구축 규모
구분	상세구분	수량(문장)	소계	비율	비고
오탈자	PC/쿼티	39,600	110,000	55%
	mobile/쿼티	39,600
	mobile/천지인	30,800
맞춤법 오류	자유게시판	18,000	60,000	30%
	질문게시판	24,000
	SNS	18,000
음성 인식기 오류	STT_ENGINE_01	9,000	30,000	15%
	STT_ENGINE_02	9,000
	STT_ENGINE_03	12,000
자동 생성 오류	-	30,000	-	-	추가 수량
띄어쓰기/문장부호 오류	-	60,000	-	-	추가 수량
자주 틀리는 맞춤법 오류	-	500	-	-	추가 수량
합계		290,500

▲ 표06

> 데이터 분포
오탈자

데이터 분포 - 오탈자
입력 인터페이스	소계	초중등	고등	20대~40대	40대이상
pc/쿼티	39,600	7,920	7,920	13,860	9,900
mobile/쿼티	39,600	7,920	7,920	13,860	9,900
mobile/천지인	30,800	6,160	6,160	10,780	7,700
합계	110,000	22,000	22,000	38,500	27,500

▲ 표07

맞춤법 오류

데이터 분포 - 맞춤법 오류
데이터 출처	소계	초중등	고등	20대~40대	40대이상
자유게시판	18,000	2,368	11,554	4,058	20
질문게시판	24,000	2,495	18,292	3,156	57
SNS	18,000	2,176	7,620	7,867	337
합계	60,000	7,039	37,466	15,081	414

▲ 표08

음성 인식기 오류

데이터 분포 - 음성 인식기 오류
입력 인터페이스	데이터 수량	비율	오류 수량	비율	평균 오류 수량
STT_ENGINE_01	9,000	30%	45,565	36%	5.06
STT_ENGINE_02	9,000	30%	35,779	28%	3.98
STT_ENGINE_03	12,000	40%	44,967	36%	3.75
합계 / 평균	30,000		126,311		4.26

▲ 표09

The Transformer - model architecture
▲ 그림01

Transformations for noising the input that we experiment with. These transformation cab be composed

▲ 그림02

구분 및 값
구분	값
모델	ko-BART
learning rate	1.00E-04
batch size	64
max epoch	30

▲ 표10

- 서비스 활용 시나리오
> 한국어 오류 교정 서비스에 활용
1. 구축한 데이터로 학습된 모델을 한국어 오류 교정 서비스에 활용할 수 있음
2. AI 단독 모델로는 한계 존재, 규칙 기반 교정을 추가로 정의하여 사용 할 것을 권고
> 한국어 오류 교정 연구에 활용
1. 오류 어휘, 교정 어휘를 분석하여 한국어 오류에 대한 연구에 활용
> 한국어 오류 교정 임무에 벤치마크로 활용
1. 개발한 한국어 오류 교정 모델에 대한 성능 평가 데이터로 활용

저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드
- 활용 모델
> AI Framework: PyTorch
> Toolkit: Huggingface
> 모델 학습
한국어 오류 교정 임무를 수행하기 위한 인공지능 모델로 ko-BART를 활용하였으며, 해당 모델은 구글에서 발표한 논문의 사전학습 방식을 한국어에 적용하여 사전학습 시킨 모델임
사전 학습된 ko-BART 모델을 해당 임무에 적합하도록 Fine-Tuning하였음

데이터 성능 점수

측정값 (%)

기준값 (%)

데이터 성능 지표

데이터 성능 지표
번호	측정항목	AI TASK	학습모델	지표명	기준값 점수	측정값 점수
1	Transformer 오류 문장 교정	Prediction	Bart	F0.5-Score	0.5 점	0.5907 점
2	Transformer 사전 학습 오류 문장 교정	Prediction	Bart	F0.5-Score	0.5 점	0.7863 점

※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

- 데이터 포맷
> 원문데이터 포맷 예시

원문데이터 포맷 예시 - 오탈자 데이터
오탈자 데이터
장치	PC
키보드	쿼티
나이	16
원본	스크립트 : 구두가 몇 켤레인지 개수를 세어보렴. 어렵지 않을 거야!
원본	입력 : 굳가 몇켤레인지 개수를 세어보렴, 어렵지않을거야~
json 실제 예시	{
	"metadata_info": {
	"id": "ota0000000203152",
	"interface": "pc",
	"keyboard": "쿼티",
	"age": 16
	},
	"annotation": {
	"err_sentence": "굳가 몇켤레인지 개수를 세어보렴, 어렵지않을거야~",
	"err_sentence_spell": "굳가 몇켤레인지 개수를 세어보렴, 어렵지않을거야~",
	"cor_sentence": "구두가 몇 켤레인지 개수를 세어보렴. 어렵지 않을 거야!",
	"cor_sentence_spell": "구두가 몇 켤레인지 개수를 세어보렴. 어렵지 않을 거야!",
	"reg_date": 20220812,
	"errors": [
	{
	"err_idx": 0,
	"err_location": 0,
	"err_text": "굳가",
	"cor_text": "구두가",
	"err_details": {
	"choseong": {
	"insert": 1,
	"delete": 0,
	"replace": 0
	},
	"joongseong": {
	"insert": 0,
	"delete": 0,
	"replace": 0
	},
	"jongseong": {
	"insert": 0,
	"delete": 0,
	"replace": 1
	},
	"spacing": {
	"insert": 0,
	"delete": 0,
	"replace": 0
	},
	"mark": {
	"insert": 0,
	"delete": 0,
	"replace": 0
	},
	"number": {
	"insert": 0,
	"delete": 0,
	"replace": 0
	},
	"alphabet": {
	"insert": 0,
	"delete": 0,
	"replace": 0
	}
	},
	"edit_distance": 2
	},
	...
	]
	}
	}

▲ 표01

원문데이터 포맷 예시 - 맞춤법 오류
맞춤법 오류
출처	자유게시판
작성일	2021. 04. 22
성별	여성
나이	17
원본	아뇨 토픽 수업을 해 본 적이 없... 아 대강 때 토픽 일기 했는데 믄제풀이라서 읽고 문제 풀이만 함 맞닼 그리고 조금 긴 시간 동안 문제 풀게 해야 하니끄아 그렇지??
전처리	토픽 일기 했는데 믄제풀이라서 읽고 문제 풀이만 함
json 실제 예시	{
	"metadata_info": {
	"id": "grm2210120098701",
	"source": "SNS",
	"date": 20210422,
	"gender": "M",
	"age": 20
	},
	"annotation": {
	"err_sentence": "토픽 일기 했는데 믄제풀이라서 읽고 문제 풀이만 함",
	"err_sentence_spell": "토픽 일기 했는데 믄제풀이라서 읽고 문제 풀이만 함",
	"cor_sentence": "토픽 읽기 했는데 문제 풀이라서 읽고 문제 풀이만 함.",
	"cor_sentence_spell": "토픽 읽기 했는데 문제 풀이라서 읽고 문제 풀이만 함.",
	"reg_date": 20221012,
	"errors": [
	{
	"err_idx": 0,
	"err_location": 1,
	"err_text": "일기",
	"cor_text": "읽기",
	"err_details": ["유사 모양"],
	"edit_distance": 1
	},
	{
	"err_idx": 1,
	"err_location": 3,
	"err_text": "믄제풀이라서",
	"cor_text": "문제 풀이라서",
	"err_details": ["띄어쓰기", "유사 모양"],
	"edit_distance": 2
	},
	{
	"err_idx": 2,
	"err_location": 7,
	"err_text": "함",
	"cor_text": "함.",
	"err_details": ["문장부호"],
	"edit_distance": 1
	}

▲ 표02

원문데이터 포맷 예시 - 음성 인식기 오류
음성 인식기 오류
사용 엔진	ENGINE_01
원본	그러면 다 필요 필요가 없어 필요없어요. 파이날만에 개인적으로 아이들한테 그렇게 얘기를 했어요. 필수 거리는 긔거고 야 솔직히 깨념 완반만 아벽하면 만점 그으냥 나와 그리고 제가 현장에 있는 아이들한테도 고3들한테 야 야 굳이 안 들어도 돼 역시 국어 열심히 수학 열심히 해 훨씬 더 중요한 거는 그쪽 과목이잖아.
전처리	필수 거리는 긔거고 야 솔직히 깨념 완반만 아벽하면 만점 그으냥 나와
json 실제 예시	{
	"metadata_info": {
	"id": "aud2207130001058",
	"source": "STT_ENGINE_01"
	},
	"annotation": {
	"err_sentence": "필수 거리는 긔거고 야 솔직히 깨념 완반만 아벽하면 만점 그으냥 나와",
	"err_sentence_spell": "필수 거리는 긔거고 야 솔직히 깨념 완반만 아벽하면 만점 그으냥 나와",
	"cor_sentence": "필수 커리는 그거고 야 솔직히 개념 완성반만 완벽하면 만점 그냥 나와.",
	"cor_sentence_spell": "필수 커리는 그거고 야 솔직히 개념 완성반만 완벽하면 만점 그냥 나와.",
	"reg_date": 20220713,
	"errors": [
	{
	"err_idx": 0,
	"err_location": 1,
	"err_text": "거리는",
	"cor_text": "커리는",
	"err_details": {
	"choseong": {
	"insert": 0,
	"delete": 0,
	"replace": 1
	},
	"joongseong": {
	"insert": 0,
	"delete": 0,
	"replace": 0
	},
	"jongseong": {
	"insert": 0,
	"delete": 0,
	"replace": 0
	},
	"spacing": {
	"insert": 0,
	"delete": 0,
	"replace": 0
	},
	"mark": {
	"insert": 0,
	"delete": 0,
	"replace": 0
	},
	"number": {
	"insert": 0,
	"delete": 0,
	"replace": 0
	},
	"alphabet": {
	"insert": 0,
	"delete": 0,
	"replace": 0
	}
	},
	"edit_distance": 1
	},
	..
	]
	}
	}

▲ 표03

- 데이터 구성

데이터 구성
Key	Description	Type	Child Type
info	데이터셋 정보	object
description	데이터셋 명	string
data_name	데이터셋 한글명	string
data_description	데이터셋 상세설명	string
creator	데이터셋 생산자	string
distributor	데이터셋 제공자	string
version	데이터셋 버전	string
data	데이터 목록	array	object
metadata_info	데이터 메타 정보	object
id	데이터 고유 식별자	string
source	데이터 출처	string
date	게시글 작성일	int
gender	게시글 작성자 성별	string
age	게시글 작성자 나이	int
interface	작성자 인터페이스	string
keyboard	작성자 키보드	string
annotation	라벨링 정보	object
err_sentence	오류 문장	string
err_sentence_spell	오류 문장 음소	string
cor_sentence	교정 문장	string
cor_sentence_spell	교정 문장 음소	string
reg_date	수집일	int
errors	요류 정보	array	object
err_idx	오류 식별자	int
err_location	오류 위치	int
err_text	오류 어휘	string
cor_text	교정 어휘	string
err_details	오탈자, 음성 인식기 오류 : object 타입의 오류 유형 정보	object
choseong	그 외의 오류 : array 타입의 오류 유형 정보	array	object
insert	편집거리 알고리즘 정보 - 초성	object
delete	편집거리 알고리즘 입력 횟수	int
replace	편집거리 알고리즘 삭제 횟수	int
joongseong	편집거리 알고리즘 대체 횟수	int
insert	편집거리 알고리즘 정보 - 중성	object
delete	편집거리 알고리즘 입력 횟수	int
replace	편집거리 알고리즘 삭제 횟수	int
jongseong	편집거리 알고리즘 대체 횟수	int
insert	편집거리 알고리즘 정보 - 종성	object
delete	편집거리 알고리즘 입력 횟수	int
replace	편집거리 알고리즘 삭제 횟수	int
spacing	편집거리 알고리즘 대체 횟수	int
insert	편집거리 알고리즘 정보 - 공백	object
delete	편집거리 알고리즘 입력 횟수	int
replace	편집거리 알고리즘 삭제 횟수	int
mark	편집거리 알고리즘 대체 횟수	int
insert	편집거리 알고리즘 정보 - 문장부호	object
delete	편집거리 알고리즘 입력 횟수	int
replace	편집거리 알고리즘 삭제 횟수	int
number	편집거리 알고리즘 대체 횟수	int
insert	편집거리 알고리즘 정보 - 숫자	object
delete	편집거리 알고리즘 입력 횟수	int
replace	편집거리 알고리즘 삭제 횟수	int
alphabet	편집거리 알고리즘 대체 횟수	int
insert	편집거리 알고리즘 정보 - 영문자	object
delete	편집거리 알고리즘 입력 횟수	int
replace	편집거리 알고리즘 삭제 횟수	int
edit_distance	편집거리 알고리즘 대체 횟수	int
06-Jun	.edit_distance	int	Y

▲ 표04

- 어노테이션 포맷

어노테이션 포맷
번호	항목명	타입	필수	설명
1	info	object	Y	데이터셋 정보
1-1	.description	string	Y	데이터셋 명
1-2	.data_name	string	Y	데이터셋 한글명
1-3	.data_description	string	Y	데이터셋 상세설명
1-4	.creator	string	Y	데이터셋 생산자
1-5	.distributor	string	Y	데이터셋 제공자
1-6	.version	string	Y	데이터셋 버전
2	data	array	Y	데이터 목록
2-1	.metadata_info	object	Y	데이터 메타 정보
2-1-1	.id	string	Y	데이터 고유 식별자
2-1-2	.source	string		데이터 출처
2-1-3	.date	int		게시글 작성일
2-1-4	.gender	string		게시글 작성자 성별
2-1-5	.age	int		게시글 작성자 나이
2-1-6	.interface	string		작성자 인터페이스
2-1-7	.keyboard	string		작성자 키보드
2-2	.annotation	object	Y	라벨링 정보
2-2-1	.err_sentence	string	Y	오류 문장
2-2-2	.err_sentence_spell	string	Y	오류 문장 음소
2-2-3	.cor_sentence	string	Y	교정 문장
2-2-4	.cor_sentence_spell	string	Y	교정 문장 음소
2-2-5	.reg_date	int		수집일
2-2-6	.errors	array	Y	요류 정보
2-2-6-1	.err_idx	int	Y	오류 식별자
2-2-6-2	.err_location	int	Y	오류 위치
2-2-6-3	.err_text	string	Y	오류 어휘
2-2-6-4	.cor_text	string	Y	교정 어휘
2-2-6-5	.err_details	object	Y	오탈자, 음성 인식기 오류 : object 타입의 오류 유형 정보
2-2-6-5-1	.err_details	array	Y	그 외의 오류 : array 타입의 오류 유형 정보
2-2-6-5-1-1	.choseong	object		편집거리 알고리즘 정보 - 초성
2-2-6-5-1-2	.insert	int		편집거리 알고리즘 입력 횟수
2-2-6-5-1-3	.delete	int		편집거리 알고리즘 삭제 횟수
2-2-6-5-2	.replace	int		편집거리 알고리즘 대체 횟수
2-2-6-5-2-1	.joongseong	object		편집거리 알고리즘 정보 - 중성
2-2-6-5-2-2	.insert	int		편집거리 알고리즘 입력 횟수
2-2-6-5-2-3	.delete	int		편집거리 알고리즘 삭제 횟수
2-2-6-5-3	.replace	int		편집거리 알고리즘 대체 횟수
2-2-6-5-3-1	.jongseong	object		편집거리 알고리즘 정보 - 종성
2-2-6-5-3-2	.insert	int		편집거리 알고리즘 입력 횟수
2-2-6-5-3-3	.delete	int		편집거리 알고리즘 삭제 횟수
2-2-6-5-4	.replace	int		편집거리 알고리즘 대체 횟수
2-2-6-5-4-1	.spacing	object		편집거리 알고리즘 정보 - 공백
2-2-6-5-4-2	.insert	int		편집거리 알고리즘 입력 횟수
2-2-6-5-4-3	.delete	int		편집거리 알고리즘 삭제 횟수
2-2-6-5-5	.replace	int		편집거리 알고리즘 대체 횟수
2-2-6-5-5-1	.mark	object		편집거리 알고리즘 정보 - 문장부호
2-2-6-5-5-2	.insert	int		편집거리 알고리즘 입력 횟수
2-2-6-5-5-3	.delete	int		편집거리 알고리즘 삭제 횟수
2-2-6-5-6	.replace	int		편집거리 알고리즘 대체 횟수
2-2-6-5-6-1	.number	object		편집거리 알고리즘 정보 - 숫자
2-2-6-5-6-2	.insert	int		편집거리 알고리즘 입력 횟수
2-2-6-5-6-3	.delete	int		편집거리 알고리즘 삭제 횟수
2-2-6-5-7	.replace	int		편집거리 알고리즘 대체 횟수
2-2-6-5-7-1	.alphabet	object		편집거리 알고리즘 정보 - 영문자
2-2-6-5-7-2	.insert	int		편집거리 알고리즘 입력 횟수
2-2-6-5-7-3	.delete	int		편집거리 알고리즘 삭제 횟수
2-2-6-6	.replace	int		편집거리 알고리즘 대체 횟수
06-Jun	.edit_distance	int	Y	오류 어휘, 교정 어휘 편집거리

▲ 표05

데이터셋 구축 담당자

수행기관(주관) : ㈜ 유핏

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
김희곤	1544-9370	[email protected]	사업총괄 관리, 데이터 수집 및 정제

수행기관(참여)

수행기관(참여)
기관명	담당업무
메가스터디교육(주)	데이터 수집 및 정제, AI모델
(주)세명소프트	데이터 검사
(사)한국에듀테크산업협회	데이터 가공
㈜솔트룩스이노베이션	저작도구 제작

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
김희곤	1544-9370	[email protected]

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의