인터페이스(자판/음성)별 고빈도 오류 교정 데이터
- 분야한국어
- 유형 텍스트
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2023-12-01 데이터 최종 개방 1.0 2023-07-31 데이터 개방(Beta Version) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2023-12-15 산출물 전체 공개 소개
한글 입력 인터페이스(일반 키보드, 스마트폰 쿼티 및 천지인, 음성)에서 특징적으로 나타나는 오탈자 및 띄어쓰기 등 오류를 탐지하고 적절한 맞춤법으로의 자동전환을 학습하기 위한 데이터
구축목적
최신 디지털 기기 인터페이스에서 나타나는 오탈자 및 띄어쓰기를 탐지, 검사할 수 있는 언어모델 연구, 개발을 위함 잘못 된 맞춤법 사용으로 작성된 문장을 올바른 맞춤법으로 교정할 수 있는 언어모델을 연구, 개발하기 위함
-
메타데이터 구조표 데이터 영역 한국어 데이터 유형 텍스트 데이터 형식 json, csv 데이터 출처 게시판, 뉴스 및 강의 음성, aihub 한국어 SNS 데이터셋 라벨링 유형 오류 교정 라벨링 형식 json 데이터 활용 서비스 맞춤법 오류 교정 서비스 데이터 구축년도/
데이터 구축량2022년/290,500 -
- 데이터 통계
> 데이터 구축 규모데이터 구축 규모 구분 상세구분 수량(문장) 소계 비율 비고 오탈자 PC/쿼티 39,600 110,000 55% mobile/쿼티 39,600 mobile/천지인 30,800 맞춤법 오류 자유게시판 18,000 60,000 30% 질문게시판 24,000 SNS 18,000 음성 인식기 오류 STT_ENGINE_01 9,000 30,000 15% STT_ENGINE_02 9,000 STT_ENGINE_03 12,000 자동 생성 오류 - 30,000 - - 추가 수량 띄어쓰기/문장부호 오류 - 60,000 - - 추가 수량 자주 틀리는 맞춤법 오류 - 500 - - 추가 수량 합계 290,500 ▲ 표06
> 데이터 분포
오탈자데이터 분포 - 오탈자 입력 인터페이스 소계 초중등 고등 20대~40대 40대이상 pc/쿼티 39,600 7,920 7,920 13,860 9,900 mobile/쿼티 39,600 7,920 7,920 13,860 9,900 mobile/천지인 30,800 6,160 6,160 10,780 7,700 합계 110,000 22,000 22,000 38,500 27,500 ▲ 표07
맞춤법 오류데이터 분포 - 맞춤법 오류 데이터 출처 소계 초중등 고등 20대~40대 40대이상 자유게시판 18,000 2,368 11,554 4,058 20 질문게시판 24,000 2,495 18,292 3,156 57 SNS 18,000 2,176 7,620 7,867 337 합계 60,000 7,039 37,466 15,081 414 ▲ 표08
음성 인식기 오류
데이터 분포 - 음성 인식기 오류 입력 인터페이스 데이터 수량 비율 오류 수량 비율 평균 오류 수량 STT_ENGINE_01 9,000 30% 45,565 36% 5.06 STT_ENGINE_02 9,000 30% 35,779 28% 3.98 STT_ENGINE_03 12,000 40% 44,967 36% 3.75 합계 / 평균 30,000 126,311 4.26 ▲ 표09
▲ 그림01▲ 그림02
구분 및 값 구분
값 모델 ko-BART learning rate 1.00E-04 batch size 64 max epoch 30 ▲ 표10
- 서비스 활용 시나리오
> 한국어 오류 교정 서비스에 활용
1. 구축한 데이터로 학습된 모델을 한국어 오류 교정 서비스에 활용할 수 있음
2. AI 단독 모델로는 한계 존재, 규칙 기반 교정을 추가로 정의하여 사용 할 것을 권고
> 한국어 오류 교정 연구에 활용
1. 오류 어휘, 교정 어휘를 분석하여 한국어 오류에 대한 연구에 활용
> 한국어 오류 교정 임무에 벤치마크로 활용
1. 개발한 한국어 오류 교정 모델에 대한 성능 평가 데이터로 활용 -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드- 활용 모델
> AI Framework: PyTorch
> Toolkit: Huggingface
> 모델 학습
한국어 오류 교정 임무를 수행하기 위한 인공지능 모델로 ko-BART를 활용하였으며, 해당 모델은 구글에서 발표한 논문의 사전학습 방식을 한국어에 적용하여 사전학습 시킨 모델임
사전 학습된 ko-BART 모델을 해당 임무에 적합하도록 Fine-Tuning하였음 -
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 Transformer 오류 문장 교정 Prediction Bart F0.5-Score 0.5 점 0.5907 점 2 Transformer 사전 학습 오류 문장 교정 Prediction Bart F0.5-Score 0.5 점 0.7863 점
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드- 데이터 포맷
> 원문데이터 포맷 예시원문데이터 포맷 예시 - 오탈자 데이터 오탈자 데이터 장치 PC 키보드 쿼티 나이 16 원본 스크립트 : 구두가 몇 켤레인지 개수를 세어보렴. 어렵지 않을 거야! 입력 : 굳가 몇켤레인지 개수를 세어보렴, 어렵지않을거야~ json
실제 예시{ "metadata_info": { "id": "ota0000000203152", "interface": "pc", "keyboard": "쿼티", "age": 16 }, "annotation": { "err_sentence": "굳가 몇켤레인지 개수를 세어보렴, 어렵지않을거야~", "err_sentence_spell": "굳가 몇켤레인지 개수를 세어보렴, 어렵지않을거야~", "cor_sentence": "구두가 몇 켤레인지 개수를 세어보렴. 어렵지 않을 거야!", "cor_sentence_spell": "구두가 몇 켤레인지 개수를 세어보렴. 어렵지 않을 거야!", "reg_date": 20220812, "errors": [ { "err_idx": 0, "err_location": 0, "err_text": "굳가", "cor_text": "구두가", "err_details": { "choseong": { "insert": 1, "delete": 0, "replace": 0 }, "joongseong": { "insert": 0, "delete": 0, "replace": 0 }, "jongseong": { "insert": 0, "delete": 0, "replace": 1 }, "spacing": { "insert": 0, "delete": 0, "replace": 0 }, "mark": { "insert": 0, "delete": 0, "replace": 0 }, "number": { "insert": 0, "delete": 0, "replace": 0 }, "alphabet": { "insert": 0, "delete": 0, "replace": 0 } }, "edit_distance": 2 }, ... ] } } ▲ 표01
원문데이터 포맷 예시 - 맞춤법 오류 맞춤법 오류 출처 자유게시판 작성일 2021. 04. 22 성별 여성 나이 17 원본 아뇨 토픽 수업을 해 본 적이 없... 아 대강 때 토픽 일기 했는데 믄제풀이라서 읽고 문제 풀이만 함 맞닼 그리고 조금 긴 시간 동안 문제 풀게 해야 하니끄아 그렇지?? 전처리 토픽 일기 했는데 믄제풀이라서 읽고 문제 풀이만 함 json
실제 예시{ "metadata_info": { "id": "grm2210120098701", "source": "SNS", "date": 20210422, "gender": "M", "age": 20 }, "annotation": { "err_sentence": "토픽 일기 했는데 믄제풀이라서 읽고 문제 풀이만 함", "err_sentence_spell": "토픽 일기 했는데 믄제풀이라서 읽고 문제 풀이만 함", "cor_sentence": "토픽 읽기 했는데 문제 풀이라서 읽고 문제 풀이만 함.", "cor_sentence_spell": "토픽 읽기 했는데 문제 풀이라서 읽고 문제 풀이만 함.", "reg_date": 20221012, "errors": [ { "err_idx": 0, "err_location": 1, "err_text": "일기", "cor_text": "읽기", "err_details": ["유사 모양"], "edit_distance": 1 }, { "err_idx": 1, "err_location": 3, "err_text": "믄제풀이라서", "cor_text": "문제 풀이라서", "err_details": ["띄어쓰기", "유사 모양"], "edit_distance": 2 }, { "err_idx": 2, "err_location": 7, "err_text": "함", "cor_text": "함.", "err_details": ["문장부호"], "edit_distance": 1 } ▲ 표02
원문데이터 포맷 예시 - 음성 인식기 오류 음성 인식기 오류 사용 엔진 ENGINE_01 원본 그러면 다 필요 필요가 없어 필요없어요. 파이날만에 개인적으로 아이들한테 그렇게 얘기를 했어요. 필수 거리는 긔거고 야 솔직히 깨념 완반만 아벽하면 만점 그으냥 나와 그리고 제가 현장에 있는 아이들한테도 고3들한테 야 야 굳이 안 들어도 돼 역시 국어 열심히 수학 열심히 해 훨씬 더 중요한 거는 그쪽 과목이잖아. 전처리 필수 거리는 긔거고 야 솔직히 깨념 완반만 아벽하면 만점 그으냥 나와 json
실제 예시{ "metadata_info": { "id": "aud2207130001058", "source": "STT_ENGINE_01" }, "annotation": { "err_sentence": "필수 거리는 긔거고 야 솔직히 깨념 완반만 아벽하면 만점 그으냥 나와", "err_sentence_spell": "필수 거리는 긔거고 야 솔직히 깨념 완반만 아벽하면 만점 그으냥 나와", "cor_sentence": "필수 커리는 그거고 야 솔직히 개념 완성반만 완벽하면 만점 그냥 나와.", "cor_sentence_spell": "필수 커리는 그거고 야 솔직히 개념 완성반만 완벽하면 만점 그냥 나와.", "reg_date": 20220713, "errors": [ { "err_idx": 0, "err_location": 1, "err_text": "거리는", "cor_text": "커리는", "err_details": { "choseong": { "insert": 0, "delete": 0, "replace": 1 }, "joongseong": { "insert": 0, "delete": 0, "replace": 0 }, "jongseong": { "insert": 0, "delete": 0, "replace": 0 }, "spacing": { "insert": 0, "delete": 0, "replace": 0 }, "mark": { "insert": 0, "delete": 0, "replace": 0 }, "number": { "insert": 0, "delete": 0, "replace": 0 }, "alphabet": { "insert": 0, "delete": 0, "replace": 0 } }, "edit_distance": 1 }, .. ] } } ▲ 표03
- 데이터 구성데이터 구성 Key Description Type Child Type info 데이터셋 정보 object description 데이터셋 명 string data_name 데이터셋 한글명 string data_description 데이터셋 상세설명 string creator 데이터셋 생산자 string distributor 데이터셋 제공자 string version 데이터셋 버전 string data 데이터 목록 array object metadata_info 데이터 메타 정보 object id 데이터 고유 식별자 string source 데이터 출처 string date 게시글 작성일 int gender 게시글 작성자 성별 string age 게시글 작성자 나이 int interface 작성자 인터페이스 string keyboard 작성자 키보드 string annotation 라벨링 정보 object err_sentence 오류 문장 string err_sentence_spell 오류 문장 음소 string cor_sentence 교정 문장 string cor_sentence_spell 교정 문장 음소 string reg_date 수집일 int errors 요류 정보 array object err_idx 오류 식별자 int err_location 오류 위치 int err_text 오류 어휘 string cor_text 교정 어휘 string err_details 오탈자, 음성 인식기 오류 : object 타입의 오류 유형 정보 object choseong 그 외의 오류 : array 타입의 오류 유형 정보 array object insert 편집거리 알고리즘 정보 - 초성 object delete 편집거리 알고리즘 입력 횟수 int replace 편집거리 알고리즘 삭제 횟수 int joongseong 편집거리 알고리즘 대체 횟수 int insert 편집거리 알고리즘 정보 - 중성 object delete 편집거리 알고리즘 입력 횟수 int replace 편집거리 알고리즘 삭제 횟수 int jongseong 편집거리 알고리즘 대체 횟수 int insert 편집거리 알고리즘 정보 - 종성 object delete 편집거리 알고리즘 입력 횟수 int replace 편집거리 알고리즘 삭제 횟수 int spacing 편집거리 알고리즘 대체 횟수 int insert 편집거리 알고리즘 정보 - 공백 object delete 편집거리 알고리즘 입력 횟수 int replace 편집거리 알고리즘 삭제 횟수 int mark 편집거리 알고리즘 대체 횟수 int insert 편집거리 알고리즘 정보 - 문장부호 object delete 편집거리 알고리즘 입력 횟수 int replace 편집거리 알고리즘 삭제 횟수 int number 편집거리 알고리즘 대체 횟수 int insert 편집거리 알고리즘 정보 - 숫자 object delete 편집거리 알고리즘 입력 횟수 int replace 편집거리 알고리즘 삭제 횟수 int alphabet 편집거리 알고리즘 대체 횟수 int insert 편집거리 알고리즘 정보 - 영문자 object delete 편집거리 알고리즘 입력 횟수 int replace 편집거리 알고리즘 삭제 횟수 int edit_distance 편집거리 알고리즘 대체 횟수 int 06-Jun .edit_distance int Y ▲ 표04
- 어노테이션 포맷
어노테이션 포맷 번호 항목명 타입 필수 설명 1 info object Y 데이터셋 정보 1-1 .description string Y 데이터셋 명 1-2 .data_name string Y 데이터셋 한글명 1-3 .data_description string Y 데이터셋 상세설명 1-4 .creator string Y 데이터셋 생산자 1-5 .distributor string Y 데이터셋 제공자 1-6 .version string Y 데이터셋 버전 2 data array Y 데이터 목록 2-1 .metadata_info object Y 데이터 메타 정보 2-1-1 .id string Y 데이터 고유 식별자 2-1-2 .source string 데이터 출처 2-1-3 .date int 게시글 작성일 2-1-4 .gender string 게시글 작성자 성별 2-1-5 .age int 게시글 작성자 나이 2-1-6 .interface string 작성자 인터페이스 2-1-7 .keyboard string 작성자 키보드 2-2 .annotation object Y 라벨링 정보 2-2-1 .err_sentence string Y 오류 문장 2-2-2 .err_sentence_spell string Y 오류 문장 음소 2-2-3 .cor_sentence string Y 교정 문장 2-2-4 .cor_sentence_spell string Y 교정 문장 음소 2-2-5 .reg_date int 수집일 2-2-6 .errors array Y 요류 정보 2-2-6-1 .err_idx int Y 오류 식별자 2-2-6-2 .err_location int Y 오류 위치 2-2-6-3 .err_text string Y 오류 어휘 2-2-6-4 .cor_text string Y 교정 어휘 2-2-6-5 .err_details object Y 오탈자, 음성 인식기 오류 : object 타입의 오류 유형 정보 2-2-6-5-1 array 그 외의 오류 : array 타입의 오류 유형 정보 2-2-6-5-1-1 .choseong object 편집거리 알고리즘 정보 - 초성 2-2-6-5-1-2 .insert int 편집거리 알고리즘 입력 횟수 2-2-6-5-1-3 .delete int 편집거리 알고리즘 삭제 횟수 2-2-6-5-2 .replace int 편집거리 알고리즘 대체 횟수 2-2-6-5-2-1 .joongseong object 편집거리 알고리즘 정보 - 중성 2-2-6-5-2-2 .insert int 편집거리 알고리즘 입력 횟수 2-2-6-5-2-3 .delete int 편집거리 알고리즘 삭제 횟수 2-2-6-5-3 .replace int 편집거리 알고리즘 대체 횟수 2-2-6-5-3-1 .jongseong object 편집거리 알고리즘 정보 - 종성 2-2-6-5-3-2 .insert int 편집거리 알고리즘 입력 횟수 2-2-6-5-3-3 .delete int 편집거리 알고리즘 삭제 횟수 2-2-6-5-4 .replace int 편집거리 알고리즘 대체 횟수 2-2-6-5-4-1 .spacing object 편집거리 알고리즘 정보 - 공백 2-2-6-5-4-2 .insert int 편집거리 알고리즘 입력 횟수 2-2-6-5-4-3 .delete int 편집거리 알고리즘 삭제 횟수 2-2-6-5-5 .replace int 편집거리 알고리즘 대체 횟수 2-2-6-5-5-1 .mark object 편집거리 알고리즘 정보 - 문장부호 2-2-6-5-5-2 .insert int 편집거리 알고리즘 입력 횟수 2-2-6-5-5-3 .delete int 편집거리 알고리즘 삭제 횟수 2-2-6-5-6 .replace int 편집거리 알고리즘 대체 횟수 2-2-6-5-6-1 .number object 편집거리 알고리즘 정보 - 숫자 2-2-6-5-6-2 .insert int 편집거리 알고리즘 입력 횟수 2-2-6-5-6-3 .delete int 편집거리 알고리즘 삭제 횟수 2-2-6-5-7 .replace int 편집거리 알고리즘 대체 횟수 2-2-6-5-7-1 .alphabet object 편집거리 알고리즘 정보 - 영문자 2-2-6-5-7-2 .insert int 편집거리 알고리즘 입력 횟수 2-2-6-5-7-3 .delete int 편집거리 알고리즘 삭제 횟수 2-2-6-6 .replace int 편집거리 알고리즘 대체 횟수 06-Jun .edit_distance int Y 오류 어휘, 교정 어휘 편집거리 ▲ 표05
-
데이터셋 구축 담당자
수행기관(주관) : ㈜ 유핏
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김희곤 1544-9370 [email protected] 사업총괄 관리, 데이터 수집 및 정제 수행기관(참여)
수행기관(참여) 기관명 담당업무 메가스터디교육(주) 데이터 수집 및 정제, AI모델 (주)세명소프트 데이터 검사 (사)한국에듀테크산업협회 데이터 가공 ㈜솔트룩스이노베이션 저작도구 제작 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 김희곤 1544-9370 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.