콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#수식인식 # 도형 인식 # 손글씨 인식 # Mathematical Expression Recognition # OCR # LaTex generation

수식, 도형, 낙서기호 OCR 데이터

수식, 도형, 낙서기호 OCR 데이터
  • 분야영상이미지
  • 유형 이미지
구축년도 : 2021 갱신년월 : 2022-07 조회수 : 11,655 다운로드 : 734 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2022-07-28 데이터 최초 개방

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2023-01-17 담당자 변경
    2022-10-13 신규 샘플데이터 개방
    2022-07-28 콘텐츠 최초 등록

    소개

    수식 인식 (Mathematical Expression Recognition) 기술을 학습시킬 수 있는 수식, 도형, 낙서 등의 데이터를 충분히 확보함으로써 문자 인식 서비스의 수준을 제고하고 이를 기반으로 하는 시각/언어/음성 연계 인식서비스의 연구개발을 촉진

    구축목적

    - 수식이 포함된 텍스트의 광학 인식률 및 인식 속도 향상을 위한 데이터셋 구축
    - 인쇄체와 손글씨 모두를 포함한 시나리오를 위한 데이터셋 구축 및 배포
    - 그래프, 평면도형, 집합 등의 다양한 교육 특화 도형 요소들을 인식
    - 수식, 도형, 낙서기호 인식을 바탕으로 하는 AI 서비스의 개발과 고도화에 기여
  • 1. 데이터 구축 규모

    1. 데이터 구축 규모
    구분 상세 형식 총 파일 수량
    원천 이미지 인쇄체 PNG 38,997
    손글씨 PNG 149,268
    라벨링 데이터  인쇄체 JSON 38,997
    (수식/텍스트/도형/낙서기호 영역 좌표값 및 속성 라벨링) 손글씨 JSON 149,268

     

    2. 데이터 분포

    2. 데이터 분포
    항목 조건구분 건수 비율(%)
    인쇄체/손글씨 분포 인쇄체 38,997건 20.71%
    손글씨 149,268건 79.29%
    교육과정 단원별 분포 초등 수학 21,757건 11.56%
    중등 수학 68,899건 36.60%
    고등 수학 97,609건 51.85%
    수식/텍스트, 도형, 낙서기호 분포 수식/텍스트 352,653건 90.33%
    도형 8,991건 2.30%
    낙서기호 28,735건 7.36%

     

    * 손글씨 데이터의 경우, 원시데이터 38,990장에 대해 통이미지, 조각이미지(파일명에 HA(통이미지), HS(조각이미지) 식별자 포함)로 나누어 데이터셋이 구축되었고, 하나의 이미지에 여러 개의 수식/텍스트, 도형, 낙서기호가 들어 가 있을 수 있음

     

    2. 데이터 분포
    교육과정 단원명 수량
    초등수학(4상) 411 큰수 454
    412 곱셈과 나눗셈 959
    413 평면도형의 이동 572
    414 각도 829
    415 규칙 찾기 209
    416 막대그래프 470
    초등수학(4하) 421 분수의 덧셈과 뺄셈 235
    422 소수의 덧셈과 뺄셈 295
    423 삼각형 164
    424 사각형 886
    425 다각형 149
    426 꺾은선그래프 570
    초등수학(5상) 511 자연수의 혼합 계산 538
    512 약수와 배수 716
    513 약분과 통분 564
    514 분수의 덧셈과 뺄셈 25
    515 다각형의 둘레와 넓이 851
    516 규칙과 대응 168
    초등수학(5하) 521 분수의 곱셈 753
    522 소수의 곱셈 748
    523 합동과 대칭 738
    524 직육면체 609
    525 수의 범위와 어림하기 765
    526 평균과 가능성 547
    초등수학(6상) 611 분수의 나눗셈 719
    612 소수의 나눗셈 752
    613 각기둥과 각뿔 581
    614 직육면체의 부피와 겉넓이 598
    615 비와 비율 742
    616 여러가지 그래프 705
    초등수학(6하) 621 분수의 나눗셈 742
    622 소수의 나눗셈 917
    623 공간과입체 650
    624 원기둥, 원뿔, 구 611
    625 원의 넓이 607
    626 비례식과 비례배분 619
    중등수학(1상) 711 소인수분해 6,753
    712 정수와 유리수 6,857
    713 문자의 사용과 식의 계산 6,523
    714 일차방정식 5,782
    715 좌표평면과 그래프 2,551
    중등수학(1하) 721 기본도형 3,730
    722 작도와 합동 1,297
    723 평면도형의 성질 2,900
    724 입체도형의 성질 1,278
    725 자료의 정리와 해석 958
    중등수학(2상) 811 유리수와 순환소수 1,006
    812 식의 계산 585
    813 일차부등식과  1,050
    연립일차방정식
    814 일차함수와 그래프 2,538
    815 일차함수와 일차방정식의  949
    관계
    중등수학(2하) 821 삼각형과 사각형의 성질 5,160
    822 도형의 닮음 2,985
    823 피타고라스 정리 1,558
    824 확률과 그 기본 성질 1,203
    중등수학(3상) 911 제곱근과 실수 1,057
    912 다항식의 곱셈과 인수분해 1,109
    913 이차방정식 1,542
    914 이차함수와 그래프 1,276
    중등수학(3하) 921 삼각비 4,085
    922 원의 성질 2,684
    923 대푯값과 산포도 996
    924 상관관계 487
    고등수학(상) 1011 다항식의 연산 2,058
    1012 나머지정리 1,202
    1013 인수분해 895
    1014 복소수와 이차방정식 2,141
    1015 이차방정식과 이차함수 2,632
    1016 여러가지 방정식과 부등식 3,823
    1017 평면좌표 1,881
    1018 직선의 방정식 3,213
    1019 원의 방정식 3,217
    1010 도형의 이동 1,468
    고등수학(하) 1021 집합 5,417
    1022 명제 1,507
    1023 함수 5,227
    1024 유리함수와 무리함수 3,968
    1025 경우의 수 1,556
    1026 순열과 조합 1,499
    수학I 1111 지수와 로그 1,133
    1112 지수함수와 로그함수 2,064
    1113 삼각함수 3,054
    1114 등차수열과 등비수열 2,598
    1115 수열의 합 2,952
    1116 수학적 귀납법 2,389
    수학II 1121 함수의 극한 2,154
    1122 함수의 연속 1,235
    1123 미분계수 1,195
    1124 도함수 492
    1125 도함수의 활용 4,949
    1126 부정적분 1,440
    1127 정적분 1,653
    1128 정적분의활용 1,416
    미적분 1211 수열의 극한 1,475
    1212 급수 1,477
    1213 여러 가지 함수의 미분 2,415
    1214 여러 가지 미분법 1,506
    1215 도함수의 활용 2,975
    1216 여러 가지 적분법 1,354
    1217 정적분의 활용 1,595
    확률과 통계 1221 순열과 조합, 이항정리 2,470
    1222 확률의 뜻과 적용 1,173
    1223 조건부확률 886
    1224 확률분포 2,251
    1225 통계적 추정 708
    기하 1231 이차곡선 2,367
    1232 벡터의 연산 912
    1233 평면벡터의 성분과 내적 1,509
    1234 직선과 평면, 정사영 925
    1235 공간좌표 1,192

     

  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    □ 모델학습

    • 수식 인식에 있어 현 시점에서 공개된 가장 큰 데이터셋인 im2latex-100k 기준으로 가장 성능이 좋은 ConvMath 모델의 개선 버전인 ConvMath_ViT 사용함(ConvMath(A Convolutional Sequence Network for Mathematical Expression Recognition) 논문 참조
    • ConvMath_ViT 모델은 ConvMath 모델의 기본적인 구조를 사용하면서 Encoder로 Google Research의 Google Brain 팀이 발표한 논문에서 소개한 ViT(Vision Transformer) 모델을 Convolution Layer 대신 활용함
    • 현재까지 논문으로 공개된 데이터셋이나 모델은 수식 이미지를 보고 Latex Markup Language를 표현하는 Task에 한정됨. 따라서 수식 데이터에 대해서만 성능 측정함

    수식, 도형, 낙서기호 OCR-모델학습_1_ConvMath 모델의 기본 구조

    [ConvMath 모델의 기본 구조]

     

    수식, 도형, 낙서기호 OCR-모델학습_2_ViT 모델 개요

    [ViT 모델 개요]

     

    • 서비스 활용 시나리오

     (1) 수학, 물리학 등 수식을 많이 활용하는 기초 과학 분야 문서의 디지털화를 촉진함으로써 국가 기초과학 연구 기반 확충
     (2) 비대면 온라인 수업이 확대되고 있는 상황에서 수학 및 물리, 화학 공식에 대한 검색, 확인, 전달 방식을 획기적으로 개선함으로써 온라인 학습의 효용성 제고
     (3) 교육, 엔지니어링, 기초 및 응용과학 분야의 생산성을 제고함으로써 국가경쟁력을 강화

     

  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 수식 인식(인쇄체) Optical Character Recognition ConvMath_ViT BLEU 0.7 0.8192
    2 수식 인식(손글씨) Optical Character Recognition ConvMath_ViT BLEU 0.3 0.3723

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    교육부 2015 개정 초등4학년~고등학교 수학 교과 과정 내용을 인쇄체, 손글씨로 표현한 이미지 데이터 상의 학습 요소(수식, 한국어 텍스트, 도형, 산술식 풀이 상 사용된 낙서기호)를 대상으로 폴리곤을 활용한 영역 및 LaTex(수식텍스트), 구성정보(도형) 등 속성 라벨링을 수행하여 구축  

     

    단계
    단계 내용
    원천데이터 획득 수식, 도형, 낙서기호 OCR-원천데이터 획득_1

    - 교과 학습 컨텐츠 획득 절차

    수식, 도형, 낙서기호 OCR-원천데이터 획득_2_교과 학습 컨텐츠 획득 절차

    손글씨 풀이 이미지 획득 절차

    수식, 도형, 낙서기호 OCR-원천데이터 획득_3_손글씨 풀이 이미지 획득 절차

    손글씨 첨삭 이미지 획득 절차

    수식, 도형, 낙서기호 OCR-원천데이터 획득_4_손글씨 첨삭 이미지 획득 절차

    원천데이터 정제 수식, 도형, 낙서기호 OCR-원천데이터 정제_1
    데이터 가공 수식, 도형, 낙서기호 OCR-데이터 가공_1
    데이터 검수 수식, 도형, 낙서기호 OCR-데이터 검수_1

     

     

    □ 대표도면

    대표도면
      이미지
    인쇄체 데이터
    (Recognition용)

    수식, 도형, 낙서기호 OCR-대표도면_1_인쇄체 데이터(Recognition용)(1)

    수식, 도형, 낙서기호 OCR-대표도면_2_인쇄체 데이터(Recognition용)(2)

    손글씨 데이터 Detection+Recognition 겸용 수식, 도형, 낙서기호 OCR-대표도면_3_손글씨 데이터-Detection+Recognition 겸용
    Recognition 전용 수식, 도형, 낙서기호 OCR-대표도면_4_손글씨 데이터-Recognition 전용

     

     

    □ 라벨링데이터 구성

    라벨링데이터 구성
    구분 항목명 타입 필수여부 설명 범위
    1 id String Y 식별자  
    2 chapter_id String Y 학습요소 ID  
    3 material_type String Y 인쇄체/손글씨  
    4 segments Object   이미지정보  
      4–1 segments.box List Y 라벨링바운딩박스 4~8점
    4–2 segments.type String Y 영역 유형 수식/텍스트, 도형, 낙서기호
    4–3 segments.type_detail String Y 세부 유형 한글/수식
    집합/표/...
    체크/밑줄/...
    4–4 segments.equation String   수식/한글 LaTeX  
    4–5 segments.graphic_info Object   그래픽 세부 정보 구성 정보
    4–6 segments.doodle_info String   낙서 부가 정보 긍정/강조/..

     

     

    □ 라벨링데이터 실제예시

    라벨링데이터 실제예시
    이미지 라벨링 데이터
    수식, 도형, 낙서기호 OCR-라벨링데이터 실제예시_1
    {
        "id": "7bad4c",
        "chapter_id": "24",
        "material_type": "인쇄체",
        "segments": [
            {
                "box": [[0, 0], [350, 0], [350, 40], [0, 40]],
                "type": "수식/텍스트",
                "type_detail": "수식",
                "equation": "$D=36a^2-4(9a^2-2a+18)$"
            },
            {
                "box": [[0, 40], [310, 40], [310, 80], [0, 80]],
                "type": "수식/텍스트",
                "type_detail": "수식",
                "equation": "=36a^2-36a^2+8a-72"
            }
        ]
    }{
    수식, 도형, 낙서기호 OCR-라벨링데이터 실제예시_2
    {
        "id": "aee9e9",
        "chapter_id": "42",
        "material_type": "인쇄체",
        "segments": [
            {
                "box": [[0, 0], [270, 0], [270, 150], [0, 150]],
                "type": "도형",
                "type_detail": "벤다이어그램",
                "graphic_info": {
                    "U": ["1", "2", "3", "4", "5", "6"],
                    "A": ["1", "2", "3"],
                    "B": ["2", "3", "4"]
                }
            }
        ]
    }
    수식, 도형, 낙서기호 OCR-라벨링데이터 실제예시_3
    {
        "id": "412194",
        "chapter_id": "53",
        "material_type": "손글씨",
        "segments": [
            {
                "box": [[21, 12], [552, 12], [552, 46], [21, 46]],
                "type": "수식/텍스트",
                "type_detail": "텍스트/수식",
                "equation": "$y=ax+b$가 $(-3,0)$을 지나고, 삼각형의 넓이는"
            },
            {
                "box": [[26, 191], [314, 191], [314, 224], [26, 224]],
                "type": "수식/텍스트",
                "type_detail": "수식",
                "equation": "\therefore a+b = \frac{2}{3}+(-1) = -\frac{1}{3}"
            },
           {
                "box": [[61, 275], [260, 275], [260, 307], [61, 307]],
                "type": "수식/텍스트",
                "type_detail": "텍스트",
                "equation": "문제를 해결한 후 꼭꼭꼭 !"
            },
            {
                "box": [[119, 80], [130, 80], [130, 89], [119, 89]],
                "type": "낙서기호",
                "type_detail": "체크",
                "doodle_info": "강조"
            }, ...
        ]
    }
    수식, 도형, 낙서기호 OCR-라벨링데이터 실제예시_4
    {
        "id": "ddaece",
        "chapter_id": "36",
        "material_type": "손글씨",
        "segments": [
            {
                "box": [[0, 0], [124, 0], [124, 25], [0, 25]],
                "type": "수식/텍스트",
                "type_detail": "수식",
                "equation": "$a^2-a-6=0$"
            }
        ]
    }
  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜씨유박스
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    박준석 02-6277-7835 [email protected] 데이터 설계, 품질 관리 및 학습 모델 개발
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    ㈜제제듀 데이터 설계, 수집, 정제, 가공 및 검수 (수식텍스트 LaTex 라벨링, 도형 구성정보 라벨링 담당)
    ㈜크라우드웍스 데이터 수집, 정제, 가공 및 검수 (수식, 도형, 낙서기호 영역 라벨링 담당)
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    한상훈 02-6277-7835 [email protected]
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.