콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#발화스타일 # 감정 # 스타일태그 # 감성 # 인공지능 # 음성합성 # TTS # 발화자

감성 및 발화스타일 동시 고려 음성합성 데이터

감성 및 발화 스타일 동시 고려 음성합성 데이터 아이콘 이미지
  • 분야한국어
  • 유형 오디오 , 텍스트
구축년도 : 2022 갱신년월 : 2024-05 조회수 : 18,039 다운로드 : 3,533 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.2 2024-05-03 데이터 최종 개방
    1.1 2023-08-29 원천데이터 및 라벨링데이터 수정
    1.0 2023-04-30 데이터 개방(Beta Version)

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2023-12-01 산출물 전체 공개

    소개

    다양한 감성과 발화스타일을 동시 고려하는 인공지능 기술 개발을 위한 학습용 음성합성 데이터

    구축목적

    비대면 사회 전환과 기술, 산업 환경 변화에 따라 UI와 상품으로 음성 데이터에 대한 필요성이 증대되고 있음. 그러나 보다 자연스러운 한국어 인공지능을 위한 발화스타일 연구는 부족한 상황. 업계나 학계에서 활용할 수 있는 수준의 품질과 범용성을 갖춘 음성 데이터의 신속한 구축 필요.
  • 1. 데이터 구축 규모
    1.1 구축 목표 및 결과

    데이터 구축 규모
    번호 발화 스타일 획득 목표 구축 목표 구축 결과 감정별 대본 수 대본 개수
    7가지 1200 1000 1012 기쁨 슬픔 분노 무감정 63
    1 독백체 200 167 166 3 3 3 2 11
    2 대화체 200 167 168.6 3 3 3 2 11
    3 구연체 200 167 168.6 3 3 3 2 11
    4 중계체 150 124 128.4 선수소개/일반설명/득점상황 9
    5 친절체 200 167 167.4 3 2 2 3 10
    6 애니체 200 167 173.3 3 3 3 1 10
    7 낭독체 50 41 40 - - - 1 1

     

    발화스타일별 구축 시간

    2. 데이터 분포
    2.1 스타일에 따른 다양한 대본 소스 및 비율
    애니체, 친절체, 중계체 등 발화 스타일 특성에 맞춰 대본 구성함. 독백체, 대화체, 구연체는 작품 시대를 고려하여 대본 제작.

    데이터 분포
    대분류 대본 소스 문장 수 비율(%)
    애니체 액션/모험 17,316 18%
    추리/판타지 15,709 17%
    코믹/명랑 17,470 18%
    학원/로맨스 17,170 18%
    소스 없음 26,799 28%
    합계   94,464 100%
    친절체 헬프데스크 9753 10%
    전화상담 65,282 66%
    매장응대 23942 24%
    합계   98,977 100%
    중계체 축구 42,432 53%
    야구 37,840 47%
    합계   80,272 100%

     

    대본 소스별 문장 수 및 비율 이미지

     

    발화스타일의 시대별 획득 시간

    발화스타일의 시대별 획득 시간
    대분류 고대 중세 근대 현대 합계
    독백체 0 2,674 75,206 46,225 124,105
      0.00% 2.15% 60.60% 37.25% 100.00%
    대화체 0 2,685 116,581 38,410 157,676
      0.00% 1.70% 73.94% 24.36% 100.00%
    구연체 2,816 38,663 11,732 51,317 104,528
      2.69% 36.99% 11.22% 49.09% 100.00%
    합계 2,816 44,022 203,519 135,952 386,309

     

    발화스타일별 국내외 도서 획득 시간 이미지

    발화스타일별 국내외 도서 획득 시간 이미지
    대분류 한국 중국 영국 프랑스 기타 합계
    일본 미국 독일
    독백체 48,138 11,400 13,055 27,740 1 100,334
      47.98% 11.36% 13.01% 27.65% 0.00% 100%
    대화체 40779 23578 36730 35406 1 136,494
      29.88% 17.27% 26.91% 25.94% 0.00% 100%
    구연체 92878 4293 0 2456 2 99,629
      93.22% 4.31% 0.00% 2.47% 0.00% 100%
    합계 181,795 39,271 49,785 65,602 4 336,457
    비율(%) 54.03% 11.67% 14.80% 19.50% 0.00% 100%

     

    2.2 감정별 획득시간
    기쁨, 슬픔, 분노, 무감정을 적절히 구성함.

    2 감정별 획득시간
    번호 발화스타일 획득 기쁨 슬픔 분노 무감정
    1 독백체 166 40.9 45.2 39.4 40.4
    2 대화체 168.6 42.4 46.2 40.1 39.9
    3 구연체 168.6 42.5 45.3 39.4 41.3
    4 중계체 128.4 0 0 0 128.4
    5 친절체 167.4 40.7 43.9 42.5 40.2
    6 애니체 173.3 42.1 49.3 40.6 41.2
    7 낭독체 40 0 0 0 40
    합계(시간) 1012.1 208.6 229.9 202.1 371.4
    분포(%) 100.00% 20.60% 22.70% 20.00% 36.70%

     

    감정별 획득 시간 이미지

    2.3 다양한 연령층
    연령대에 따른 발화자 성별 및 인원

    3 다양한 연령층
    연령대 목표% 결과% 시간 명수 성우 일반인
    20대 Z세대 25 26 263 23 7 10 3 3
    30대 M세대 25 24 241 22 9 9 1 3
    40대 영 부머 24 24 240 20 7 9 3 1
    50대 올드 부머 16 16 161 15 6 7 1 1
    60세 이상 11 11 107 9 4 5 0 0
    소계 100 100 1012 89 33 40 8 8

     

    발화스타일별 남녀 녹음 시간 이미지

    2.4 어절 수 분포

    2.4 어절 수 분포
    어절 수 개수 분포
    1~5 127,447 18.60%
    6~10 316,370 46.10%
    11~15 193,307 28.10%
    16~20 39,145 5.70%
    20 이상 10,527 1.50%
    합계 686,796 100.00%
    평균(어절 수) 9.3
     

     

    어쩔 수 분포

     

     

  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    ● 활용 모델
    1. 모델 학습
    • 데이터 구축을 통해 생성된 화자 정보와 감정의 종류는 각각 Speaker ID + Emotion ID 조합으로 입력되고, Reference Audio를 Style embedding을 통해 입력. 
    • Style embedding은 훈련의 사용되는 문장의 음성파일을 Reference audio로 입력하여 audio에 담긴 스타일을 직접 모델에 입력하여 직접적으로 스타일을 학습시키는 역할을 하며 분리된 토큰을 이용하여 스타일의 변화를 줄 수 있음. 

    • 본 과제에서 제안된 모델을 학습하기 위해 공개된 end-to-end 음성학습 툴킷인 ESPnet을 활용하여 TransformerTTS-GST 훈련을 진행함
    • 수집된 68만6천건의 텍스트와 음성데이터를 6개의 스타일별(독백체, 대화체, 구연체, 중계체, 친절체, 애니체)로 분류하여, 음성합성 모델 학습

     

    활용 모델
      학습 검증 시험
    개요 - 공개된 end-to-end 음성학습 툴킷인 ESPnet을 활용하여 TransformerTTS-GST 훈련 - 학습 도중 모델 성과 평가 및 비교 - 모델 학습 완료 후
    - 모델 테스트
    필요 음원 스타일별 8만~15만건의 텍스트와 음성데이터  10%(스타일별 8천건 이상의 텍스트와 음성데이터) 10%(스타일별 8천건 이상의 텍스트와 음성데이터)

     

    학습용데이터 음성합성 훈련서버 학습된 음성합성 모델 구조 이미지

     

    2. 서비스 활용 시나리오 
    • 고품질 데이터 공개로 업계와 학계의 연구와 상품화에 이바지. 로봇, 인공지능 스피커, 키오스크, 가상 아바타 서비스, 게임, 감정 테라피, 재활, 돌봄 서비스 등 더 다양한 서비스에서 TTS 활용 가능
    • 고품질 TTS 보급으로 고품질 콘텐츠 제작 활성화 기여
    • 고품질 TTS 보급으로 소상공인을 위한 디지털 서비스 지원 확대

  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 음성합성 Speech Synthesis Transformer-GST MOS 3.6 3.74

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    음성 및 음성에 대한 스타일 태깅 어노테이션을 포함한 JSON 라벨링 및 메타 데이터
     스타일 음성: WAV
     음성 전사 및 스타일 태깅, 메타 데이터: JSON
     스타일 태깅 정의: JSON

    ● 데이터셋 메타

    데이터셋 메타
    No. 속성 명 항목 설명 타입 필수 작성예시
    1 Dataset.id  데이터셋 식별자  string  M-A301-P01-C-001
    2 Dataset.src_type  녹음 상황 유형  string  작품
    3 Dataset.import  작품(존재할 경우) 정보  객체  아래 참조
    4 Dataset.script  대본 정보 객체  아래 참조
    5 Dataset.sentences  파트 내 문장 정보  객체의 배열  아래 참조
    6 Dataset.voice 음성파일 정보  객체  아래 참조
    7 Dataset.reciter 낭송자 정보 객체 Y 아래 참조
    8 Dataset.studio 녹음환경 정보 객체 Y 아래 참조

     

     

    작품(존재할 경우)에 대한 정보: import로 표기

     
    작품(존재할 경우)에 대한 정보
    No. 속성 명 항목 설명 타입 필수 작성예시
    1 import.id  출처 작품 식별자 string  M0007
    2 import.book_title 출처 도서명 string  결혼 / 염라대왕 자오 / 오규교(終身大事 / 趙閻王 / 五奎橋)
    3 import.title 출처 제목 string  염라대왕 자오(趙閻王)
    4 import.author  출처 저자 string  후스(胡適) / 훙선(洪深)
    5 import.translator 출처 번역자  string  조득창
    6 import.publish_year 출판 연도  number  2019
    7 import.country 출처의 국가 string  Y 중국
    8 import.times_bg 시대적 배경 string  Y 근대

     

     

    대본에 대한 정보: script로 표기 

    대본에 대한 정보
    No. 속성 명 항목 설명 타입 필수 작성예시
    1 script.id  대본 식별자 string  M-A301
    2 script.part_no 대본 파트 번호 string  1
    3 script.origin 대본 파트의 원문 string 배열  ["다리 동쪽의 400여 마지기 논은 나 혼자서 경작한 게 아닌데...", ..]
    4 script.normalized  대본 파트의 TN 처리 결과 string 배열  ["다리 동쪽의 사백 여 마지기 논은 나 혼자서 경작한 게 아닌데...", ..]
    5 script.chars_count 대본 글자 수  number  1333
    6 script.tokens_count 대본 어절 수 number 468

     

     

    파트 내 문장들에 대한 정보: sentences로 표기 

    파트 내 문장들에 대한 정보
    No. 속성 명 항목 설명 타입 필수 작성예시
    1 sentences[].id  문장 식별자 string  M-A3-C-001-0001
    2 sentences[].origin_text 문장 원문 string  기다리라고 하다니, 이건 기다리는 게 아니란 말인가!
    3 sentences[].voice_piece 음성파일 정보 객체   
    03월 01일 sentences[].voice_piece.filename 음성파일 이름 string  M-A3-C-001-0001.wav
    03월 02일 sentences[].voice_piece.tr 철자 전사 string  기다리라고 하다니, 이건 기다리는 게 아니란 말인가!
    03월 03일 sentences[].voice_piece.ptr 발음 전사 string  기다리라고 하다니 / 이건 기다리는 게 아니란 말인가!
    03월 04일 sentences[].voice_piece.duration 음성 구간길이 number  Y 3.07999992
    문장의 시작과 끝
    03월 05일 sentences[].voice_piece.file_duration 음성파일 구간길이 number Y 3.57999992
    sentences[].voice_piece.duration 앞뒤로 묵음 추가된 음원의 길이
    4 sentences[].style 스타일 정보 객체 Y  
    04월 01일 sentences[].style.style 스타일 string Y 독백체
    04월 02일 sentences[].style.emotion 감정 string Y 분노
    04월 03일 sentences[].style.intensity 감정의 강도 number Y 2
    04월 04일 sentences[].style.sub_style 스타일 추가 정보 string N  
    (중계, 대화, 친절, 애니체에서 사용)
    5 sentences[].votes 투표 정보 객체 배열 Y  
    05월 01일 sentences[].votes[].liker_scale 투표 결과 number Y 5
    1: 매우 부적합
    2: 부적합
    3: 보통
    4: 적합
    5:매우 적합
    05월 02일 sentences[].votes[].voter 투표자 객체 Y  
    05월 03일 sentences[].votes[].gender 투표자 성별 string Y FEMALE
    05월 04일 sentences[].votes[].age 투표자 연령대 number Y 40

     

     

    파트 음성파일에 대한 정보: voice로 표기 

    파트 음성파일에 대한 정보
    No. 속성 명 항목 설명 타입 필수 작성예시
    1 voice.filename 파트 음성파일 이름 string  /data2/gst-voice/splitted/M/001/M-A301-P01-C-001.wav
    2 voice.sample_rate 샘플 레이트 number  44100
    3 voice.recorded_at 녹음 일시 timestamp Y 2022-09-06 0:45
    4 voice.duration 녹음 길이 number  373.68

     

     

    낭송자에 대한 정보: reciter로 표기 

    낭송자에 대한 정보
    No. 속성 명 항목 설명 타입 필수 작성예시
    1 reciter.id 낭송자 고유번호 number  1
    2 reciter.gender 샘플 레이트 string  MALE
    3 reciter.age 녹음 일시 number Y 20

     

     

    녹음환경에 대한 정보: studio로 표기

    녹음환경에 대한 정보
    No. 속성 명 항목 설명 타입 필수 작성예시
    1 studio.id 녹음환경 고유 구분자 string  C
    2 studio.name 녹음환경 이름 string 스튜디오3
    3 studio.mic 녹음에 사용된 마이크 기기 정보 string Y AKG C-414 XL ll, XLS
    4 studio.micpre 녹음에 사용된 Micpre-amplifier 기기 정보 string Discrete 8 Synergy Core

     

     

    ● 원천데이터(대본 샘플)

    M-S101

    ▶ 스타일 : 독백체
    ▶ 감정 : 슬픔
    ▶ 강도 : 약함
    ▶ 파트 번호 : 1, 2, 3

    원천데이터
      예시 데이터 항목 json 형식
    텍스트 독백체
    분노
    약함
    1
    M0006
    최정혜
    2022-06-28
    이건 결혼할 때
    가장 꺼리는 사주팔자인데.
    뱀띠와 범띠가 서로 상극이고, 또한 해일과 신시가 돼지와 원숭이의 상극과 같으니, 이건 크게 꺼리는 사주다.
    스타일      
    {
        "id": "M-S101-P01-A-039",
        "src_type": "작품",
        "import": {
          "id": "M0006",
          "book_title": "결혼 / 염라대왕 자오 / 오규교(終身大事 / 趙閻王 / 五奎橋)",
          "title": "결혼(終身大事)",
          "author": "후스(胡適) / 훙선(洪深)"
    "translator": "조득창",
          "publish_year": 2019,
          "country": "중국",
          "times_bg": "근대"
        },
        "script": {
          "id": "M-S101",
          "part_no": 1,
          "origin": [
            "이건 결혼할 때 가장 꺼리는 사주팔자인데.",
            "뱀띠와 범띠가 서로 상극이고, 또한 해일과 신시가 돼지와 원숭이의 상극과 같으니, 이건 크게 꺼리는 사주다.", … ],
          "normalized": [
            "이건 결혼할 때 가장 꺼리는 사주팔자인데.",
            "뱀띠와 범띠가 서로 상극이고, 또한 해일과 신시가 돼지와 원숭이의 상극과 같으니, 이건 크게 꺼리는 사주다.", … ],
          "chars_count": 1338,
          "tokens_count": 490
        },
        "sentences": [
          {
            "id": "M-S1-A-039-0001",
            "origin_text": "이건 결혼할 때 가장 꺼리는 사주팔자인데.",
            "voice_piece": {
              "filename": "M-S1-A-039-0001.wav",
              "tr": "이건 결혼할 때 가장 꺼리는 사주팔자인데.",
              "ptr": "이건  /  결혼할 때 가장 꺼리는 사주팔자인데.",
              "duration": 4.330000162124634,
              "file_duration": 4.830000162124634
            },
            "style": {
              "style": "독백체",
              "emotion": "슬픔",
              "intensity": 1,
              "sub_style": "넋두리"
            },
            "votes": [
              {
                "likert_scale": 5,
                "voter": {
                  "gender": "MALE",
                  "age": 20
                }
              },
              {
                "likert_scale": 5,
                "voter": {
                  "gender": "MALE",
                  "age": 40
                }
              },
              {
    {            "likert_scale": 5,
                "voter": {
                  "gender": "FEMALE",
                  "age": 60
                }
              }
            ]
          },
          {
            "id": "M-S1-A-039-0002",
            "origin_text": "뱀띠와 범띠가 서로 상극이고, 또한 해일과 신시가 돼지와 원숭이의 상극과 같으니, 이건 크게 꺼리는 사주다.",
            "voice_piece": {
              "filename": "M-S1-A-039-0002.wav",
              "tr": "뱀띠와 범띠가 서로 상극이고, 또한 해일과 신시가 돼지와 원숭이의 상극과 같으니, 이건 크게 꺼리는 사주다.",
              "ptr": "뱀띠와 범띠가 서로 상극이고  /  또한  /  해일과 신시가  /  돼지와 원숭이의 상극과 같으니  /  이건  /  크게 꺼리는 사주다.",
              "duration": 11.779999732971191,
              "file_duration": 12.279999732971191
            },
            "style": {
              "style": "독백체",
              "emotion": "슬픔",
              "intensity": 1,
              "sub_style": "넋두리"
            },
            "votes": [
              {
                "likert_scale": 5,
                "voter": {
                  "gender": "MALE",
                  "age": 20
                }
              },
              {
                "likert_scale": 5,
                "voter": {
                  "gender": "MALE",
                  "age": 40
                }
              },
              {
                "likert_scale": 5,
                "voter": {
                  "gender": "FEMALE",
                  "age": 60
                }
              }
            ]
          }, … ],
        "voice": {
          "filename": "/data2/gst-voice/splitted/M/039/M-S101-P01-A-039.wav",
    감정
    강도
    파트 번호
    작품 번호
    낭송자 이름 
    녹음일
    낭송 스크립트
    음성 M-S101-P01-A-039.wav 음성파일 정보

     

     

    데이터 구분
    구분  획득(수집) 단계  정제 단계 가공(라벨링) 단계
    데이터 구분 원시데이터 원천데이터 최종데이터
    데이터 형태 CSV, WAV JSON, WAV JSON, WAV
    데이터 포맷 ○ 150문장씩 읽은 20분 안팎의 wav 파일
    ○ WAV 파일 기준Peak level : -1dB 이하
    Noise Floor : -60dB 이하
    음질 : 44.1kHz
    채널 : Mono
    ○ 50문장 단위 WAV 파일○ WAV 파일 기준: 수집 단계와 동일 ○ 1문장 단위 WAV 파일, 문장 앞뒤로 묵음 0.25초씩 추가
    ○ WAV 파일 기준: 수집 단계와 동일

     

     

    ● 어노테이션 포맷

    어노테이션 포맷
    No. 속성 명 항목 설명 타입 필수 작성예시
    1 sentences[].id  문장 식별자 string  M-A3-C-001-0001
    2 sentences[].origin_text 문장 원문 string  기다리라고 하다니, 이건 기다리는 게 아니란 말인가!
    3 sentences[].voice_piece 음성파일 정보 객체   
    03월 01일 sentences[].voice_piece.filename 음성파일 이름 string  M-A3-C-001-0001.wav
    03월 02일 sentences[].voice_piece.tr 철자 전사 string  기다리라고 하다니, 이건 기다리는 게 아니란 말인가!
    03월 03일 sentences[].voice_piece.ptr 발음 전사 string  기다리라고 하다니 / 이건 기다리는 게 아니란 말인가!
    03월 04일 sentences[].voice_piece.duration 음성 구간길이 number  Y 3.07999992
    문장의 시작과 끝
    03월 05일 sentences[].voice_piece.file_duration 음성파일 구간길이 number Y 3.57999992
    sentences[].voice_piece.duration 앞뒤로 묵음 추가된 음원의 길이
    4 sentences[].style 스타일 정보 객체 Y  
    04월 01일 sentences[].style.style 스타일 string Y 독백체
    04월 02일 sentences[].style.emotion 감정 string Y 분노
    04월 03일 sentences[].style.intensity 감정의 강도 number Y 2
    04월 04일 sentences[].style.sub_style 스타일 추가 정보 string N  
    (중계, 대화, 친절, 애니체에서 사용)
    5 sentences[].votes 투표 정보 객체 배열 Y  
    05월 01일 sentences[].votes[].liker_scale 투표 결과 number Y 5
    1: 매우 부적합
    2: 부적합
    3: 보통
    4: 적합
    5:매우 적합
    05월 02일 sentences[].votes[].voter 투표자 객체 Y  
    05월 03일 sentences[].votes[].gender 투표자 성별 string Y FEMALE
    05월 04일 sentences[].votes[].age 투표자 연령대 number Y 40

     

    ● 데이터 구성

    데이터구성도 이미지

     

     
    어노테이션 포맷
    No Field Name Length Meaning
    a style 3 독백체(M), 대화체(D), 구연체(F), 애니체(A), 친절체(K), 중계체(S), 낭독체(N)
    b reciter 3 001 ~ 159
    num file name 7 K-A3-F-003-0001.wav
  • 데이터셋 구축 담당자

    수행기관(주관) : 커뮤니케이션북스(주)
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    엄진섭 02-3700-1250 [email protected] 사업총괄관리 -일정관리, 사업관리 -저작권 확보, 텍스트 선정 -음원 획득 -낭독자 섭외, 녹음, 음원 제작 -홍보 이벤트 -데이터경진대회 진행
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    (주)나라지식정보 -가공, 검사
    -크라우드 워커 관리
    -품질관리
    (주)셀바스에이아이 -녹음대본 최종 선정
    : 원천데이터로부터 스타일 및 감정별 최종 녹음 대본 선정
    -음성합성용 데이터 구축 가이드
    : 음성합성 학습을 위한 데이터 형식 가이드
    -인공지능 모델링
    : 구축된 데이터를 활용한 인공지능 모델 학습 및 검증
    (주)바이칼에이아이 -정제단계 (baikal VOIX 개발 및 공급)
    -스타일 대본을 참고하여 원시 음성을 문장 및 파트 단위로 분리
    -가공단계 도구제공 (AI달고나)
    -가공단계 도구에서 사용할 수 있는 데이터 업로드
    -인공지능 모델링을 위한 데이터 구축
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    엄진섭 02-3700-1250 [email protected]
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.