-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2022-07-12 데이터 최초 개방 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2023-01-31 담당자 변경 2022-10-20 신규 샘플데이터 개방 2022-07-12 콘텐츠 최초 등록 소개
인간의 감정이 가장 풍부하게 드러난 문학 작품을 성우, 배우와 같은 감정 표현 전문가들이 낭독한 AI 합성용 음성 데이터이다. 시 장르가 131.5시간, 희곡/시나리오 166시간, 소설 159시간으로 총 456.6시간을 구축하였다.
구축목적
인공지능이 인간의 감정을 학습할 수 있는 데이터이다. 음성 인공지능 기술과 서비스의 감정 표현 개발에 활용되어 문학 작품 낭송 오디오 콘텐츠의 범용화에 이바지하는 데 목적이 있다.
-
메타데이터 구조표 데이터 영역 한국어 데이터 유형 오디오 데이터 형식 음성 데이터 출처 전 세계 문학작품을 낭송 대본으로, 전문 스튜디오에서 성우들이 녹음 라벨링 유형 철자전사, 발음전사, 스타일 및 감정에 대한 동의 투표 라벨링 형식 JSON 데이터 활용 서비스 오디오북, 영상 오디오 콘텐츠 제작, ARS 안내음성 데이터 구축년도/
데이터 구축량2021년/456시간 -
데이터 통계
- 데이터 구축 규모
- 획득시간 555시간, 정제시간 456.6시간
데이터 통계 장르 획득 시간 정제 시간 비율 시 155 131.5 28.80% 희곡/시나리오 208 166 36.40% 소설 192 159 34.80% 합계 555 456.5 100%
- 대본 사용 총 4510개
대본 사용 감정 기쁨 당황 슬픔 분노 불안 상처 무감정 합계 대본 사용 661 650 659 658 662 647 573 4,510
- 획득시간 555시간, 정제시간 456.6시간
- 데이터 분포
- 감정별 분포: 기쁨, 슬픔, 분노, 당황, 불안, 상처, 무감정
감정별 분포 감정 기쁨 슬픔 분노 당황 불안 상처 무감정 합계 달성 14.8% 13.8% 14.8% 14.8% 14.9% 14.5% 12.9% 100%
- 낭송자 연령 및 성별 분포: 20~29 Z세대, 30~39 M세대, 40~49 영 부머, -50~64 올드부머, 65~90 시니어
낭송자 연령 및 성별 분포 구분 남 여 달성 20~29 Z세대 6 6 26% 30~39 M세대 5 5 22% 40~49 영 부머 5 4 20% 50~64 올드부머 5 5 22% 65~90 시니어 3 2 11% 합계 24 22 100%
- 대본의 시대별 분포: 고대 / 중세, 근대, 현대
대본의 시대별 분포 장르 고대 / 중세 근대 현대 합계 BC~1400 1401~1900 1901~현재 소설 103 570 834 1507 시 484 419 561 1464 희곡 292 548 699 1539 합계 879 1,537 2,094 4510 결과 19.50% 34.10% 46.40% 100%
- 감정별 분포: 기쁨, 슬픔, 분노, 당황, 불안, 상처, 무감정
- 데이터 구축 규모
-
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드활용모델
- 모델학습
- 데이터 구축을 통해 생성된 화자 정보와 감정의 종류는 각각 Speaker ID + Emotion ID 조합으로 입력되고, Reference Audio를 Style embedding을 통해 입력.
- Style embedding은 훈련의 사용되는 문장의 음성파일을 Reference audio로 입력하여 audio에 담긴 스타일을 직접 모델에 입력하여 직접적으로 스타일을 학습시키는 역할을 하며 분리된 토큰을 이용하여 스타일의 변화를 줄 수 있음.
- 본 과제에서 제안된 모델을 학습하기 위해 공개된 end-to-end 음성학습 툴킷인 ESPnet을 활용하여 GST-Tacotron2 훈련을 진행함.
- 수집된 4만5천건의 텍스트와 음성데이터를 장르별(시, 소설, 희곡)로 분류하여, 음성합성 모델 학습.
-
활용모델 학습 검증 시험 개요 - 공개된 end-to-end 음성학습 툴킷인 ESPnet을 활용하여 GST-Tacotron2 훈련 - 학습 도중 모델 성과 평가 및 비교 - 모델 학습 완료 후
- 모델 테스트
필요 음원 장르별 1만건 이상의 텍스트와 음성데이터 10%(장르별 1천건 이상의 텍스트와 음성데이터) 10%(장르별 1천건 이상의 텍스트와 음성데이터) - 서비스 활용 시나리오
- 감정의 표현을 단순히 &슬픔& &기쁨& 등으로 단순화 하지 않고 &담담하게& &힘없이& 같이 감정 표현을 위한 다양한 스타일을 포함한 데이터베이스의 구축으로 인해 보다 자연스럽고 다양한 감정표현이 가능한 음성합성 연구 가능함.
- 표현하고자 하는 감정을 잘 드러낼 수 있는 녹음 문장을 선정하였으므로 향후 명시적인 스타일 지정 없이도 음성합성 대상 텍스트 분석만으로도 내용/장르에 따라 적절한 스타일을 자동으로 표현할 수 있는 감정인식 연구와 음성합성 기술 연구 가능.
- 다양한 연령층의 성우/배우가 60가지 이상의 감정 표현을 위한 스타일을 표현한 데이터베이스로 인해 다화자, 다감정을 표현할 수 있는 한국어 종단형(End-to-End) 음성합성 연구 활성화가 기대됨.
- 음성인식과 음성합성을 이용하여 인간처럼 말하고 들으며 의사소통하는 기술은 클라우드에서 API 서비스로 제공되거나 솔루션으로 탑재되어 하드웨어와 결합하는 스마트폰, AI스피커, 휴먼 로봇의 형태로 이용되거나 유튜브 등 디지털 콘텐츠의 제작 등에 기본적이면서도 범용적인 기술로 수요의 증가와 시장확대가 예상됨.
- 모델학습
-
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 음성합성 Speech Synthesis Tacotron2 + GST MOS 3.3 점 3.4 점
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드1. 원천데이터
1. 원천데이터 N0001-01 도서 16세기 러시아 문학 작품 무롬 지방의 표트르와 페브로니야에 대한 이야기 저자 예르몰라이-예라즘 번역 조주관 “여보, 곰곰이 생각해 보지만 좋은 생각이 떠오르질 않아. 어떻게 하면 그 몹쓸 녀석을 물리칠 수 있을까? 어떻게 그 녀석을 죽여야 할지 모르겠어? 그놈이 당신과 얘기를 시작하면 놈을 잘 꼬드겨 물어봐요. 제 놈이 죽지 않고 못 배기는 것이 무엇인가를 그놈 스스로가 알고 있는지 말이야. 당신이 그것을 알아내어 우리에게 알려 준다면, 이승에서 저놈의 가증스러운 숨소리와 쉭쉭거리는 소리, 그리고 말하기조차 치욕스러운 모든 파렴치한 행동으로부터 자유로워질수 있을뿐더러 저 세상에서도 공정한 심판관이신 그리스도의 자비심을 얻을 수 있을 거요.” 대분류 소분류1 소분류2 문장 불안 초조한 스트레스받는 여보, 곰곰이 생각해 보지만 좋은 생각이 떠오르질 않아. 불안 초조한 스트레스받는 어떻게 하면 그 몹쓸 녀석을 물리칠 수 있을까?
2. 데이터 구성- 문학작품 정보
- 문학작품에 대한 정보
문학작품에 대한 정보 No. 속성명 항목 설명 타입 필수 작성예시 1 reciteSrc.id 작품 ID string Y N0001-01-23 2 reciteSrc.text 전체 텍스트 string Y “여름장날 3 reciteSrc.sentence_count 문장수
행수int32 N 8 4 reciteSrc.token_count 어절 수 int32 Y 89 5 reciteSrc.styles 스타일 array of Style Y “당황/죄책감" 6 reciteSrc.literautre 읽기정보 배열 Y 아래참조 - 낭송원문(literautre)에 대한 정보: L로 표기
낭송원문 No. 속성명 항목 설명 타입 필수 작성예시 1 reciteSrc.id 작품 ID string Y N0001-01-23 2 reciteSrc.text 전체 텍스트 string Y “여름장날 3 reciteSrc.sentence_count 문장수
행수int32 N 8 4 reciteSrc.token_count 어절 수 int32 Y 89 5 reciteSrc.styles 스타일 array of Style Y “당황/죄책감" 6 reciteSrc.literautre 읽기정보 배열 Y 아래참조
- 문학작품에 대한 정보
- 낭송 정보 및 낭송 주변 정보
- 철자 전사 및 발음 전사 : Recited Voice 객체 이하에서 RV으로 표시
철자 전사 및 발음 전사 No. 속성명 항목 설명 타입 필수 작성예시 1 RV.id 음성ID int32 Y 1 2 RV voice 음성 원본 string Y 아래참조 3 RV.full_text 전체 텍스트 string Y “여름장날 4 RV.sentences 문장배열 int32 N [] 4-1 RV.sentences[0].origin_text 전체 텍스트 string Y 애시당초 4-2 RV.sentences[0].voice_piece 음성파일 정보 Voice Y 얘시당초 4-3 RV.sentences[0].styles 스타일 Style Y sent1.pcm 4-4 RV.sentences[0].votes 투표정보 - 음성 파일에 대한 정보: Recited Voice 객체 중 Voice 객체, 이하에서 모두 RV.V로 시작
음성 파일에 대한 정보 No. 속성명 항목 설명 타입 필수 작성예시 1 S.V.filename 파일이름 string Y “00.wav” 2 S.V.tr 전사 string Y 애시당초
16000]3 S.V.ptr 발음전사 string Y 얘시당초 4 S.V.duration 녹음 길이 duration Y “120.2s” - 투표자에 대한 정보: Vote 객체, 이하에서 모두 S.V 로 시작
투표자에 대한 정보 No. 속성명 항목 설명 타입 필수 작성예시 1 R.gender 성별 int32 Y 0.여성 2 R.age 나이 int32 Y 20, 30, 40 - 음성 파일에 대한 정보: Voice 객체, 이하에서 모두V로 시작
음성 파일에 대한 정보 No. 속성명 항목 설명 타입 필수 작성예시 1 V.filename 파일이름 string Y “00.wav” 2 V.sample_rate 샘플RATE arr of int32 Y [44100,
16000]3 V.recored_at 녹음 일시 timestamp Y 202109 4 V.duration 녹음 길이 duration Y “120.2s” - 녹음자(성우 또는 배우: (Reciter)에 대한 정보: : Recited Voice 객체 중 Reciter 객체, 이하에서 모두 R로 시작
녹음자 No. 속성명 항목 설명 타입 필수 작성예시 1 R.gender 성별 int32 Y 0.여성 2 R.age 나이 int32 Y 20, 30, 40 - 스타일 태그:
- ReciteSrc 객체 중 지시된 스타일
- RecitingVoice 각 문장에 태깅된 스타일
스타일 태그 No. 속성명 항목 설명 타입 필수 작성예시 1 S.emotion 감정 대분류 []sentence Y 6가지 감정 2 S.style 스타일태그 소분류 array of Style Y 54개 소분류 감정, 스타일
- 철자 전사 및 발음 전사 : Recited Voice 객체 이하에서 RV으로 표시
3. 어노테이션 포맷
3. 어노테이션 포맷 구분 항목명 타입 필수여부 설명 비고 1 id string id 2 recite source object 낭송원문 정보 2.1 reciteSrc.id int32 Y 작품 제목 2.3 reciteSrc.text string Y 전체 텍스트 2.4 reciteSrc.sentence_count int32 N 문장수
행수2.5 reciteSrc.token_count int32 Y 어절 수 2.6 reciteSrc.styles array of Style Y 스타일 2.7 reciteSrc.literautre object Y 문학작품 정보 2.7.1 RS.L.id string Y 문학작품 ID 2.7.2 RS.L.genre string Y 문학작품 장르 2.7.3 RS.L.title string Y 문학작품 제목 2.7.4 RS.L.author string Y 문학작품 작가 2.7.5 RS.L.translator string N 번역가 2.7.6 RS.L.publish_year int N 발행년도 2.7.7 RS.L.period string N 시대정보 3 sentences arr of object 전사 정보 3.1 sentences[0].origin_text string Y 전체 텍스트 3.2 sentences[0].voice_piece object Y 음성파일 정보 3.2.1 S.V.filename string Y 파일이름 3.2.2 S.V.tr string Y 전사 3.2.3 S.V.ptr string Y 발음전사 3.2.4 S.V.duration string Y 녹음 길이 3.3 sentences[0].styles object Y 스타일 3.3.1 S.S.emotion string Y 감정정보 3.3.2 S.S.style string Y 스타일 3.4 sentences[0].votes arr of object N 투표정보 3.4.1 S.V[0].agree bool Y 동의여부 3.4.2 S.V[0].voter object Y 투표자 정보 3.4.2.1 S.V[0].V.gender string Y 투표자 성별 3.4.2.2 S.V[0].V.age int Y 투표자 연령대 4 voice object 음성파일 정보 4.1 V.filename string Y 파일이름 4.2 V.sample_rate arr of int32 Y 샘플RATE 4.3 V.recored_at timestamp Y 녹음 일시 4.4 V.duration duration Y 녹음 길이 5 Reciter object 녹음자 정보 5.1 RV.R.gender int32 Y 녹음자 성별 5.2 RV.R.age int32 Y 녹음자 나이
4. 실제 예시[{
"id": "N0001-01-23",
"voice": {
"filename": "data2/recitation/wav/N0001-01-23.wav",
"sample_rate": 44100,
"duration": "52.580000s",
"recored_at": "2021-11-11 02:25:50"
},
"reciter": {
"gender": "MALE",
"age": 50
},
"recite_src": {
"id": "N0001-01-23-SRC",
"literature": {
"id": "N0001",
"genre": "소설",
"title": "무롬 지방의 표트르와 페브로니야에 대한 이야기",
"author": "예르몰라이-예라즘",
"translator": "조주관",
"publish_year": 2013,
"period": "고대/중세"
},
"text": "“여보, 곰곰이 생각해 보지만 좋은 생각이 떠오르질 않아.\n어떻게 하면 그 몹쓸 녀석을 물리칠 수 있을까?\n어떻게 그 녀석을 죽여야 할지 모르겠어?\n그놈이 당신과 얘기를 시작하면 놈을 잘 꼬드겨 물어봐요.\n제 놈이 죽지 않고 못 배기는 것이 무엇인가를 그놈 스스로가 알고 있는지 말이야.\n당신이 그것을 알아내어 우리에게 알려 준다면, 이승에서 저놈의 가증스러운 숨소리와 쉭쉭거리는 소리, 그리고 말하기조차 치욕스러운 모든 파렴치한 행동으로부터 자유로워질수 있을뿐더러 저 세상에서도 공정한 심판관이신 그리스도의 자비심을 얻을 수 있을 거요.”",
"sentence_count": 6,
"token_count": 73,
"styles": [
{
"emotion": "불안",
"style": "초조한,스트레스받는"
}
]
},
"sentences": [
{
"origin_text": "여보, 곰곰이 생각해 보지만 좋은 생각이 떠오르질 않아.",
"voice_piece": {
"filename": "data2/recitation/splitted/23/N0001-01-23-00.wav",
"tr": "여보 곰곰이 생각해 보지만 좋은 생각이 떠오르질 않아",
"ptr": "여보 / 곰곰이 생각해 보지만 / 좋은 생각이 떠오르질 않아",
"duration": "5.070000s"
},
"styles": [
{
"emotion": "불안",
"style": "초조한,스트레스받는"
}
],
"votes": [
{
"agree": true,
"voter": {
"gender": "MALE",
"age": 20
}
},
{
"agree": true,
"voter": {
"gender": "FEMALE",
"age": 50
}
},
{
"agree": true,
"voter": {
"gender": "FEMALE",
"age": 30
}
},
{
"agree": true,
"voter": {
"gender": "FEMALE",
"age": 20
}
}
]
},
{
"origin_text": "어떻게 하면 그 몹쓸 녀석을 물리칠 수 있을까?",
"voice_piece": {
"filename": "data2/recitation/splitted/23/N0001-01-23-01.wav",
"tr": "어떻게 하면 그 몹쓸 녀석을 물리칠 수 있을까",
"ptr": "어떻게 하면 / 그 몹쓸 / 녀석을 물리칠 수 있을까",
"duration": "3.710000s"
},
"styles": [
{
"emotion": "불안",
"style": "초조한,스트레스받는"
}
],
"votes": [
{
"agree": true,
"voter": {
"gender": "MALE",
"age": 20
}
},
{
"agree": true,
"voter": {
"gender": "FEMALE",
"age": 50
}
},
{
"agree": true,
"voter": {
"gender": "FEMALE",
"age": 30
}
},
{
"agree": true,
"voter": {
"gender": "FEMALE",
"age": 20
}
}
]
},
{
"origin_text": "어떻게 그 녀석을 죽여야 할지 모르겠어?",
"voice_piece": {
"filename": "data2/recitation/splitted/23/N0001-01-23-02.wav",
"tr": "어떻게 그 녀석을 죽여야 할지 모르겠어",
"ptr": "어떻게 / 그 녀석을 죽여야 할지 모르겠어",
"duration": "3.040000s"
},
"styles": [
{
"emotion": "불안",
"style": "초조한,스트레스받는"
}
],
"votes": [
{
"agree": true,
"voter": {
"gender": "MALE",
"age": 20
}
},
{
"agree": true,
"voter": {
"gender": "FEMALE",
"age": 50
}
},
{
"agree": true,
"voter": {
"gender": "FEMALE",
"age": 30
}
},
{
"agree": true,
"voter": {
"gender": "FEMALE",
"age": 20
}
}
]
},
{
"origin_text": "그놈이 당신과 얘기를 시작하면 놈을 잘 꼬드겨 물어봐요.",
"voice_piece": {
"filename": "data2/recitation/splitted/23/N0001-01-23-03.wav",
"tr": "그놈이 당신과 얘기를 시작하면 놈을 잘 꼬드겨 물어봐요",
"ptr": "그놈이 / 당신과 얘기를 시작하면 / 놈을 잘 꼬드겨 물어봐요",
"duration": "4.630000s"
},
"styles": [
{
"emotion": "불안",
"style": "초조한,스트레스받는"
}
],
"votes": [
{
"agree": true,
"voter": {
"gender": "MALE",
"age": 20
}
},
{
"agree": true,
"voter": {
"gender": "FEMALE",
"age": 50
}
},
{
"agree": true,
"voter": {
"gender": "FEMALE",
"age": 30
}
},
{
"agree": true,
"voter": {
"gender": "FEMALE",
"age": 20
}
}
]
},
{
"origin_text": "제 놈이 죽지 않고 못 배기는 것이 무엇인가를 그놈 스스로가 알고 있는지 말이야.",
"voice_piece": {
"filename": "data2/recitation/splitted/23/N0001-01-23-04.wav",
"tr": "제 놈이 죽지 않고 못 배기는 것이 무엇인가를 그놈 스스로가 알고 있는지 말이야",
"ptr": "제 놈이 / 죽지 않고 못 배기는 것이 / 무엇인가를 / 그놈 스스로가 알고 있는지 말이야",
"duration": "6.400000s"
},
"styles": [
{
"emotion": "불안",
"style": "초조한,스트레스받는"
}
],
"votes": [
{
"agree": true,
"voter": {
"gender": "MALE",
"age": 20
}
},
{
"agree": true,
"voter": {
"gender": "FEMALE",
"age": 50
}
},
{
"agree": true,
"voter": {
"gender": "FEMALE",
"age": 30
}
},
{
"agree": true,
"voter": {
"gender": "FEMALE",
"age": 20
}
}
]
},
{
"origin_text": "당신이 그것을 알아내어 우리에게 알려 준다면, 이승에서 저놈의 가증스러운 숨소리와 쉭쉭거리는 소리, 그리고 말하기조차 치욕스러운 모든 파렴치한 행동으로부터 자유로워질수 있을뿐더러 저 세상에서도 공정한 심판관이신 그리스도의 자비심을 얻을 수 있을 거요.",
"voice_piece": {
"filename": "data2/recitation/splitted/23/N0001-01-23-05.wav",
"tr": "당신이 그것을 알아내어 우리에게 알려 준다면 이승에서 저놈의 가증스러운 숨소리와 쉭쉭거리는 소리 그리고 말하기조차 치욕스러운 모든 파렴치한 행동으로부터 자유로워질수 있을뿐더러 저 세상에서도 공정한 심판관이신 그리스도의 자비심을 얻을 수 있을 거요",
"ptr": "당신이 / 그것을 알아내어 / 우리에게 알려 준다면 / 이승에서 / 저놈의 가증스러운 숨소리와 / 쉭쉭거리는 소리 / 그리고 / 말하기조차 치욕스러운 / 모든 파렴치한 행동으로부터 / 자유로워질 수 있을뿐더러 / 저 세상에서도 / 공정한 심판관이신 / 그리스도의 자비심을 / 얻을 수 있을 거요",
"duration": "23.930000s"
},
"styles": [
{
"emotion": "불안",
"style": "초조한,스트레스받는"
}
],
"votes": [
{
"agree": true,
"voter": {
"gender": "MALE",
"age": 20
}
},
{
"agree": true,
"voter": {
"gender": "FEMALE",
"age": 50
}
},
{
"agree": true,
"voter": {
"gender": "FEMALE",
"age": 30
}
},
{
"agree": true,
"voter": {
"gender": "FEMALE",
"age": 20
}
}
]
}
]
},
…
]
- 문학작품 정보
-
데이터셋 구축 담당자
수행기관(주관) : 커뮤니케이션북스(주)
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 엄진섭 02-3700-1250 [email protected] · 사업 총괄 관리 - 일정관리, 사업 관리 · 문학작품 획득,정제 - 문학작품 저작권 확보, 텍스트 선정 · 낭송 음원 획득 - 낭독자 섭외, 녹음, 음원 제작 · 1차 라벨링 - 낭독자의 1차 라벨링 수행 · 홍보 이벤트 - 데이터경진대회 진행 수행기관(참여)
수행기관(참여) 기관명 담당업무 나라지식정보 · 라벨링 작업
- 낭송음원 분할
- 2차 라벨링 데이터 입력 작업
· 크라우드 워커 관리
- 일정 및 업무 진행 관리
· 품질관리
- 발음전사 검수
- 라벨러 스타일태그 검수 및 재검수(주)바이칼에이아이 · 정제단계 (baikal VOIX 개발 및 공급)
- 낭송 대본을 참고하여 원시 음성을 문장 및 어절 단위, 휴지구간으로 분리
- 휴지구간이 150ms 이상인 경우 별도로 표시
- 정제 과정의 데이터 오류가 발생하면 리포트할 수 있도록 구성
- 가공단계의 도구에서 사용할 수 있는 데이터로 내보내기
· 가공단계 도구 제공 (AI달고나)
- 크라우드 소싱 기반 저작도구 개발 및 공급
- 작업자 및 검수자 할당을 위한 데이터 작업 공간 구성
- 낭송음성에 대한 철자 전사, 발음 전사
- 낭송 음성의 휴지구간에 대한 표지
- 낭송 음성의 스타일에 대한 투표 기능: 동의여부를 5명이 투표하도록 구성(주)셀바스에이아이 · 낭송 녹음대본 최종 선정
- 녹음 후보로 선정된 감정별 텍스트로부터 최종 녹음 대본 선정
· 음성합성용 데이터 구축 가이드
- 음성합성 학습을 위한 데이터 형식 가이드
· 인공지능 모델링
- 구축된 데이터를 활용한 인공지능 모델 학습 및 성능 검증
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.