-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2024-10-30 데이터 최종 개방 1.0 2024-07-05 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-07-05 산출물 공개 Beta Version 소개
- 다양한 소음환경에서의 지식기반 목적 지향적 음성 데이터 및 이상소리 감지를 위한 환경 소리 데이터 구축
구축목적
- 소음이 발생하는 환경에서 정확한 음성 인식 및 적절한 답변 제공을 위한 지식 기반 답변의 질의 응답 데이터셋 필요 - 일상생활에서 상황별 이상소리를 감지하여 안전관리 및 비상대처 방향을 제시하기 위한 소리데이터 추출 기술 필요
-
메타데이터 구조표 데이터 영역 한국어 데이터 유형 오디오 데이터 형식 wav 데이터 출처 자체 수집 라벨링 유형 전사(음성) 라벨링 형식 JSON, SRT 데이터 활용 서비스 지식답변이 가능한 지능형 AI 스피커 등 음성인식 서비스 데이터 구축년도/
데이터 구축량2023년/대화 음성 데이터 2,024.9시간(41,503건), 환경 소리 데이터 509.9시간(61,258건) -
- 데이터 구축 규모
데이터 구축 규모 구분 건수 시간 대화 음성 데이터 41,503 2024.89 환경 소리 데이터 61,258 509.87 합계 102,761 2534.75 - 대화 음성 데이터 클래스별 구축 규모
대화 음성 데이터 클래스별 구축 규모 No 대화 주제 수량(건) 비율(%) 1 경제및산업 3,533 8.51 2 사회및제도 2,369 5.71 3 문화및라이프 9,377 22.59 4 게임및과학 7,734 18.63 5 건강및의학 2,221 5.35 6 언론및보도 703 1.69 7 학문및원리 4,052 9.76 8 역사및지리 6,846 16.50 9 자연및환경 2162 5.21 10 종교및정치 2,506 6.04 합계 41,503 100.00 - 환경 소리 데이터 클래스별 구축 규모
환경 소리 데이터 클래스별 구축 규모 No 환경 소리 수량(건) 비율(%) 1 사람 소리 16,660 27.20 2 사물 소리 21,023 34.32 3 기계 소리 16,769 27.37 4 자연 소리 6,806 11.11 합계 61,258 100.00 - 데이터 분포
- 소음 환경 분포 : 주거지역, 공공시설, 교통지역, 산업지역, 상업지역, 여가및관광지역데이터 분포 - 소음 환경 분포 : 주거지역, 공공시설, 교통지역, 산업지역, 상업지역, 여가및관광지역 No 소음 환경 수량(건) 비율(%) 1 주거지역 19,360 18.84 2 공공시설 17,803 17.32 3 교통지역 18,802 18.30 4 산업지역 19,883 19.35 5 상업지역 14,260 13.88 6 여가및관광지역 12,653 12.31 합계 102,761 100.00 - 화자 성별 분포 : 남성, 여성
데이터 분포 - 화자 성별 분포 : 남성, 여성 화자 성별 수량(명) 비율(%) 남성 142 32.87 여성 290 67.13 합계 432 100.00 - 화자 연령대별 분포 : 20대, 30대, 40대, 50대
데이터 분포 - 화자 연령대별 분포 : 20대, 30대, 40대, 50대 화자 연령대 수량(명) 비율(%) 20대 165 38.19 30대 125 28.94 40대 74 17.13 50대 68 15.74 합계 432 100.00 -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드- 대화 음성 데이터 AI 모델
다양한 소음원에서의 Ground-Truth 지식 정보 모델은 소음이 포함된 대화에서 질문을 이해하고, 지식 데이터베이스에서 필요한 정보를 검색 및 추출하고, 이를 바탕으로 자연스러운 자연어 답변을 생성함대화 음성 데이터 AI 모델 구분 개요 모델 음성 인식 소음 환경에서 지식요구 대화 ASR 진행 TSCN, Whisper 지식 탐지 오류가 포함된 음성인식(ASR) 대화에서 각 질문마다 지식을 요구하는지 탐지 GPT-2 지식 선택 오류가 포함된 음성인식(ASR) 대화에서 지식을 요구하는 질문이 어떠한 지식을 요구하는지 선택 GPT-2 응답 생성 지식과 대화를 입력으로 하여 지식을 요구하는 질문에 대한 응답을 생성 GPT-2
- 데이터 셋 분할데이터 셋 분할 구분 훈련(Train) 검증(Validation) 시험(Test) 계 데이터 수량 33,313 4,094 4,096 41,503 데이터 비율 80% 10% 10% 100% - 서비스 활용 시나리오
- 다양한 소음 환경에서 정확한 지식답변이 가능한 지능형 AI 시피커 기반을 마련하여 다양한 산업 분야에 활용
- 음성인식 및 자연어 이해 기술만으로 각종 기기를 제어하고, 각각의 서비스를 융합하여 이용할 수 있는 서비스(지능형 AI 스피커)- 환경 소리 데이터 AI 모델
소리 분류(Sound Classification) 분야의 모델은 일상생활에 초점이 맞추어진 분야로, 청각 장애인을 위한 일상 활동 지원, 안전 및 보안 기능과 스마트 홈 등에 활용할 수 있으며, 도시 환경에서 발견되는 소리의 종류를 분류하여 소음 모니터링 및 관련 작업을 위한 분야임환경 소리 데이터 AI 모델 구분 개요 모델 소리 분류 소음 환경에서 녹음된 소리의 종류를 분류 ESResNet - 데이터 셋 분할
데이터 셋 분할 구분 훈련(Train) 검증(Validation) 시험(Test) 계 데이터 수량 49,008 6,125 6,125 61,258 데이터 비율 80% 10% 10% 100% - 서비스 활용 시나리오
- 안전 관리 및 비상대응 시스템 개발
· 보안용 CCTV 자동 방향 제어, 지능형 보안관리 시스템, 산업현장 자동 재해감지 등 시스템 개발
- 사회적 약자(고령자 및 장애인 등) 비상상황 대처 도우미 개발
· 사회적 약자의 신속한 상황판단의 어려움 해소 및 삶의 질 향상 가능 -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드- 데이터 설명
- 다양한 소음 환경에서 음성을 정확하게 인식하고 인식된 음성 데이터를 기반으로 자연어 이해를 통해 사용자에게 적절한 답변을 제공하기 위한 다양한 소음환경에서의 Ground Truth 지식 정보 데이터 구축
- 일상생활에서 다양한 상황에서의 이상소리를 감지하여 능동적이고 선제적으로 대응하는 보안관리 및 안전관리의 방향을 제시하기 위한 소리데이터 구축- 데이터 형태 및 포맷
데이터 형태 및 포맷 구축 공정 데이터 획득/수집 데이터 정제 데이터 가공 데이터 검사 데이터 구분 원시데이터 원천데이터 라벨링데이터 검사 후 데이터 데이터 형태 음성 ∙ (음성)오디오 파일
∙ (소음+음성)오디오 파일
∙ 환경정보 파일
∙ 전사텍스트 파일∙ (음성)오디오 파일
∙ (소음+음성)오디오 파일
∙ 환경정보→메타정보
∙ 전사텍스트∙ (음성)오디오 파일
∙ (소음+음성)오디오 파일
∙ 메타정보
∙ 서브라벨링
∙ 전사텍스트∙ (음성)오디오 파일
∙ (소음+음성)오디오 파일
∙ 메타정보 파일
∙ 서브라벨링
∙ 전사텍스트소리 ∙ (소음+소리)오디오 파일
∙ 환경정보 파일∙ (소음+소리)오디오 파일
∙ 환경정보→메타정보∙ (소음+소리)오디오 파일
∙ 메타정보∙ (소음+소리)오디오 파일
∙ 메타정보 파일데이터 포맷 음성 ∙ wav파일(비트뎁스 16bit, 샘플링레이트 44.1kHz)
∙ 환경정보(csv)
∙ 전사텍스트(txt)∙ (음성).wav
∙ (소음+음성).wav
∙ 메타정보(csv)
∙ 전사텍스트(txt)∙ (음성).wav
∙ (소음+음성).wav
∙ 메타정보(json)
∙ 서브라벨링(json)
∙ 전사텍스트(srt)∙ (음성).wav
∙ (소음+음성).wav
∙ 메타정보(json)
∙ 서브라벨링(json)
∙ 전사텍스트(srt)소리 ∙ wav파일(비트뎁스 16bit, 샘플링레이트 44.1kHz)
∙ 환경정보(xls)∙ (소음+소리).wav
∙ 메타정보(csv)∙ (소음+소리).wav
∙ 메타정보(json)∙ (소음+소리).wav
∙ 메타정보(json)- 대화 음성 데이터 어노테이션 포맷
대화 음성 데이터 어노테이션 포맷 No 항목명 타입 필수 구분 항목 설명 예시 0 DataSet String 필수 데이터셋 1 Version String 필수 데이터셋 버전 1 2 MediaUrl String 필수 녹취된 음원의 URL /05/COL/20230401 3 Date String 필수 녹취된 날짜 20230401 4 KnowledgeTopic String 필수 지식주제분류 [클래스] 역사및지리 5 DialogKeyword String 필수 대화 키워드 이순신, 어린 시절 6 SpeakerNum String 필수 화자수 2 7 SpeakerPlace String 필수 화자녹취장소 레코딩룸 8 Speakers Array 필수 화자 8-1 Speaker String 필수 화자 아이디 D302, A402 8-2 Gender String 필수 화자 성별(남성, 여성) 남성 8-3 Agegroup String 필수 화자 나이대 20, 30 8-4 UtterNumber Number 필수 화자 발화수 7 9 AudioResolution Object 필수 오디오 레졸류션 9-1 BitDepth Number 필수 비트뎁스 16 9-2 SampleRate Number 필수 샘플레이트 44.1 10 RecLen Number 필수 전체 녹취시간(초.ms) 170.4 11 RecDevice String 선택 녹취장비구분 스마트폰 12 NoiseInfo Object 필수 소음원 데이터 상세 정보 12-1 NoiseCategory String 필수 소음원 카테고리 정보 주거지역 12-2 NoisePlace String 필수 소음원 획득 장소 가정집 거실 12-3 BgNoisespl String 필수 구간내 소음원 최대 dB 66.3 12-4 RecSTime String 필수 소음 녹취 시작 시간 18 13 QATurnNumber Number 필수 지식요구 QA턴 수 1 14 DialogType String 필수 대화 종류 자유대화/지식대화 15 DialogWER Number 필수 WER 평균 0.24 16 Dialogs Array 필수 음성 대화 목록 {} 16-1 DialogNum Number 필수 대화 순번 1 16-2 Speaker String 필수 화자 아이디 D302 16-3 Speakertext String 필수 전사된 텍스트 이순신의 어린시절은 어디에서 보냈나요? 16-4 StartTime Number 필수 발화 시작 시간(초.ms) 0.879 16-5 EndTime Number 필수 발화 끝 시간(초.ms) 5.76 16-6 SpeakTime Number 필수 발화의 길이(초.ms) 4.881 16-7 SentenceType String 필수 대화구분 [“Normal”,“Question”,“Answer”] 16-8 ASRDetail Object 선택 ASR 상세정보 16-8-1 ASRQuestion String 필수 ASR 질문 이순신의 어린시절은 어땟나요? 16-8-2 WER Number 필수 ASR 결과 수치 0.25 16-9 KnowledgeInfo Array 선택 답변 지식DB 정보 16-9-1 Domain String 필수 지식DB 문서 도메인 역사및지리 16-9-2 DomainDetail String 필수 지식DB 문서 세부 도메인 역사인물 16-9-3 DocumentId String 필수 지식DB 문서 ID 210860 16-9-4 DocumentUrl String 필수 지식DB 문서 출처(URL) https://ko.wikipedia.org/wiki?curid=210860 16-9-5 Sentences Object 필수 지식DB 문장 16-9-5-1 SentenceId Array 필수 지식DB 문장 ID [S0011] 16-9-5-2 SentenceText String 필수 지식DB 문장 텍스트 한성 건천동에서 이정(李貞)과 초계 변씨(草溪 卞氏)의 셋째 아들로 태어났다. 어린 시절의 대부분을 건천동에서 보냈고, 외가인 아산에서 소년기를 보냈다. 이정은 자신의 네 아들에게 고대 중국의 성인으로 알려진 복희, 요 임금, 순 임금, 우 임금의 이름자를 붙여 주었고, 셋째 아들이었던 그에게는 순신(舜臣)이라는 이름이 붙었다. 16-9-5-3 KnowledgeText String 필수 문장 내 지식부분 텍스트 어린 시절의 대부분을 건천동에서 보냈고, 외가인 아산에서 소년기를 보냈다. 16-9-5-4 SpanStart Number 필수 지식부분 시작(글자수) 45 16-9-5-5 SpanEnd Number 필수 지식부분 끝(글자수) 86 - 라벨링 데이터 실제 예시
라벨링 데이터 실제 예시 {
"DataSet":"대화음성데이터",
"Version":"1.0",
"MediaUrl":"02.사회및제도/02.공공시설/02_02_D010A224_230822_0032_VN.wav",
"Date":"20230822",
"KnowledgeTopic":"사회및제도",
"DialogKeyword":"국가보호경찰, 사회",
"SpeakerNum":"2",
"SpeakerPlace":"생활환경",
"Speakers":[
{
"Speaker":"D010",
"Gender":"남성",
"Agegroup":"50",
"UtterNumber":10
},
{
"Speaker":"A224",
"Gender":"여성",
"Agegroup":"50",
"UtterNumber":10
}
],
"AudioResolution":{
"BitDepth":16,
"SampleRate":44.1
},
"RecLen":184.854,
"RecDevice":"스마트폰",
"NoiseInfo":{
"NoiseCategory":"공공시설",
"NoisePlace":"강원대 도서관",
"BgNoisespl":"56.3",
"RecSTime":"14"
},
"QATurnNumber":1,
"DialogType":"지식대화",
"DialogWer":0.21,
"Dialogs":[
{
"DialogNum":1,
"Speaker":"D010",
"Speakertext":"있잖아. 나 어제 조금 충격적인 거 봤어. 뭔가 한 대 얻어맞은 기분이 들더라고. ",
"StartTime":3.88,
"EndTime":10.84,
"SpeakTime":6.96,
"SentenceType":"Normal",
"ASRDetail":{
"ASRQuestion":"있잖아 나 어제 조금 충격적인 거 봤어 뭔가 한 대 얻어맞은 기분이 들더라고",
"WER":0
},
"KnowledgeInfo":null
},
{
"DialogNum":2,
"Speaker":"A224",
"Speakertext":"뭐였길래 그래? 너 귀신 나오는 영화나 스릴러 영화 봐도 끄덕없는 애잖아. 어떤 건데 충격을 받았다고 그러는 거야? ",
"StartTime":11.33,
"EndTime":20.14,
"SpeakTime":8.81,
"SentenceType":"Normal",
"ASRDetail":{
"ASRQuestion":"뭐였길래 그래 너 귀신 나오는 영화나 스릴러 영화 봐도 끄덕없는 애잖아 어떤건데 충격을 받았다고 그러는거야",
"WER":0.33
},
"KnowledgeInfo":null
},
- 중 략 -
{
"DialogNum":7,
"Speaker":"D010",
"Speakertext":"국가 보호 경찰이 뭐야? ",
"StartTime":60.33,
"EndTime":63.04,
"SpeakTime":2.71,
"SentenceType":"Question",
"ASRDetail":{
"ASRQuestion":"국가보호경찰이 뭐야",
"WER":0.75
},
"KnowledgeInfo":null
},
{
"DialogNum":8,
"Speaker":"A224",
"Speakertext":"나치 독일의 주 경찰 중 하나인데 질서 경찰의 한 분과에 속해 있었다고 해. 대부분의 도시와 마을에 있었던 제복 경찰 중의 하나야. ",
"StartTime":64.03,
"EndTime":75.64,
"SpeakTime":11.61,
"SentenceType":"Answer",
"ASRDetail":{
"ASRQuestion":"나치 독일의 주 경찰 중 하나인데 질서경찰의 한 분과에 속해 있었다고 해 대부분의 도시와 마을에 있었던 제복 경찰 중 하나야",
"WER":0.14
},
"KnowledgeInfo":[
{
"Domain":"사회및제도",
"DominDetail":"사회",
"DocumentId":"1311589",
"DocumentUrl":"https://ko.wikipedia.org/wiki?curid=1311589",
"Sentences":{
"SentenceId":"1",
"SentenceText":"국가보호경찰(독일어:?Schutzpolizei des Reiches)은?나치 독일의 주(State) 경찰 중 하나로?질서경찰의 한 분과에 속했다.?보호경찰(Schutzpolizei)는?독일어로 제복을 입은 경찰을 의미한다.",
"KnowledgeText":"국가보호경찰(독일어: Schutzpolizei des Reiches)은 나치 독일의 주(State) 경찰 중 하나로 질서경찰의 한 분과에 속했다. 보호경찰(Schutzpolizei)는 독일어로 제복을 입은 경찰을 의미한다.",
"SpanStart":0,
"SpanEnd":124
}
}
]
},
- 중 략 -
{
"DialogNum":19,
"Speaker":"D010",
"Speakertext":"그 정도야? 세상에 그렇게 말하니까 좀 무섭다. ",
"StartTime":171.83,
"EndTime":175.89,
"SpeakTime":4.06,
"SentenceType":"Normal",
"ASRDetail":{
"ASRQuestion":"그 정도야 세상에 그렇게 말하니까 좀 무섭다",
"WER":0
},
"KnowledgeInfo":null
},
{
"DialogNum":20,
"Speaker":"A224",
"Speakertext":"그니까. 세계 곳곳에서 다들 진짜 무서운 시절을 지나온 것 같아. ",
"StartTime":176.38,
"EndTime":181.99,
"SpeakTime":5.61,
"SentenceType":"Normal",
"ASRDetail":{
"ASRQuestion":"그러니까 세계 곳곳에서 다들 진짜 무서운 시절을 지나온 것 같아",
"WER":0.1
},
"KnowledgeInfo":null
}
]
}o 환경 소리 데이터 어노테이션 포맷
환경 소리 데이터 어노테이션 포맷 No 항목명 타입 필수 구분 항목 설명 예시 0 DataSet String 필수 데이터셋 1 Version String 필수 데이터셋 버전 1 2 MediaUrl String 필수 녹취된 음원의 URL /05/COL/20230401 3 Date String 필수 녹취된 날짜 20230401 4 AudioResolution Object 필수 오디오 레졸류션 4-1 BitDepth Number 필수 비트뎁스 16 4-2 SampleRate Number 필수 샘플레이트 44.1 5 RecLen Number 필수 전체 녹취시간(초.ms) 20.4 6 RecDevice String 필수 녹취장비구분(스마트폰, 녹음장치) 스마트폰 7 Category String 필수 소리 대분류 1 8 SubCategory String 필수 소리 소분류 1 9 SoundComment String 필수 소리 상세 정보 비명소리 10 SoundPlace String 필수 소리 녹취장소 레코딩룸 11 NoiseInfo Object 필수 소음원데이터 상세 정보 11-1 NoiseCategory String 필수 소음원 카테고리 정보 2 11-2 NoisePlace String 필수 소음원 획득 장소 공사장 11-3 BgNoisespl String 필수 구간내 소음원 최대 dB 65 11-4 NoiseLength Number 필수 소리제외 소음시간(초.ms) 100.01 11-5 RecSTime String 필수 소음 녹취 시간 21 12 AudioInfo Array 필수 소리 데이터 목록 12-1 AudioNumber String 필수 소리 순번 1 12-2 StartTime Number 필수 소리 시작 시간(분:초.ms) 00:10.5 12-3 EndTime Number 필수 소리 끝 시간(분:초.ms) 00:11.3 12-4 SoundLength Number 필수 소리의 길이(초.ms) 0.8 ● 라벨링 데이터 실제 예시
라벨링 데이터 실제 예시 {
"DataSet": "환경소리데이터",
"Version": "1.0",
"MediaUrl": "02.사물소리/02.공공시설/02_02_2101_230726_0002.wav",
"Date": "20230726",
"AudioResolution": {
"BitDepth": 16,
"SampleRate": 44.1
},
"RecLen": 30.61,
"RecDevice": "녹음장치",
"Category": "사물소리",
"SubCategory": "파손소리",
"SoundComment": "자동차 사고 소리",
"SoundPlace": "레코딩룸",
"NoiseInfo": {
"NoiseCategory": "공공시설",
"NoisePlace": "송파 초등학교 운동장",
"BgNoisespl": "83.3",
"NoiseLength": 27.023,
"RecSTime": "13"
},
"AudioInfo": [
{
"AudioNumber": 1,
"StartTime": 9.98,
"EndTime": 13.567,
"SoundLength": 3.587
}
]
} -
데이터셋 구축 담당자
수행기관(주관) : ㈜코테크시스템
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김연봉 02-2253-7355 [email protected] 품질책임자 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜인사이트정보 데이터 수집, 검수 ㈜코리아퍼스텍 데이터 정제, 가공, 검수 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 정호용 02-568-2035 [email protected] 박만수 02-828-0300 [email protected] AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 이홍섭 02-2253-7355 [email protected] 김연봉 02-2253-7355 [email protected] 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 양재규 02-568-2035 [email protected] 김연봉 02-2253-7355 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.