AI-Hub

#인공지능 # 다국어 # NMT # MTPE # 기계학습 # 말뭉치 # 인공지능 학습 # 번역 # 기계번역

방송콘텐츠 한국어-영어 통번역 음성 데이터

분야한국어
유형 오디오 , 텍스트

구축년도 : 2022 갱신년월 : 2023-11 조회수 : 4,529 다운로드 : 615 용량 :

샘플 데이터

※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

소개 파일 목록 (API 다운로드)

※ 내국인만 데이터 신청이 가능합니다.

문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.1	2023-11-24	데이터 최종 개방
1.0	2023-07-31	데이터 개방(Beta Version)

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2023-11-24	산출물 전체 공개
2023-08-14	메타데이터, 세부데이터, 데이터통계 내용 수정

소개

- 인공지능 학습용 다국어 방송콘텐츠 번역 말뭉치 구축
  방송 콘텐츠 분야의 영어, 스페인어, 러시아어 통·번역 성능 향상을 통해 한국 문화 확산 및 콘텐츠 산업 활성화를 위한 한국어 방송 콘텐츠의 인공지능 학습용 통·번역 데이터
- 상황별 신조어, 약어, 은어, 관용적 의미와 어투까지 효과적으로 전달할 수 있는 인공신경망기계번역(Neural Machine Translation; NMT)용 한-영어/스페인어,러시아어 통·번역 음성 및 텍스트 pair 데이터

구축목적

대규모 양질의 방송콘텐츠 통번역용 인공지능 학습데이터를 구축하고 공개함으로써 상대적으로 취약한 방송 콘텐츠 분야 한국어와 영어 간의 인공지능 통번역 성능 향상 및 이를 통해 방송콘텐츠 확산과 활성화에 기여하기 위함
- 범용성 높은 방송콘텐츠 분야를 선정하여 구축함
- 고품질 인공지능 학습데이터를 확보하여 활용성을 높임
데이터 구축 목표: 
 - 한국어 원문 음성/전사 텍스트 600시간 분량
 - 한국어->영어 통번역 데이터        600시간
 - 한국어->스페인어어 통번역 데이터  600시간
 - 한국어->러시아어 통번역 데이터    600시간
 - 한국어->영국영어 번역음성 데이터  300시간

메타데이터 구조표
데이터 영역	한국어	데이터 유형	오디오 , 텍스트
데이터 형식	wav, json	데이터 출처	방송사와 저작권 계약을 통해 콘텐츠 수집
라벨링 유형	번역(자연어), 전사(음성), 발화(음성)	라벨링 형식	json
데이터 활용 서비스	다국어 통역기, 다국어 영상 자막 자동 생성 서비스	데이터 구축년도/ 데이터 구축량	2022년/- 방송콘텐츠 약 600시간에 대한 한국어 원천 음성데이터 1,637,555개(WAV, 232.6GB) - 한국어 음성전사 데이터 1,637,555개(JSON, 1.26MB) - 한국어-영어/스페인어/러시아 통번역 데이터 1,637,555개(JSON, 1.75GB) - 영어/스페인어/러시아 원어민 발화 데이터 1,637,555개(WAV, 266.93GB)

1. 데이터 구축 규모
방송콘텐츠 약 600시간에 대한 원천 데이터, 음성 전사데이터, 통번역데이터 및 원어민 음성발화데이터

1. 데이터 구축 규모
구분	종류	형태	포맷	언어	규모
원천 데이터	방송콘텐츠	오디오	wav	한국어	600시간에 대한 음성 데이터 1,637,555개
원천 데이터		오디오	wav	한국어	600시간에 대한 음성 데이터 1,637,555개
음성전사 데이터		텍스트	json	한국어	600시간에 대한 음성전사 데이터 1,637,555개
통번역 데이터		텍스트	json	한국어-영어/스페인어/러시아어	600시간에 대한 통번역 데이터 1,637,555개
음성발화 데이터		오디오	wav	영어/스페인어/러시아어	600시간에 대한 원어민 발화 데이터 1,637,555개

2. 데이터 분포
- 방송콘텐츠 대분류 5개 이상으로 데이터 편향 없이 균등하게 설계 구축
- 다양한 화자, 발화 스타일, 다양한 주제, 분야가 반영될 수 있는 카테고리 등 데이터 전체 구성 방안 및 균형적인 분포

(1-009-031) 방송콘텐츠 한국어-영어 통번역 음성 데이터

2. 데이터 분포
분류	언어	음성시간
다큐	한국어-영어/스페인어/러시아어 (각 600시간)	120시간(20%)
교양		120시간(20%)
연예, 공연		120시간(20%)
영화, 드라마		30시간(5%)
오락, 예능		120시간(20%)
인터뷰		90시간(15%)
합계		600시간


대분류	중분류	소분류	음성시간
다큐	KBS, MBN	다큐온, 다큐세상, 자연의 철학자들, 사노라면등	120 (20%)
교양	KBS, MBN, CJENM	VJ 특공대, 역사스페셜, 알약방, 생생정보마당, 논문 읽어드립니다, 역사 읽어드립니다 등	120 (20%)
연예/공연	KBS, MBN, CJENM	연예가중계, 안녕하세요, 황금알, 비포썸라이즈, 모모문고, 아큐멘터리, 아이돌 취향일기 등	120 (20%)
드라마/영화	CJENM, TVN, SHOWBOX, KPSFF	Sometoon, 당신의 상상은 현실이 된다, 시그널, 또 오해영, 도둑들, 내부자들, 장애인영화제 등	30 (5%)
예능/오락	MBN, CJENM	알토란, 계자이너kkye, 코덕들의 파우치 소개서, 2 FACE 데이트 2, 걸리버여행기 등	120 (20%)
인터뷰	KBS, MBN	화요초대석, 집중인터뷰 이사람, 토요포커스등	90 (15%)

저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드

AI 모델 상세 설명서 다운로드

AI 모델 상세 설명서 다운로드 AI 모델 다운로드

1. 학습 AI모델

1) 음성전사 데이터의 평가로 CER 측정 활용
- 구축한 데이터의 유효성을 검증하기 위하여 가공이 완료된 본 데이터를 인공지능 학습 모델을 통해 검증
- 한국어 방송 콘텐츠 음성데이터는 발화데이터와 그 발화에 해당하는 전사 데이터로 가공되며 이는 한국어 음성인식을 위한 데이터로 활용될 수 있음
- 음성인식 유효성 검증은 최근 성능이 우수한 CTC와 transformer를 결합한 음성인식 알고리즘을 사용하였으며, 음성인식 품질 평가방법은 공인된 CER 기법을 사용하여 평가

1. 학습 AI모델
단 계	구 분	역할 정의	결과
1단계	평가용 음성파일 선정	노이즈가 적은 음성파일 선정	구축 데이터의 10% 파일 선정
		발화 내용이 명료한 음성파일 선정
		기계학습시 사용하지 않은 녹음파일로 선정
2단계	평가용 음성파일	음성파일로부터 텍스트 자료(정답지) 작성	정답 텍스트 파일
2단계	전사 작업	음성파일로부터 텍스트 자료(정답지) 작성	정답 텍스트 파일
3단계	음성파일 음성인식	음성인식 툴을 이용하여 각 음성파일별 음성인식 하여 텍스트 자료 생성	인식결과 텍스트 파일
4단계	평가율을 이용한 CER 측정	별도의 음성인식 평가툴을 이용하여 각 음성파일별 CER 측정	음성파일별
4단계	평가율을 이용한 CER 측정	별도의 음성인식 평가툴을 이용하여 각 음성파일별 CER 측정	CER (정확도 점수)

음성전사 데이터의 평가로 CER 측정 활용 도식화 이미지

- 학습 모델에 사용된 데이터는 한국어 방송 콘텐츠 950시간 정도이며, 이는 세그먼트된 발화 음성 파일 기준으로 대략 937,500개 정도임
- 학습된 음성인식 모델로 실험한 결과 CER 기준 10.0이라는 객관적이고 정량적인 성능 수치가 나왔으며, 이는 사업 초기 계획했던 CER 15를 훨씬 초과하는 좋은 성능 결과를 얻음
- 이로써, 본 과제에서 가공된 한국어 방송 콘텐츠 음성 데이터는 그 품질이 우수함을 음성인식 유효성 검증을 통해 입증함

언어방향 학습데이터셋 모델 평가 표 이미지

2) 특화 번역모델의 번역품질 평가 방안으로 BLEU 평가 활용

특화 번역모델의 번역품질 평가 방안으로 BLEU 평가 활용

- 다국어로 번역하여 구축한 통번역 데이터의 유효성 검증을 입증하기 위해 Attention 기반의 Transformer 알고리즘을 통해 번역 모델을 구성
- 학습된 번역 모델로 실제 구축한 데이터를 검증하기 위해 BLEU라고 하는 범용적인 자동 평가 도구를 사용

Transformer을 이용한 기계번역 모델 학습 이미지

- 모델 구축은 언어별로 진행하였으며, 그 중 한영 병렬 말뭉치가 가장 많은 63만 문장쌍임.
- 언어별 학습을 통해 BLEU를 평가한 결과 한영 번역 모델이 가장 높은 50.27로 나왔고 가장 낮은 언어셋은 한러 38.41로 나옴
- 이러한 결과는 사업 제안서에서 제시한 BLEU 평가 점수 35를 모두 넘는 수치로 이는 구축한 다국어 번역 말뭉치 데이터 역시 그 품질이 우수함을 입증함.

언어방향,학습데이터셋,모델평가 표 이미지

2. 데이터 활용
1) 데이터 활용

2. 데이터 활용
데이터명	AI 모델	모델 성능 지표	응용서비스(예시)
1-009-031 방송콘텐츠 한국어-영어 통번역 음성 데이터	방송콘텐츠 분야 한영 음성인식 모델	CER 15% 이하	방송콘텐츠 한영 AI 자막화 서비스
1-009-031 방송콘텐츠 한국어-영어 통번역 음성 데이터	방송콘텐츠 분야 한영 자막번역 모델	STT: CER < 15%	방송콘텐츠 한영 AI 자막 번역 서비스
1-009-031 방송콘텐츠 한국어-영어 통번역 음성 데이터	방송콘텐츠 분야 한영 자막번역 모델	BLEU 38점 이상	방송콘텐츠 한영 AI 자막 번역 서비스
1-009-031 방송콘텐츠 한국어-영어 통번역 음성 데이터	방송콘텐츠 분야 한영 통번역 모델	STT: CER < 15%	방송콘텐츠 한영 AI 통역 서비스
		BLEU 38점 이상
		TTS Good > 60%

2) 응용 서비스

○ 한국문화 특화 번역 모델로 K-콘텐츠 글로벌화를 위한 세종학당, 해외문화원 등을 통하여 K-콘텐츠 클라우드 번역 서비스

3) 응용서비스 개발

ㅇ다국어 통역기
- 한국어 음성을 인식해서 다국어로 통번역하는 웹서비스
- 인공지능 음성인식과 자동번역 학습모델을 활용하여 개발
- 도메인 특화 성능 고도화를 통해 고객 맞춤형 통번역 서비스 제공 가능

음성인식 음향모델 언어모델 자동번역 언어분석 도메인 특화 다국어 확장 양방향 자막 생성 감정 분석 발화 생성

인공지능 자동번역

ㅇ 다국어 영상 자막 자동 생성 서비스
- 방송 및 유튜브 영상의 한국어 음성을 자동 인식
- 한국어 텍스트를 사용자가 선택한 다국어로 번역하여 자막을 자동으로 생성
- 정확도가 높을 경우 1시간 영상 기준으로 기존 자막화 시간 29시간에서 10분 이내로 단축할 수 있는 효율적인 서비스임
- 자막은 “srt” 또는 “vtt”형태로 다운로드 가능
- 영상 음성에 대한 인식 결과 또는 자동번역 오류가 있을 경우 이를 수정할 수 있는 편집 기능도 함께 제공

다국어 영상 자막 자동 생성 서비스 이미지

데이터 성능 점수

측정값 (%)

기준값 (%)

데이터 성능 지표

데이터 성능 지표
번호	측정항목	AI TASK	학습모델	지표명	기준값 점수	측정값 점수
1	방송콘텐츠 자동 번역(한>영)	Machine Translation	transformer (Attension 기반)	BLEU	0.38 점	0.492199999999999 점
2	방송콘텐츠 자동 번역(한>스)	Machine Translation	transformer (Attension 기반)	BLEU	0.35 점	0.4103 점
3	방송콘텐츠 자동 번역(한>러)	Machine Translation	transformer (Attension 기반)	BLEU	0.35 점	0.412599999999999 점
4	음성인식	Speech Recognition	CTC와 transformer 결합한 음성인식 알고리즘	CER	15 %	8.87 %

※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

1. 데이터 포맷
- 원천 데이터/음성 전사 데이터 구성

1. 데이터 포맷- 원천 데이터/음성 전사 데이터 구성
No	Field name	Length	Meaning
a	대분류	2	rf(교양), dc(다큐), et(연예공연), md(영화드라마), vr(예능오락), iv(인터뷰)
b	중분류	1	k(KBS), m(MBN), c(CJENM), p(KPSFF), t(tvN), s(ShowBox)
c	소분류	3	프로그램명 관리 번호
d	프로그램 회차	3	프로그램별 회차 번호
e	씬정보	3	프로그램 해당 회차 내의 장면 순서
f	순서	4	프로그램 해당 회차 내의 분할 음성(문장) 순서
num	file name	21	ex) rf_c_001_001_001_0001.wav

- 라벨링 통번역/음성발화 데이터

1. 데이터 포맷- 라벨링 통번역/음성발화 데이터
No	Field name	Length	Meaning
a	대분류	2	rf(교양), dc(다큐), et(연예공연), md(영화드라마), vr(예능오락), iv(인터뷰)
b	중분류	1	k(KBS), m(MBN), c(CJENM), p(KPSFF), t(tvN), s(ShowBox)
c	소분류	3	프로그램명 관리 번호
d	프로그램 회차	3	프로그램 회차 번호
e	씬정보	3	프로그램 해당 회차 내의 장면 순서
f	순서	4	프로그램 해당 회차 내의 분할 음성(문장) 순서
g	번역/발화 언어	2	en(미국영어), uk(영국영어), es(스페인어), ru(러시아어)
num	file name	24	ex) rf_c_001_001_001_0001_en.json

2. 데이터 구성

2. 데이터 구성
분류	데이터 종류	언어	카테고리	구축시간
원천데이터	한-영(미국)	한국어 음성	다큐	120시간
			교양	120시간
			연예, 공연	120시간
			영화, 드라마	30시간
			오락, 예능	120시간
			인터뷰	90시간
	한-스	한국어 음성	다큐	120시간
			교양	120시간
			연예, 공연	120시간
			영화, 드라마	30시간
			오락, 예능	120시간
			인터뷰	90시간
	한-러	한국어 음성	다큐	120시간
			교양	120시간
			연예, 공연	120시간
			영화, 드라마	30시간
			오락, 예능	120시간
			인터뷰	90시간
	한-영(영국영어)	한국어 음성	다큐	120시간
			교양	120시간
			연예, 공연	70시간
라벨링데이터	한-영(미국)	음성전사 데이터	다큐	120시간
			교양	120시간
			연예, 공연	120시간
			영화, 드라마	30시간
			오락, 예능	120시간
			인터뷰	90시간
	한-스	음성전사 데이터	다큐	120시간
			교양	120시간
			연예, 공연	120시간
			영화, 드라마	30시간
			오락, 예능	120시간
			인터뷰	90시간
	한-러	음성전사 데이터	다큐	120시간
			교양	120시간
			연예, 공연	120시간
			영화, 드라마	30시간
			오락, 예능	120시간
			인터뷰	90시간
	한-영(영국영어)	음성전사 데이터	다큐	120시간
			교양	120시간
			연예, 공연	70시간
	한-영(미국)	발화녹음 데이터	다큐	120시간
			교양	120시간
			연예, 공연	120시간
			영화, 드라마	30시간
			오락, 예능	120시간
			인터뷰	90시간
	한-스	발화녹음 데이터	다큐	120시간
			교양	120시간
			연예, 공연	120시간
			영화, 드라마	30시간
			오락, 예능	120시간
			인터뷰	90시간
	한-러	발화녹음 데이터	다큐	120시간
			교양	120시간
			연예, 공연	120시간
			영화, 드라마	30시간
			오락, 예능	120시간
			인터뷰	90시간
	한-영(영국영어)	발화녹음 데이터	다큐	120시간
			교양	120시간
			연예, 공연	70시간
	한-영(미국)	통번역 데이터	다큐	120시간
			교양	120시간
			연예, 공연	120시간
			영화, 드라마	30시간
			오락, 예능	120시간
			인터뷰	90시간
	한-스	통번역 데이터	다큐	120시간
			교양	120시간
			연예, 공연	120시간
			영화, 드라마	30시간
			오락, 예능	120시간
			인터뷰	90시간
	한-러	통번역 데이터	다큐	120시간
			교양	120시간
			연예, 공연	120시간
			영화, 드라마	30시간
			오락, 예능	120시간
			인터뷰	90시간
	한-영(영국영어)	통번역 데이터	다큐	120시간
			교양	120시간
			연예, 공연	70시간

3. 어노테이션 포맷
-음성전사 라벨 구성요소

3. 어노테이션 포맷-음성전사 라벨 구성요소
구분	속성명	타입	필수여부	설명	범위
1	음성파일명	string	Y	음성파일명
2	순서	string	Y	전사순서
3	원시시작	string	Y	원본 해당 음성 새그먼트 시작
4	원시끝	string	Y	원본 해당 음성 새그먼트 끝
5	시작시간	string	Y	음성 청크 시간
6	끝시간	string	Y	음성 청크 끝
7	씬정보	string	Y	씬 정보
8	전사작업본	string	Y	전사 작업 내용
9	번역본	string	Y	번역될 텍스트
10	발음전사	string	Y	발음전사
11	철자전사	string	Y	철자전사
12	발화자성별	string	Y	발화자 성별	F/M, f/m
13	발화자연령대	number	Y	발화자 연령대	10,20,30,40,50,60,70,80,90,100
14	신조어	string	N	신조어
15	비속어	string	N	비속어
16	배경음	string	N	배경음 유무	O or null
17	잡음	string	N	잡음 유무	O or null
18	비식별화	string	N	비식별화 유무	-

- 통번역용 라벨 데이터

3. 어노테이션 포맷- 통번역용 라벨 데이터
구분	속성명	타입	필수여부	설명	범위
1	대분류	string	Y	다큐, 교양 등
2	중분류	string	Y	방송사
3	소분류	string	N	프로그램명
4	tsNum	string	Y	순서
5	SegNum	string	Y	청크 순서
6	S-Code	string	Y	출발음성 코드	ko-KR
7	T-Code	string	Y	도착음성 코드	es-ES, en-US, ru-RU, en-GB
8	S-Fname	string	Y	출발음성 파일명
9	T-Fname	string	Y	도착음성 파일명
10	S-ULength	number	Y	출발음성 길이
11	T-ULength	number	Y	도착음성 길이
12	S-TLength	number	Y	출발음성 전사 길이
13	T-TLength	number	Y	도착음성 전사 길이
14	Ratio	number	Y	비율
15	특수표현	string	Y	특수표현
16	S-USex	string	N	출발음성 발화자 성별
17	T-Usex	string	Y	도착음성 발화자 성별
18	S-UAge	number	N	출발음성 발화자 연령대	-
19	T-UAge	number	Y	도착음성 발화자 연령대
20	T-Nationality	string	N	발화자 출신지역
21	원문	string	Y
22	수정원문	string	N
23	MT	string	Y
24	1차수정	string	N
25	2차수정	string	N
26	최종번역문	string	Y
27	수정번역문	string	N
28	발화자ID	string	N
29	번역가ID	string	N

4. 데이터 예시(영화드라마 분야)

4. 데이터 예시(영화드라마 분야)
구분	JSON 구조
음성전사	{ "음성파일명": "md_c_003_014_006_0019.wav", "순서": ”0013“, "원시시작": 00:00:18,395 "원시끝": 00:00:22,910 "시작시간": 00:00.0 ”끝시간“: 00:04.5 "씬정보": "006" "전사작업본": "## 한강 근처 마포대교에서 막걸리 어때요?“ "번역본": "한강 근처 마포대교에서 막걸리 어때요?" "발음전사": "한강 근처 마포대교에서 막걸리 어때요?" "철자전사": "한강 근처 마포대교에서 막걸리 어때요?" "발화자성별": "남" "발화자연령대": 20 "신조어": "X" "비속어": "X" "배경음": "X“ "잡음": "X“ "비식별화": "X“ }


구분	JSON 구조
번역 (한영)	{ "대분류": "영화드라마“ "중분류": "CJENM“ "소분류": "오늘의 타로맨스“ "tsNum": "004“ "SegNum": "014“ "S-Code": "ko-KR“ "T-Code": "en-US“ "S-FName": "md_c_003_014_006_0019.wav“ "T-FName": "md_c_003_014_006_0019_en.wav“ "S-ULength": 4.52 "T-ULength": 5.12 "S-TLength": 21 "T-TLength": 72 "Ratio": 0.291667 "특수표현": "" "S-USex": "f" "T-USex": “f” "S-UAge": 20 "T-UAge": 40 "T-Nationality": “미국” "원문": "한강 근처 마포대교에서 막걸리 어때요?“ ”수정원문“: ”N/A“ "MT": "How about makgeolli at Mapo Bridge near the Han River?" "1차수정": "How about having some makgeolli near Mapo Bridge over the Han River?“ “2차수정”: “N/A” "최종번역문": "How about having some makgeolli near Mapo Bridge over the Han River?“ ”수정번역문“: ”N/A“ "발화자ID": "ms.laurenmmartinez", "번역가ID": "gynasong25" }
번역 (한러)	{ "대분류": "영화드라마“ "중분류": "CJENM“ "소분류": "오늘의 타로맨스“ "tsNum": "004“ "SegNum": "014“ "S-Code": "ko-KR“ "T-Code": "ru“ "S-FName": "md_c_003_014_006_0019.wav“ "T-FName": "md_c_003_014_006_0019_ru.wav“ "S-ULength": 4.52 "T-ULength": 5.12 "S-TLength": 21 "T-TLength": 72 "Ratio": 0.291667 "특수표현": "" "S-USex": "f" "T-USex": “f” "S-UAge": 20 "T-UAge": 40 "T-Nationality": “러시아” "원문": "한강 근처 마포대교에서 막걸리 어때요?" ”수정원문“: ”N/A“ "MT": "Как насчет макколи на мосту Мапо у реки Хан?" "1차수정": "Как насчет выпить макколи у моста Маподэгё на реке Ханган?“ “2차수정”: “N/A” "최종번역": "Как насчет выпить макколи у моста Маподэгё на реке Ханган?" ”수정번역문“: ”N/A“ "발화자ID": "RFS-06", "번역가ID": "UO" }
번역 (한스)	{ "대분류": "영화드라마“ "중분류": "CJENM“ "소분류": "오늘의 타로맨스“ "tsNum": "004“ "SegNum": "014“ "S-Code": "ko-KR“ "T-Code": "es-ES“ "S-FName": "md_c_003_014_006_0019.wav“ "T-FName": "md_c_003_014_006_0019_es.wav“ "S-ULength": 4.52 "T-ULength": 5.12 "S-TLength": 21 "T-TLength": 72 "Ratio": 0.291667 "특수표현": "" "S-USex": "f" "T-USex": “f” "S-UAge": 20 "T-UAge": 40 "T-Nationality": “스페인” "원문": "한강 근처 마포대교에서 막걸리 어때요?“ ”수정원문“: ”N/A“ "MT": "¿Qué tal makgeolli en el puente Mapo cerca del río Han?" "1차수정": "¿Que tal si tomamos makgeolli cerca del puente Mapo por el Rio Hangang?" “2차수정”: “N/A” "최종번역": "¿Qué tal si tomamos makgeolli cerca del puente Mapo por el Río Hangang?“ ”수정번역문“: ”N/A“ "발화자ID": "SF-02", "번역가ID": "dsjungpr" }

데이터셋 구축 담당자

수행기관(주관) : (주)에버트란

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
이청호	02-797-2105	[email protected]	총괄책임

수행기관(참여)

수행기관(참여)
기관명	담당업무
㈜디엠티렙스	데이터 정제, 가공, 검수
㈜솔트룩스이노베이션	데이터 가공, 검수
㈜시스트란	데이터 가공, 검수
㈜아이시글로벌	데이터 가공, 검수
㈜온아시아	데이터 가공, 검수
㈜윤즈정보개발	데이터 정제, 가공, 검수
사이버한국외국어대학교 산학협력단	데이터 가공, 검수

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
이청호	02-797-2105	[email protected]

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.

파일 목록

전체 다운로드 AI 허브 Shell 다운로드 AI 허브 오픈 API 이용안내

연관 데이터

다양한 형태의 한글 문자 OCR

동화 이해도 테스트를 위한 질의응답쌍 생성 데이터

시간 표현 탐지 데이터

방송콘텐츠 한국어-아시아어 번역 말뭉치

인도네시아어 말뭉치 데이터

한국어 방언 발화(경상도)

주요 영역별 회의 음성인식 데이터

음성인식에 의한 영상 요약 데이터

방송콘텐츠 한국어-영어 통번역 음성 데이터

데이터 개요

데이터 변경이력

데이터 히스토리

소개

구축목적

메타데이터 구조표

데이터 통계

교육활용 동영상

저작도구

저작도구 설명서 및 저작도구 다운로드

활용 AI 모델 및 코드

AI 모델 상세 설명서 다운로드

데이터 성능 지표

데이터 성능 점수

데이터 성능 지표

어노테이션 포맷 및 데이터 구조

설명서 및 활용가이드 다운로드

구축 업체

데이터셋 구축 담당자

수행기관(주관) : (주)에버트란

수행기관(참여)

데이터 관련 문의처

안심존 소개

안심존 이용절차

안심존사용신청서 및 첨부서류목록

안심존 이용문의

파일 목록

연관 데이터