AI-Hub

#멀티모달

NEW 한국어 텍스트-비디오-사운드 데이터

분야한국어
유형 비디오 , 이미지

구축년도 : 2023 갱신년월 : 2024-10 조회수 : 2,042 다운로드 : 486 용량 :

샘플 데이터

※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

소개 파일 목록 (API 다운로드)

※ 내국인만 데이터 신청이 가능합니다.

문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.1	2024-10-30	데이터 최종 개방
1.0	2024-08-22	데이터 개방	Beta Version

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2024-08-22	산출물 공개	Beta Version

소개

- 텍스트-비디오-사운드 페어를 통해 시각-언어 분석 및 이를 활용한 서비스 제공을 위한 멀티모달 데이터
- 텍스트 기반의 검색을 통해 비디오 및 사운드 검색이 가능한 학습용 데이터
- 한국어 텍스트-비디오-사운드 쌍 데이터 50만 건 이상 구축

구축목적

- 텍스트 기반 비디오 혹은 이미지 검색, 비디오에서 텍스트 캡션 혹은 요약문 생성 등의 텍스트-이미지, 텍스트-비디오 연구 지원
- 사운드-텍스트 변환 모델 등을 통해 비디오/이미지 자동 자막 시스템 구축
- 텍스트 기반의 자연어 이해, 텍스트 기반 멀티모달 검색, 자연어 생성

메타데이터 구조표
데이터 영역	한국어	데이터 유형	비디오 , 이미지
데이터 형식	mp4, jpg	데이터 출처	KBS 뉴스데이터, 유튜브 등 개인방송
라벨링 유형	전사(비디오), 요약(비디오)	라벨링 형식	json
데이터 활용 서비스	기계 번역, 음성 인식, 이미지 또는 비디오 분석	데이터 구축년도/ 데이터 구축량	2023년/500,123

- 데이터 구축 규모

데이터 구축 규모

데이터 통계	데이터 구축 규모	500,123건
	데이터 분포	스포츠(4.88%), 게임(4.61%), 음악(1.33%), 영화(1.96%) 시사(2.13%), 엔터테인먼트(4.84%), 뷰티패션(4.40%) 교육(2.83%), 과학기술(3.41%), 여행(3.96%) 건강헬스(5.17%), 음식요리(4.47%), DIY공예(1.12%) 인테리어(1.61%), 아트디자인(0.65%), 애니메이션(1.00%) 아동(2.79%), 금융비즈니스(4.34%), 동기부여(1.90%) 다큐멘터리(2.60%), 정치뉴스(7.61%), 기업금융뉴스(5.49%) 국제뉴스(1.59%), 교육뉴스(1.04%), 문화뉴스(2.34%) 사건사고뉴스(10.72%), 사회일반뉴스(6.06%) 과학기술뉴스(3.09%), 스포츠뉴스(0.63%), 날씨기후뉴스(1.43%)

- 데이터 분포

- 도메인 분포 : 스포츠, 게임, 음악, 영화, 시사, 엔터테인먼트, 뷰티/패션, 교육, 과학기술, 여행, 건강/헬스, 음식/요리, DIY/공예, 인테리어, 아트/디자인, 애니메이션, 아동, 금융/비즈니스, 동기부여, 다큐멘터리, 정치뉴스, 기업/금융뉴스, 국제뉴스, 교육뉴스, 문화뉴스, 사건사고뉴스, 사회일반뉴스, 과학기술뉴스, 스포츠뉴스, 날씨기후뉴스 총 30종
- 비디오 내 소리 길이 : 15초 이상
- 성별 : 남, 여
- 연령대 : 10대 미만, 10대, 20대, 30대, 40대, 50대 이상
- 사운드 : 자연, 발화, 음악, 소음, 기타
- 비디오 세분류 : 598개
- 행동 : 159개
- 사물 : 75개
- 장소 : 21개
- 어절 수 : 5어절 단위
- 캡션 어절 수 : 5어절 단위

ㅇ 통계 기준
- 통계 항목 중 성별, 연령대 분포는 라벨링데이터 내 발화자 (speaker_info) 기준으로 나온 통계
- 행동, 사물, 장소 분포는 라벨링데이터 내 이미지 (image_labeling) 기준으로 나온 통계
- 어절 수, 비디오 내 소리 길이, 사운드 분포는 라벨링데이터 내 각각의 발화 (video term) 기준으로 나온 통계

ㅇ 다양성(요건) : 도메인 분포

다양성(요건) : 도메인 분포
도메인 분포 (단위: 건)
카테고리	건	비율
스포츠	24,389	4.88%
게임	23,036	4.61%
음악	6,636	1.33%
영화	9,795	1.96%
시사	10,641	2.13%
엔터테인먼트	24,194	4.84%
뷰티패션	22,004	4.40%
교육	14,166	2.83%
과학기술	17,075	3.41%
여행	19,802	3.96%
건강헬스	25,837	5.17%
음식요리	22,373	4.47%
DIY공예	5,600	1.12%
인테리어	8,035	1.61%
아트디자인	3,255	0.65%
애니메이션	4,978	1.00%
아동	13,973	2.79%
금융비즈니스	21,699	4.34%
동기부여	9,512	1.90%
다큐멘터리	13,003	2.60%
정치뉴스	38,073	7.61%
기업금융뉴스	27,470	5.49%
국제뉴스	7,962	1.59%
교육뉴스	5,218	1.04%
문화뉴스	11,712	2.34%
사건사고뉴스	53,608	10.72%
사회일반뉴스	30,311	6.06%
과학기술뉴스	15,451	3.09%
스포츠뉴스	3,165	0.63%
날씨기후관련뉴스	7,150	1.43%
합계	500,123	100%

ㅇ 다양성(요건) : 비디오 내 소리 길이 (발화 기준)

다양성(요건) : 비디오 내 소리 길이 (발화 기준)
비디오 내 소리 길이
(단위: 초)
정량 목표	결과
15초	충족

ㅇ 다양성(통계) : 성별 (발화자 기준)

다양성(통계) : 성별 (발화자 기준)
성별
(단위: 건)
성별	건	비율
남성	443,649	63.25%
여성	257,793	36.75%
합계	701,442	100%

ㅇ 다양성(통계) : 연령대 (발화자 기준)

다양성(통계) : 연령대 (발화자 기준)
연령대
(단위: 건)
연령대	건	비율
10대 미만	3,123	0.45%
10대	22,546	3.21%
20대	83,549	11.91%
30대	317,308	45.24%
40대	170,958	24.37%
50대 이상	103,958	14.82%
합계	701,442	100%

ㅇ 다양성(통계) : 사운드 (발화 기준)

다양성(통계) : 사운드 (발화 기준)
사운드
(단위: 건)
사운드	건	비율
자연	64,043	1.60%
발화	2,476,912	61.99%
음악	878,616	21.99%
소음	164,413	4.11%
기타	411,706	10.30%
합계	3,995,690	100%

ㅇ 다양성(통계) : 비디오 세분류

다양성(통계) : 비디오 세분류
세분류 카테고리
(단위: 건)
세분류 카테고리	건	비율
퀄트/패브릭	4,043	0.81%
액세서리	577	0.12%
도자기	16	0.00%
캔들	14	0.00%
플라워	4	0.00%
수공예	728	0.15%
목공예	113	0.02%
종이공예	105	0.02%
스트레칭	3,253	0.65%
건강관리	1,061	0.21%
홈트레이닝	4,252	0.85%
중략
대통령	5,019	1.00%
정부부처	5,363	1.07%
지방정부	746	0.15%
경제정책	1,555	0.31%
교육정책	171	0.03%
국방	3,286	0.66%
외교	4,060	0.81%
복지	459	0.09%
환경	244	0.05%
과학기술	133	0.03%
세종청사	44	0.01%
법률	1,069	0.21%
보건의료	434	0.09%
국토교통	529	0.11%
집권당	1,100	0.22%
야당	1,587	0.32%
군소정당	77	0.02%
원외정당	13	0.00%
지도부회의	130	0.03%
정당정책	846	0.17%
당대표선거	149	0.03%
원내대표선거	42	0.01%
후원회	28	0.01%
신당창당	59	0.01%
합당	27	0.01%
합계	500,123	100%

※ 일부 내용만 홈페이지에서 표시되며 전체 비디오 세분류 카테고리는 본 페이지의

'어노테이션 포맷 및 데이터 구조' 항목의 '구축활용가이드 다운로드'를 통해 확인하실 수 있습니다.

ㅇ 다양성(통계) : 행동 (이미지 기준)

다양성(통계) : 행동 (이미지 기준)
행동
(단위: 건)
행동	건	비율
먹다	4,381	0.84%
마시다	1,250	0.24%
씹다	187	0.04%
놀다	1,344	0.26%
쉬다	435	0.08%
타다	1,562	0.30%
요리하다	2,337	0.45%
산책시키다	77	0.01%
(공을) 차다	725	0.14%
그리다	300	0.06%
연주하다	3,733	0.72%
(사진을) 찍다	822	0.16%
(공을) 던지다	608	0.12%
(공을) 치다	2,951	0.57%
게임하다	2,832	0.55%
채팅하다	63	0.01%
전화하다	492	0.09%
수다를 떨다	673	0.13%
(노래를) 부르다	1,142	0.22%
보다	15,857	3.05%
듣다	2,075	0.40%
중략
만나다	607	0.12%
헤어지다	66	0.01%
말하다	171,402	33.01%
일하다	8,041	1.55%
회의하다	2,459	0.47%
협업하다	142	0.03%
경쟁하다	132	0.03%
싸우다	2,751	0.53%
배우다	294	0.06%
읽다	1,369	0.26%
쓰다	2,664	0.51%
악수하다	1,441	0.28%
나누다	20	0.00%
내다	42	0.01%
빌리다	12	0.00%
알 수 없음(기타)	161,306	31.06%
합계	500,123	100%

※ 일부 내용만 홈페이지에서 표시되며 전체 행동(이미지 기준)은 본 페이지의

'어노테이션 포맷 및 데이터 구조' 항목의 '구축활용가이드 다운로드'를 통해 확인하실 수 있습니다.

ㅇ 다양성(통계) : 사물 (이미지 기준)

다양성(통계) : 사물 (이미지 기준)
사물
(단위: 건)
사물	건	비율
자전거	1,712	0.33%
자동차	23,553	4.54%
오토바이	610	0.12%
비행기	1,199	0.23%
버스	1,356	0.26%
기차	517	0.10%
트럭	1,945	0.37%
배	3,882	0.75%
신호등	254	0.05%
벤치	658	0.13%
소화전	162	0.03%
교통표지판	559	0.11%
새	445	0.09%
고양이	5,607	1.08%
강아지	2,497	0.48%
말	174	0.03%
양	68	0.01%
소	175	0.03%
코끼리	33	0.01%
곰	94	0.02%
얼룩말	8	0.00%
기린	7	0.00%
돼지	156	0.03%
병	744	0.14%
유리잔	1,518	0.29%
컵	2,122	0.41%
포크	617	0.12%
숟가락	2,457	0.47%
젓가락	1,915	0.37%
나이프	547	0.11%
그릇	5,153	0.99%
사과	174	0.03%
바나나	55	0.01%
피자	63	0.01%
밥	486	0.09%
샌드위치	69	0.01%
국	345	0.07%
의자	13,197	2.54%
소파	3,559	0.69%
침대	2,270	0.44%
책상	8,220	1.58%
좌변기	210	0.04%
화분	9,075	1.75%
티비	1,840	0.35%
노트북	3,716	0.72%
마우스	579	0.11%
키보드	1,173	0.23%
리모콘	139	0.03%
핸드폰	5,409	1.04%
마이크	36,361	7.00%
전자레인지	144	0.03%
냉장고	604	0.12%
에어프라이어	85	0.02%
가스레인지	622	0.12%
믹서기	137	0.03%
스키	20	0.00%
스노보드	14	0.00%
운동용 공	2,302	0.44%
방망이	53	0.01%
글러브	110	0.02%
라켓	1,290	0.25%
보드	79	0.02%
가방	2,908	0.56%
슈트케이스	34	0.01%
우산	404	0.08%
넥타이	13,691	2.64%
캐리어가방	292	0.06%
책	6,273	1.21%
시계	1,209	0.23%
꽃병	913	0.18%
가위	326	0.06%
인형	500	0.10%
헤어드라이어	106	0.02%
칫솔	84	0.02%
null	339,408	65.36%
합계	500,123	100%

ㅇ 다양성(통계) : 장소 (이미지 기준)

다양성(통계) : 장소 (이미지 기준)
장소
(단위: 건)
장소	건	비율
교육시설	13,880	2.67%
음식점	13,583	2.62%
자연 경관	29,973	5.77%
인공조성환경	14,896	2.87%
거주시설	85,457	16.46%
숙박시설	3,461	0.67%
종교/의료시설	9,164	1.76%
공공시설	15,986	3.08%
교통/이동수단	15,275	2.94%
상업시설	16,427	3.16%
문화재 및 유적지	1,915	0.37%
스포츠 관람 및 레저시설	12,803	2.47%
오락시설	2,497	0.48%
공연시설	2,726	0.52%
행사/사무공강	80,695	15.54%
건물 내부시설	33,054	6.37%
도심 환경	15,138	2.92%
도로 및 교통시설	22,185	4.27%
예술/전시공간	2,630	0.51%
산업시설	5,833	1.12%
알 수 없음	121,714	23.44%
합계	519,292	100%

ㅇ 다양성(통계) : 어절 수 (발화 기준)

다양성(통계) : 어절 수 (발화 기준)
어절 수
(단위: 건)
어절 수	건	비율
1~5	752,634	30.38%
6~10	734,600	29.66%
11~15	513,469	20.73%
16~20	283,233	11.43%
21~25	121,465	4.90%
26~30	44,127	1.78%
30 이상	27,527	1.11%
합계	2,477,055	100%

ㅇ 다양성(통계) : 캡션 어절 수

다양성(통계) : 캡션 어절 수
캡션 어절 수
(단위: 건)
캡션 어절 수	건	비율
5~10	104,082	20.81%
11~15	131,345	26.26%
16~20	111,137	22.22%
21~25	73,313	14.66%
26~30	41,034	8.20%
30 이상	39,212	7.84%
합계	500,123	100%

저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드

AI 모델 상세 설명서 다운로드

AI 모델 상세 설명서 다운로드 AI 모델 다운로드

- 모델학습
본 사업에서 구축한 데이터가 비디오 자동 요약과 비디오 구간검색 모델에 활용할 수 있기에 아래와 같은 비율로 학습을 진행함.

모델학습
모델 분류	구분	학습(Training)	검증(Validation)	시험(Test)
모델 분류	구분	학습(Training)	검증(Validation)	시험(Test)
비디오 캡셔닝	개요	- KO-BART - GPU 학습 사용	- 학습 도중 모델 성과 평가 및 비교	- 모델 학습 완료 후 - 모델 테스트 - BLEU-3, BLEU-4
	개요	- KO-BART - GPU 학습 사용	- 학습 도중 모델 성과 평가 및 비교	- 모델 학습 완료 후 - 모델 테스트 - BLEU-3, BLEU-4
	데이터 비율	85%	5%	10%
비디오 검색	개요	- KO-BART + BERT - GPU 학습 사용	- 학습 도중 모델 성과 평가 및 비교	- 모델 학습 완료 후 - 모델 테스트 - Recall@1, Recall@5 점수 비교
	개요	- KO-BART + BERT - GPU 학습 사용	- 학습 도중 모델 성과 평가 및 비교	- 모델 학습 완료 후 - 모델 테스트 - Recall@1, Recall@5 점수 비교
	데이터 비율	85%	5%	10%

- 서비스 활용 시나리오
구축한 모델은 영상 자막이나 회의 요약 및 번역 등에 활용할 수 있으며, 코퍼스 연구에 활용할 수 있음
● OTT 컨텐츠 자동 요약문 생성
● STT 연계 회의록 자동 요약문 생성

● OTT / 동영상 플랫폼 검색 모델 개발
▷ 동영상 플랫폼 등 키워드-based의 동영상 검색이 아닌, 특정 구간의 장면 / 발화내용을 활용하여 검색
▷ 더욱 정교화된 검색 모델 개발에 적극 활용 가능

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

- 데이터 설명

데이터 설명
과제명	주요 내용	데이터 구축량	데이터 형식
한국어 텍스트-비디오-사운드 데이터	유튜브, 방송사 뉴스 비디오 데이터의 음성 전사, 주요 이미지 추출, 비디오 요약 가공을 한 데이터셋	대분류 30개, 세분류 598개로 이루어진 말소리가 포함된 최소 15초 이상으로 구성된 50만 건의 데이터셋	비디오 음성 전사, 비디오 내용 요약, 주요 이미지에 대한 텍스트 라벨링으로 매핑된 데이터셋
데이터 종류	내용		제공 형태
원천 데이터	정제 기준에 맞게 정제된 총 50만 건 이상의 비디오 데이터 및 비디오 내 주요 이미지 데이터		MP4, JPG
라벨링 데이터	비디오 음성 전사, 비디오 내용 요약, 주요 이미지에 대한 텍스트 라벨링한 데이터		JSON

- 데이터 구성

데이터 구성
key	Description	type
metadata	영상 메타데이터	object
video	비디오 정보	object
term	발화 전사 정보	array
summary	비디오 요약문	object
image	이미지 정보	array

- 어노테이션 포맷

어노테이션 포맷
구분			속성명	타입	필수 여부	설명	범위
1			metadata	obj	Y	영상 메타데이터
	1-1		filename	str	Y	파일명
	1-2		category	str	Y	30개 대분류 카테고리
	1-3		sub_category	num	Y	598개 세분류 카테고리 항목 번호로 표기
	1-4		sound	num	Y	사운드 분류(번호 표기)	1~5
	1-5		quality	str	Y	영상 화질
	1-6		length	num	Y	영상 길이 (초)
	1-7		format	str	Y	영상 포맷
	1-8		date	str	Y	최초 방송(게시)일
	1-9		license	str	Y	저작권
	1-10		agreement_score	num	Y	2차 가공자 점수
2			video	obj	Y	비디오 정보
	2-1		speakers_info	arr	Y	발화 화자 정보
		2-1-1	speaker_id	str	Y	화자 아이디
		2-1-2	age	str	Y	연령대	10대 미만, 10대, 20대, 30대, 40대, 50대 이상
		2-1-3	gender	str	Y	성별	남성, 여성
	2-2		term	arr	Y	발화 전사 정보
		2-2-1	speaker_id	str	Y	화자 아이디
		2-2-2	transcription	str	Y	발화 전사 내용
		2-2-3	sound_type	num	Y	사운드 분류(번호 표기)
		2-2-4	start	num	Y	발화 시작 시간
		2-2-5	end	num	Y	발화 끝 시간
3			summary	str	Y	비디오 요약문
4			image	arr	Y	이미지
	4-1		image_info	obj	Y	이미지 정보
		4-1-1	image_id	str	Y	이미지 아이디
		4-1-2	image_name	str	Y	이미지 파일명
		4-1-3	image_format	str	Y	이미지 포맷
	4-2		image_labeling	arr	Y	이미지 라벨링 정보
		4-2-1	labeling_id	str	Y	라벨링 아이디
		4-2-2	age	str		등장인물 연령대	10대 미만, 10대, 20대, 30대, 40대, 50대 이상
		4-2-3	gender	str		등장인물 성별	남성, 여성
		4-2-3-1	place	num	Y	장소 대분류 21가지 항목 번호로 표기	1~21
		4-2-3-1	obj	num		사물 소분류 75가지 항목 번호로 표기	1~75
		4-2-3-2	act	num	Y	행동 소분류 159가지 항목 번호로 표기	1~159

- 실제 json 예시

실제 json 예시
"metadata": { "filename": "KNE_00439", "category": "문화뉴스", "sub_category": 23, "sound": [ 2, 3 ], "quality": "HD", "length": 24.924, "format": "MP4", "date": "2022-03-16", "license": "KBS", "agreement_score": 3 }, "video": { "speakers_info": [ { "speaker_id": "1", "age": "30대", "gender": "남성" } ], "term": [ { "speaker_id": "1", "transcription": "따라서 JYP USA는 케이팝 고유의 팬덤 기반 사업을 미국 시장에 적용하고 현지에서 신인도 발굴해 키워낼 계획인데요.", "sound_type": [ 2, 3 ], "start": 0.000, "end": 9.213 }, { "speaker_id": "1", "transcription": "무엇보다 현지에 소속된 그룹들의 활발한 미국 활동이 예상돼 이들이 어떤 성과를 거둘지 관심이 쏠립니다.", "sound_type": [ 2, 3 ], "start": 9.223, "end": 19.262 }, { "speaker_id": "1", "transcription": "서울대가 대중문화 분야 인사에게 처음으로 명예 박사 학위를 주기로 했습니다.", "sound_type": [ 2 ], "start": 19.272, "end": 24.924 } ] }, "summary": "미국 시장에서 케이팝 고유의 팬덤 기반 사업을 확장중인 JYP USA 소속 현지 그룹들의 미국 활동 성과에 대한 기대감과 서울대가 대중문화 분야 인사에게 처음으로 박사 학위를 수여했다는 소식이다.", "image": [ { "image_info": { "image_id": "1", "image_name": "KNE_00439_01.jpg", "image_format": "JPG" }, "image_labeling": [ { "labeling_id": "1.1", "age": "20대", "gender": "남성", "place": 17, "object": null, "act": 12 } ] }, { "image_info": { "image_id": "2", "image_name": "KNE_00439_02.jpg", "image_format": "JPG" }, "image_labeling": [ { "labeling_id": "2.1", "age": "20대", "gender": "남성", "place": 14, "object": null, "act": 137 } ]

데이터셋 구축 담당자

수행기관(주관) : ㈜팀벨

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
김소현	070-5090-7961	[email protected]	011-017. 한국어 텍스트-비디오-사운드 데이터 실무 담당

수행기관(참여)

수행기관(참여)
기관명	담당업무
㈜메트릭스알앤씨	원시데이터 수집 및 원천데이터 정제
KBS	원시데이터 수집 및 원천데이터 정제
한국과학기술원	품질 검수 및 AI 모델 개발

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
이상준	070-5090-7902	[email protected]
김소현	070-5090-7961	[email protected]

AI모델 관련 문의처

AI모델 관련 문의처
담당자명	전화번호	이메일
나경준	042-350-2912	[email protected]
김재홍	042-350-2912	[email protected]

저작도구 관련 문의처

저작도구 관련 문의처
담당자명	전화번호	이메일
이상준	070-5090-7902	[email protected]
김소현	070-5090-7961	[email protected]

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의