-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2024-10-30 데이터 최종 개방 1.0 2024-06-28 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-06-28 산출물 공개 Beta Version 소개
- 채색화 디지털 콘텐츠 제작과 미술 시장의 인공지능 활용을 위한 한국 전통 수묵 채색화 제작 데이터 4,439장과 텍스트 디스크립션 캡션 데이터 한글/영문 각 4,439개, 총 8,878개 및 태그 데이터 4,439개 구성
구축목적
- 양질의 수묵 채색화 직접 제작을 통한 구축으로 인공지능 모델 학습에 용이한 데이터 셋 구축 및 정통 문화산업의 한류 열풍 확산을 통한 세계적 문화 소비 및 가치 증대
-
메타데이터 구조표 데이터 영역 영상이미지 데이터 유형 이미지 데이터 형식 jpg 데이터 출처 크라우드소싱(직접제작) 라벨링 유형 분류태그, 캡션(이미지) 라벨링 형식 JSON 데이터 활용 서비스 수묵채색화 이미지 생성 서비스 데이터 구축년도/
데이터 구축량2023년/4,439건 -
- 데이터 구축 규모
데이터 구축 규모 구분 세부내역 성과목표 데이터 셋 수집 이미지 데이터 4,439건 가공/검수 이미지 유형별 분포 인공물 2,285건 자연물 2,449건 슈퍼클래스 대상별 분포 용기 372건 가정용 전자기기 337건 가정용 가구 415건 대형 인공 야외객체 379건 차량 359건 운송기기 423건 수생 포유류 128건 물고기 173건 꽃 174건 과일 및 채소 170건 곤충 172건 큰 육식 동물 179건 큰 자연 야외 장면 188건 대형 잡식동물과 초식동물 175건 중형 포유류 191건 비곤충 무척추동물 134건 사람 224건 파충류 176건 작은 포유류 174건 나무 191건 클래스 대상별 분포 병 114 건 컵 114 건 그릇(접시포함) 144 건 전기포트 70 건 믹서기 71 건 전등 102 건 전화(핸드폰포함) 94 건 의자(소파포함) 147 건 테이블 97 건 수납장(옷장포함) 95 건 침대 76 건 다리 92 건 성(궁궐포함) 82 건 집 119 건 빌딩 86 건 자동차 102 건 버스 78 건 오토바이 96 건 트럭 83 건 비행기 91 건 배 87 건 기차 84 건 전차(탱크포함) 82 건 트랙터 79 건 물개 45 건 고래 43 건 수달 40 건 열대어 52 건 상어 45 건 잉어 40 건 가오리 36 건 국화 44 건 장미 46 건 백합 42 건 튤립 42 건 포도 46 건 사과 42 건 무 41 건 버섯 41 건 나비 48 건 딱정벌레 41 건 잠자리 42 건 벌 41 건 곰 35 건 사자 42 건 호랑이 56 건 표범 46 건 구름(이 있는 풍경) 76 건 산(숲포함) 65 건 해안풍경 47 건 코끼리 42 건 낙타 41 건 기린 51 건 소 41 건 개 93 건 고양이 98 건 게 53 건 문어 40 건 달팽이 41 건 아기 85 건 남자 67 건 여자 72 건 악어 42 건 공룡(용포함) 40 건 거북 47 건 도마뱀 47 건 다람쥐 49 건 햄스터 42 건 토끼 42 건 박쥐 41 건 단풍나무 45 건 소나무 57 건 야자나무 48 건 버드나무 41 건 작품 난이도별 분포 A등급 399건 B등급 1,142건 C등급 1,811건 D등급 1,087건 종이 유형별 분포 화선지 2,998건 순지 1,441건 필선별 분포 철선묘 1,183건 난엽묘 3,256건 화풍별 분포 일필채색화 3,760건 공필채색화 679건 화법별 분포 구륵착색법 3,016건 몰골착색법 1,423건 - 데이터 분포
데이터 분포 항목명 지표 결과 이미지 유형 분포 목표 구성비 구분 수량 비중 인공물 46.00% 인공물 2,285 48.24% 자연물 54.00% 자연물 2,449 51.76% 이미지 세부 유형 분포 목표 구성비 구분 수량 비중 용기 6.00% 용기 7.86% 372 가정용전자기기 7.00% 가정용전자기기 7.12% 337 가정용가구 8.00% 가정용가구 8.77% 415 대형인공야외객체 8.00% 대형인공야외객체 8.01% 379 차량 8.00% 차량 7.58% 359 운송기기 9.00% 운송기기 8.94% 423 수생포유류 3.00% 수생포유류 2.70% 128 물고기 4.00% 물고기 3.65% 173 꽃 4.00% 꽃 3.68% 174 과일및채소 4.00% 과일및채소 3.59% 170 곤충 4.00% 곤충 3.63% 172 큰육식동물 4.00% 큰육식동물 3.78% 179 큰자연야외장면 3.00% 큰자연야외장면 3.97% 188 대형잡식동물과초식동물 4.00% 대형잡식동물과초식동물 3.70% 175 중형포유류 4.00% 중형포유류 4.03% 191 비곤충무척추동물 3.00% 비곤충무척추동물 2.83% 134 사람 5.00% 사람 4.73% 224 파충류 4.00% 파충류 3.72% 176 작은포유류 4.00% 작은포유류 3.68% 174 나무 4.00% 나무 4.03% 191 -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드- 텍스트로 이미지 생성(text-to-image): Stable-Diffusion
그리고자 하는 수묵 채색화 이미지의 feature를 자연어로 신경망을 통해 입력하였을 때 이미지를 결과물로 내는 인공지능 모델
- 이 모델은 확률적인 과정을 이용하여 고해상도 이미지를 생성하며, 입력 이미지가 아닌 잠재 공간(latent space)에서 직접적으로 샘플링하여 이미지를 생성
- 이 모델은 잠재 공간에서 초기 노이즈 벡터를 입력으로 받아, 노이즈 벡터를 점진적으로 변환해가면서 고해상도 이미지를 생성한다. 이러한 변환 과정도 Stable Diffusion과 마찬가지로 확률적인 연산을 사용하여 수행
- 각 스텝에서는 이전 스텝에서 변환된 노이즈 벡터와 새로운 노이즈 벡터가 입력으로 주어지고, 이를 이용하여 더 높은 퀄리티의 이미지를 생성- 생성된 이미지의 다양성을 극대화하는 것에 중점을 둔 모델이며, 이 모델은 높은 퀄리티의 이미지 뿐만 아니라 다양한 스타일과 특성을 가진 이미지를 생성 가능
- 이미지 생성에 대한 더욱 세부적인 제어가 가능한 모델 -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드- 데이터 구성
데이터 구성 No 속성 항목명 내용 구성 1 작품 난이도 분포 images[*].grade 작품난이도 1: A등급 2: B등급 3: C등급 4: D등급 2 종이 유형 분포 images[*].paper 종이유형 1.화선지 2.순지 3 화풍 분포 images[*].style 화풍 1.일필채색화 2.공필채색화 4 화법 분포 images[*].picture 화법 1.구륵착색법 2.몰골착색법 5 필선 분포 images[*].penmanship 필선 1. 철선묘 2. 난엽묘 6 객체 분포 images[*].category 객체(클래스) 구분자 “.” 기준 세 번째 숫자 7 한국어 이미지 캡션 길이 분포 images[*].caption_kr 한국어 이미지 캡션 - 8 영어 이미지 캡션 길이 분포 images[*].caption_en 영어 이미지 캡션 - 9 이미지 캡션 중복성 images[*].caption_kr 한국어/영어 이미지 캡션 각 언어별 캡션 images[*].caption_en 10 이미지 유형 분포 images[*].category 이미지 유형(카테고리) 구분자 “.” 기준 첫 번째 숫자 1: 인공물 2: 자연물 11 이미지 세부 유형 분포 images[*].category 이미지 세부 유형(슈퍼클래스) 구분자 “.” 기준 두 번째 숫자 12 이미지 캡션 음절 수 images[*].caption_kr, 한국어/영어 이미지 캡션 - images[*].caption_en 13 이미지 캡션 어절 수 images[*].caption_kr, 한국어/영어 이미지 캡션 - images[*].caption_en
- 어노테이션 포맷어노테이션 포맷 No 속성명 타입 필수
여부설명 범위 구성 1 images[] Object 원천데이터 (수묵채색화)
어노테이션1-1 identifier string Y 이미지 식별자(파일명) 이미지유형_슈퍼클래스
_클래스_순번1-2 type string Y 이미지
파일 확장자JPG 1-3 width number Y 이미지 가로 크기(픽셀) 1-4 height number Y 이미지 세로 크기(픽셀) 1-5 captured string Y 이미지 생성 일자 YYYY-MM-DD HH:mm:ss 1-6 category array Y 이미지유형,
슈퍼클래스,
클래스1.1.1:Object.nature.
tableware.cup1-7 model number Y 촬영 기기명 irc3125 1-8 grade number Y 작품 난이도 1 ~ 4 1: A등급 2: B등급 3: C등급 4: D등급 1-9 paper number Y 종이 유형 1 ~ 2 1.화선지 2.순지 1-10 penmanship number Y 필선 1 ~ 2 1. 철선묘 2. 난엽묘 1-11 style number Y 화풍 1 ~ 2 1.일필채색화 2.공필채색화 1-12 picture number Y 화법 1 ~ 2 1.구륵착색법 2.몰골착색법 1-13 caption_kr string Y 이미지 캡션(한글) 이미지를 묘사한 문장(한글),
5단어 20음절 이상 문장 구성1-14 caption_en string Y 이미지 캡션(영문) 이미지를 묘사한 문장(영문),
5단어 20음절 이상 문장 구성
- 라벨 실제 예시라벨 실제 예시 {
"images": {
"identifier": “IMG_00001”,
"type": "jpg",
"width": 3508,
"height": 2408,
"captured": "2023-08-01 07:30:08",
"category": ["1.1.1"],
"model": “Canon_irc3125”,
"grade": 1,
"paper": 2,
"penmanship": 1,
"style": 1,
"picture": 2,
"caption_kr": "정 가운데 위에는 동그랗고 하얀 보름달이 떠 있고 하늘은 푸르며 아래에는 소나무 여러 그루가 있으며 청록색을 띄고 가운데 사이에는 노란색을 띄는 바위가 우뚝 솟아있다.",
"caption_en": "There is a round white full moon above the center, the sky is blue, and there are several pine trees below, and there is a turquoise color, and a yellow-colored rock stands tall in the middle."
}
}
- 디렉토리 구조디렉토리 구조 1차 분류 2차 분류 3차 분류 01.인공물 01.용기 01.병 02.컵 03.그릇(접시포함) 02.가정용 전자기기 04.전기포트 05.믹서기 06.전등 07.전화(핸드폰포함) 03.가정용 가구 08.의자(소파포함) 09.테이블 10.수납장(옷장포함) 11.침대 04.대형 인공 야외객체 12.다리 13.성(궁궐포함) 14.집 15.빌딩 05.차량 16.자동차 17.버스 18.오토바이 19.트럭 06.운송기기 20.비행기 21.배 22.기차 23.전차(탱크포함) 24.트랙터 02.자연물 07.수생 포유류 25.물개 26.고래 27.수달 08.물고기 28.열대어 29.상어 30.잉어 31.가오리 09.꽃 32.국화 33.장미 34.백합 35.튤립 10.과일 및 채소 36.포도 37.사과 38.무 39.버섯 11.곤충 40.나비 41.딱정벌레 42.잠자리 43.벌 12.큰 육식 동물 44.곰 45.사자 46.호랑이 47.표범 13.큰 자연 야외 장면 48.구름(이 있는 풍경) 49.산(숲포함) 50.해안풍경 14.대형 잡식동물과 초식동물 51.코끼리 52.낙타 53.기린 54.소 15.중형 포유류 55.개 56.고양이 16.비곤충 무척추동물 57.게 58.문어 59.달팽이 17.사람 60.아기 61.남자 62.여자 18.파충류 63.악어 64.공룡(용포함) 65.거북 66.도마뱀 19.작은 포유류 67.다람쥐 68.햄스터 69.토끼 70.박쥐 20.나무 71.단풍나무 72.소나무 73.야자나무 74.버드나무 -
데이터셋 구축 담당자
수행기관(주관) : 경희대학교 산학협력단
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 나형민 02-961-0641 [email protected] 데이터 수집, 데이터 검수 수행기관(참여)
수행기관(참여) 기관명 담당업무 (주)올빅뎃 데이터 가공, 데이터 검수 한국딥러닝(주) 데이터 검수, AI모델 개발 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 나형민 02-961-0641 [email protected] AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 류석 010-3004-5589 [email protected] 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 이동재 031-697-8722 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.