NEW 유사 상표 이미지 검색 서비스의 사용자 입력 이미지 데이터 (2023)
- 분야영상이미지
- 유형 이미지
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2024-10-30 데이터 최종 개방 1.0 2024-06-28 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-06-28 산출물 공개 Beta Version 소개
- 유사 상표 이미지 검색 서비스를 운영하며 수집한 사용자 입력 상표 이미지 데이터를 국제비엔나코드분류 기준에 의거하여 이미지 내의 특징 도형(객체)를 태깅하고 이미지내 도형의 위치를 어노테이션 한 데이터셋
구축목적
- AI 허브의 공개데이터를 이용하여 개발한 유사 상표 이미지 검색 서비스의 사용자 입력 이미지 데이터를 수집 가공하여 인공지능 학습용 데이터셋을 구축함으로써 기존의 정제된 이미지 상표뿐만 아니라 사용자가 제공한 실제 데이터를 통해서도 이미지 유사도 검색을 제공하는 객체 탐지 모델을 훈련하기 위함
-
메타데이터 구조표 데이터 영역 영상이미지 데이터 유형 이미지 데이터 형식 jpg 데이터 출처 주관기관 플랫폼 서비스 라벨링 유형 바운딩박스(이미지), 세그멘테이션(이미지) 라벨링 형식 json 데이터 활용 서비스 유사상표 이미지 검색서비스 데이터 구축년도/
데이터 구축량2023년/원천데이터: 502,741건 / 라벨링데이터: 502,741건 -
- 데이터 구축 규모
데이터 구축 규모 데이터 구분 수량 데이터 형식 용량 원천데이터 502,741 장 이미지(.jpg) 16.31GB 라벨링 데이터 502,741 개 어노테이션(.json) 407.81MB - 데이터 분포
■ 원천데이터: 국제상품분류(Nice classification)* 분포
- 국제상품분류는 상표를 출원하고자 하는 산업군을 총 45개로 정의해놓은 국제기준*원천데이터(이미지) 기준
데이터 분포 구분 비율(%) nc01 2.22 nc02 2.22 nc03 2.22 nc04 2.22 nc05 2.22 nc06 2.22 nc07 2.22 nc08 2.22 nc09 2.22 nc10 2.22 nc11 2.22 nc12 2.22 nc13 2.22 nc14 2.22 nc15 2.22 nc16 2.22 nc17 2.22 nc18 2.22 nc19 2.22 nc20 2.22 nc21 2.22 nc22 2.22 nc23 2.22 nc24 2.22 nc25 2.22 nc26 2.22 nc27 2.22 nc28 2.22 nc29 2.22 nc30 2.22 nc31 2.22 nc32 2.22 nc33 2.22 nc34 2.22 nc35 2.22 nc36 2.22 nc37 2.22 nc38 2.22 nc39 2.22 nc40 2.22 nc41 2.22 nc42 2.22 nc43 2.22 nc44 2.22 nc45 2.22 총 합 100% 데이터 분포 클래스(비엔나코드) Train(개) Validation(개) Test(개) 201 83,831 10,522 10,503 203 26,858 3,468 3,345 205 20,584 2,699 2,557 209 63,185 7,733 7,762 301 34,183 4,213 4,189 304 14,548 1,873 1,822 305 9,963 1,245 1,241 307 46,251 5,804 5,754 309 16,444 2,028 2,053 311 10,472 1,253 1,242 313 10,676 1,430 1,375 405 28,912 3,714 3,549 501 20,281 2,507 2,514 505 31,226 3,900 3,875 507 17,751 2,192 2,206 601 10,255 1,228 1,231 701 21,431 2,583 2,805 907 10,527 1,284 1,329 1103 10,528 1,322 1,294 1601 11,885 1,504 1,463 1801 13,513 1,688 1,734 2103 19,153 2,433 2,510 2401 24,276 2,935 3,050 2409 14,467 1,828 1,768 합계 571,200 71,386 71,171 -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드- 인공지능 기반 상표 이미지 객체 탐지 모델
◾ 개발 목표: 사용자 입력 상표 이미지 내 비엔나코드에 해당하는 객체(도형) 탐지
◾ 개발 내용: 구축되는 학습데이터를 활용 YOLOv8 기반 상표 이미지에서 라벨(비엔나코드 중분류)에 해당하는 객체(도형)를 탐지함.
◾ 상표 이미지 객체 탐지 YOLOv8 모델의 기본 구조는 다음과 같음.인공지능 기반 상표 이미지 객체 탐지 모델 YOLOv8 구조 [그림] YOLO의 작동 방식
설명 • Step object detection 기법을 제안하여 기존의 모형보다 객체 검출 속도 및 정확도가 획기적으로 향상되었으며, 해당 모형에 대한 설명은 아래와 같음.
• YOLO에서 활용되는 CNN의 입력 크기는 416×416으로 가로와 세로 길이 비율이 동일하나, 일반적인 영상 데이터의 가로 세로 비율이 1:1이 아닌 경우 영상에 여백을 추가하여 가로 세로의 비율을 1:1로 조정함.
• 가로와 세로의 비율이 조정된 영상 데이터를 이미지로 분할하여 CNN에 통과시키며, fully connected layer까지 통과된 특성 벡터를 아래 식과 같은 형태로 변환함.
식(1)
• 위의 식에서 는 anchor의 개수를 의미하며, 는 (object가 존재할 확률), (x center, y center, width, height), 는 클래스 개수를 의미함.
• 각 그리드 셀에서 가 threshhold 미만으로 나타난 bounding box를 제거하며, threshhold 이상으로 나타난 bounding box 중 region별로 가 가장 높은 boundig box만 남김으로써 객체의 위치 및 클래스를 검출함.- 응용서비스 - 상표 이미지 기반 유사 이미지 검색 서비스 ‘마크뷰’ 고도화
◾ 전문가뿐만 아니라 일반인도 쉽게 사용할 수 있는 유사 상표 이미지 및 텍스트 검색 플랫폼 개발을 통해 상표권/디자인권 보호 및 지식재산권 취약계층 격차 해소
◾ 본 개발을 통해, 지식재산보호 취약계층인 중소기업, 소상공인에 대한 지식재산보호 강화, 노동집약적인 지식재산 산업에 인공지능 기술을 접목하여 기술 선진화에 이바지하고자 함.[그림] 유사 상표 이미지/텍스트 검색 서비스 ‘마크뷰’
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드- 데이터 개요
■ 상표 출원시, 유사한 상표가 있을 경우 등록이 거절되는 경우가 존재하므로 출원 이전에 유사한 선 등록상표의 존재여부를 조사 하는 것이 필수적임.
■ 유사상표 검색 서비스를 이용하는 사용자가 제공한 상표 이미지를 수집하여, 이를 도형 분류코드인 ‘비엔나 코드’ 기준으로 가공하여 인공지능 학습용 데이터셋을 구축함.
■ 하나의 상표 이미지에서 평균적으로 2.5개 이상의 비엔나코드를 부여하므로, 이를 바탕으로 원천데이터는 50만건, 라벨링 데이터는 50만건 이상을 구축 목표로 함.- 원천데이터
■ 예시■ 디렉토리 구조: 국제상품분류(Nice classification)* 기준
- 국제상품분류는 상표를 출원하고자 하는 산업군을 총 45개로 정의해놓은 국제기준
- 본 사업에서는 유사상표 이미지 검색 서비스를 통해 이미지를 검색 할 경우 사용자에게 상품 분류(상표를 출원하고자 하는 산업군)를 선택하여 검색하도록 하므로 이미지 분류의 기준으로 삼음.디렉토리 구조 No Field
nameMeaning 구조 1 nc01 공업/과학 및 사진용 및 농업/원예 및 임업용 화학제; 미가공 인조수지, 미가공 플라스틱; 소화 및 화재예방용 조성물; 조질제 및 땜납용 조제; 수피용 무두질제; 공업용 접착제; 퍼티 및 기타 페이스트 충전제; 퇴비, 거름, 비료; 산업용 및 과학용 생물학적 제제 2 nc02 페인트, 니스, 래커; 녹방지제 및 목재 보존제; 착색제, 염료; 인쇄, 표시 및 판화용 잉크; 미가공 천연수지; 도장용, 장식용, 인쇄용 및 미술용 금속박(箔) 및 금속분(紛) 3 nc03 비의료용 화장품 및 세면용품; 비의료용 치약; 향료, 에센셜 오일; 표백제 및 기타 세탁용 제제; 세정/광택 및 연마재 4 nc04 공업용 오일 및 그리스, 왁스; 윤활제; 먼지흡수제, 먼지습윤제 및 먼지흡착제; 연료 및 발광체; 조명용 양초 및 심지 5 nc05 약제, 의료용 및 수의과용 제제; 의료용 위생제; 의료용 또는 수의과용 식이요법 식품 및 제제, 유아용 식품; 인체용 또는 동물용 식이보충제; 플래스터, 외상치료용 재료; 치과용 충전재료, 치과용 왁스; 소독제; 해충구제제; 살균제, 제초제 6 nc06 일반금속 및 그 합금, 광석; 금속제 건축 및 구축용 재료; 금속제 이동식 건축물; 비전기용 일반금속제 케이블 및 와이어; 소형금속제품; 저장 또는 운반용 금속제 용기; 금고 7 nc07 기계, 공작기계, 전동공구; 모터 및 엔진(육상차량용은 제외); 기계 커플링 및 전동장치 부품(육상차량용은 제외); 농기구(수동식 수공구는 제외); 부란기(孵卵器); 자동판매기 8 nc08 수동식 수공구 및 수동기구; 커틀러리; 휴대무기(화기는 제외); 면도기 9 nc09 과학, 항해, 측량, 사진, 영화, 광학, 계량, 측정, 신호, 검사(감시), 구명 및 교육용 기기; 전기의 전도, 전환, 변형, 축적, 조절 또는 통제를 위한 기기; 음향 또는 영상의 기록, 전송 또는 재생용 장치; 자기데이터 매체, 녹음디스크; CD, DVD 및 기타 디지털 기록매체; 동전작동식 기계장치; 금전등록기, 계산기, 정보처리장치, 컴퓨터; 컴퓨터 소프트웨어; 소화기기 10 nc10 외과용, 내과용, 치과용 및 수의과용 기계기구; 의지(義肢), 의안(義眼) 및 의치(義齒); 정형외과용품; 봉합용 재료; 장애인용 치료 및 재활보조장치; 안마기; 유아수유용 기기 및 용품; 성활동용 기기 및 용품 11 nc11 조명용, 가열용, 증기발생용, 조리용, 냉각용, 건조용, 환기용, 급수용 및 위생용 장치 12 nc12 수송기계기구; 육상, 항공 또는 해상을 통해 이동하는 수송수단 13 nc13 화기(火器); 탄약 및 발사체; 폭약; 폭죽 14 nc14 귀금속 및 그 합금; 보석, 귀석 및 반귀석; 시계용구 15 nc15 악기 16 nc16 종이 및 판지; 인쇄물; 제본재료; 사진; 문방구 및 사무용품(가구는 제외); 문방구용 또는 가정용 접착제; 제도용구 및 미술용 재료; 회화용 솔; 교재; 포장용 플라스틱제 시트, 필름 및 가방; 인쇄활자, 프린팅블록 17 nc17 미가공 및 반가공 고무, 구타페르카, 고무액(gum), 석면, 운모(雲母) 및 이들의 제품; 제조용 압출성형형태의 플라스틱 및 수지; 충전용, 마개용 및 절연용 재료; 비금속제 신축관, 튜브 및 호스 18 nc18 가죽 및 모조가죽; 수피; 수하물가방 및 운반용 가방; 우산 및 파라솔; 걷기용 지팡이; 채찍 및 마구; 동물용 목걸이, 가죽끈 및 의류 19 nc19 비금속제 건축재료; 건축용 비금속제 경질관(硬質管); 아스팔트, 피치 및 역청; 비금속제 이동식 건축물; 비금속제 기념물 20 nc20 가구, 거울, 액자; 보관 또는 운송용 비금속제 컨테이너; 미가공 또는 반가공 뼈, 뿔, 고래수염 또는 나전(螺鈿); 패각; 해포석(海泡石); 호박(琥珀)(원석) 21 nc21 가정용 또는 주방용 기구 및 용기; 조리기구 및 식기(포크 ,나이프 및 스푼은 제외); 빗 및 스펀지; 솔(페인트 솔은 제외); 솔 제조용 재료; 청소용구; 비건축용 미가공 또는 반가공 유리; 유리제품, 도자기제품 및 토기제품 22 nc22 로프 및 노끈; 망(網); 텐트 및 타폴린; 직물제 또는 합성재료제 차양; 돛; 하역물운반용 및 보관용 포대; 충전재료(종이/판지/고무 또는 플라스틱제는 제외); 직물용 미가공 섬유 및 그 대용품 23 nc23 직물용 실(絲) 24 nc24 직물 및 직물대용품; 가정용 린넨; 직물 또는 플라스틱제 커튼 25 nc25 의류, 신발, 모자 26 nc26 레이스 및 자수포, 리본 및 장식용 끈; 단추, 갈고리 단추(hooks and eyes), 핀 및 바늘; 조화(造花); 머리장식품; 가발 27 nc27 카펫, 융단, 매트, 리놀륨 및 기타 바닥깔개용 재료; 비직물제 벽걸이 28 nc28 오락용구, 장난감; 비디오게임장치; 체조 및 스포츠용품; 크리스마스트리용 장식품 29 nc29 식육, 생선, 가금 및 엽조수; 고기진액; 가공처리, 냉동, 건조 및 조리된 과일 및 채소; 젤리, 잼, 콤폿; 달걀; 우유 및 유제품; 식용 유지 30 nc30 커피, 차(茶), 코코아 및 대용커피; 쌀; 타피오카 및 사고(sago); 곡분 및 곡물조제품; 빵, 페이스트리 및 과자; 식용 얼음; 설탕, 꿀, 당밀; 식품용 이스트, 베이킹파우더; 소금; 겨자(향신료); 식초, 소스(조미료); 향신료; 얼음 31 nc31 미가공 농업, 수산양식, 원예 및 임업 생산물; 미가공 곡물 및 종자; 신선한 과실 및 채소, 신선한 허브; 살이있는 식물 및 꽃; 구근(球根), 모종 및 재배용 곡물종자; 살아있는 동물; 동물용 사료 및 음료; 맥아 32 nc32 맥주; 광천수, 탄산수 및 기타 무주정(無酒精)음료; 과실음료 및 과실주스; 시럽 및 음료수 제제 33 nc33 알코올 음료(맥주는 제외) 34 nc34 담배; 흡연용구; 성냥 35 nc35 광고업; 사업관리업; 기업경영업; 사무처리업 36 nc36 보험업; 재무업; 금융업; 부동산업 37 nc37 건축물 건설업; 수선업; 설치서비스업 38 nc38 통신업 39 nc39 운송업; 상품의 포장 및 보관업; 여행알선업 40 nc40 재료처리업 41 nc41 교육업; 훈련제공업; 연예오락업; 스포츠 및 문화활동업 42 nc42 과학적, 기술적 서비스업 및 관련 연구, 디자인업; 산업분석 및 연구 서비스업; 컴퓨터 하드웨어 및 소프트웨어의 디자인 및 개발업 43 nc43 식음료제공서비스업; 임시숙박업 44 nc44 의료업; 수의업; 인간 또는 동물을 위한 위생 및 미용업; 농업, 원예 및 임업 서비스업 45 nc45 법무서비스업; 유형의 재산 및 개인을 물리적으로 보호하기 위한 보안서비스업; 개인의 수요를 충족시키기 위해 타인에 의해 제공되는 사적인 또는 사회적인 서비스업 - 라벨링 데이터
■ 원천데이터에 비엔나코드 기준으로 가공하여 라벨링 데이터를 생성
■ 비엔나 코드
- 비엔나 분류 코드(도형분류코드)는 상표의 표장에 포함된 도형, 기호, 문자, 입체적 형상, 색채, 동작, 홀로그램, 소리·냄새 등을 시각적인 방법으로 사실적으로 표현한 구성요소를 비엔나 분류라는 국제기준에 따라 6자리의 숫자로 기호화한 것임.
- 예시: 남자어부 도형의 경우 “사람-남자-어부(02-01-12)”로 표시라벨링 데이터 구분 속성명 타입 필수여부 설명 범위 비고 1 meta object Y 이미지 메타정보 1-1 img_name string Y 이미지파일명 1-2 img_w number Y 이미지너비 1-3 img_h number Y 이미지높이 1-4 img_id number Y 이미지식별자 1-5 tot_mid_vienna_code array Y 전체비엔나코드중분류 1-6 tot_vienna_code array Y 전체비엔나코드 1-7 niceClassification string Y 상품분류 [01~45] 1-8 item_sort string Y 이미지분류구분 2 bbox object Y 바운딩박스 2-1 mid_vienna_code array Y 비엔나코드 중분류 2-2 mid_vienna_points array Y 바운딩박스 좌표
(중분류)2-3 vienna_code array Y 비엔나코드 소분류 2-4 vienna_points array Y 바운딩박스 좌표
(소분류)3 polygon object N 객체 세그멘테이션 3-1 mid_vienna_code array Y 비엔나코드 중분류 3-2 mid_vienna_points array Y 세그멘테이션 좌표
(중분류)3-3 vienna_code array Y 비엔나코드 소분류 3-4 vienna_points array Y 세그멘테이션 좌표
(소분류)- 라벨링데이터 실제예시
-
데이터셋 구축 담당자
수행기관(주관) : ㈜마크클라우드
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 정상일 02-1833-4992 [email protected] 총괄 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜아이웹 홍보 / 마케팅, 서비스 구축 ㈜라임솔루션 AI 모델 개발 특허법인로얄 AI 학습용 데이터 검수, 데이터 품질 관리, 법적 이슈사항 검토 해율특허법률사무소 사용자 입력 이미지 데이터 구축 및 품질관리, 법적이슈사항 검토 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 정상일 02-1833-4992 [email protected] 박정민 02-1833-4992 [email protected] AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 정상일 02-1833-4992 [email protected] 박정민 02-1833-4992 [email protected] 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 정상일 02-1833-4992 [email protected] 박정민 02-1833-4992 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.