특허 지식베이스
- 분야한국어
- 유형 텍스트
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2018-01-02 데이터 최초 개방 소개
전기전자 분야 특허, 실용 신안 100만 개를 대상으로 특허 청구항에 구조화 정보 태그를 부착하여 특허 아이템, 특허 구성 요소의 정보를 제공하는 특허 지식베이스 및 기계, 화학 분야 각 1만 건 및 전기전자 분야 5만 건에 관련 특허 출원번호를 구축한 기술 용어 사전 지식베이스 데이터 제공
-
메타데이터 구조표 데이터 영역 한국어 데이터 유형 텍스트 데이터 형식 데이터 출처 라벨링 유형 라벨링 형식 데이터 활용 서비스 데이터 구축년도/
데이터 구축량2018년/170만 -
구축내용
2018년도
- 특허 지식베이스는 전기전자분야 특허, 실용신안 100만개를 대상으로 특허 청구항에 구조화 정보 태그를 부착하여 특허 아이템, 특허 구성요소의 정보를 제공
- 기술용어사전은 기계, 화학 분야 각 1만 건 및 전기전자분야 5만 건에 관련 특허출원번호를 구축하여 연결
특허 데이터 구축내용 표 (구축년도,데이터종류,포함내용,제공방식) 데이터 종류 포함 내용 제공 방식 특허 청구항 정보 특허 청구항의 특허 아이템 및 구성요소 파일 다운로드 기술용어사전 기술키워드, 출원번호 리스트 파일 다운로드 2017년도
- 특허 지식베이스는 전기전자분야 특허, 실용신안 100만개를 대상으로 관련 특허출원번호, 특허 패밀리, 분쟁, 거래, 인용 정보 등의 60여종의 연관정보를 구축·연결
- 기술용어사전은 전기전자분야의 관련 기술용어 12만개에 관련 특허출원번호, 동기어, 유망성 파라미터를 구축하여 연결
- 특허도면태그정보는 특허내의 도면 정보별로 도면태그정보 2,338만건을 제공함으로써 도면만으로 해당 기술을 용이하게 파악 가능토록 태그 정보를 제공
- 특허 지식베이스에 포함된 데이터
특허 데이터 구축내용 표 (데이터 종류, 포함 내용, 제공방식) 데이터 종류 포함 내용 제공 방식 특허정보 특허출원번호, 특허 패밀리, 분쟁, 거래, 인용 관련 파라미터 60종 파일 다운로드 기술용어사전 기술키워드, 출원번호, 동기어, 유망성 파라미터 등 파일 다운로드 도면태그정보 특허출원번호, 도면 번호, 도면 태그정보, 도면태그 추출 숫자·영문자 이미지 데이터 파일 다운로드 -
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2018.01.02 데이터 최초 개방 필요성
- 세계는 기술선점을 통해 시장지배력을 확보하려는 국가와 기업간의 경쟁이 치열해지고 있으며, 기술의 변화속도도 그 어느때 보다도 빠른 상황임
- 한국은 전세계 특허량 4위에 해당할 정도로 지재권 분야의 강국이나, 대규모로 축적된 특허정보가 국내기업 기술경쟁력 확보와 고부가가치 상품 개발 등에 효과적으로 활용되지 못하고 있음
- 다가오는 4차 산업혁명과 지능정보사회에 대비하여 국내특허정보를 인공지능기술 기반으로 적절히 활용, 세계적 기술강국으로 도약하는데 기여할 수 있는 방법의 모색 필요
구축내용
2018년도
- 특허 지식베이스는 전기전자분야 특허, 실용신안 100만개를 대상으로 특허 청구항에 구조화 정보 태그를 부착하여 특허 아이템, 특허 구성요소의 정보를 제공
- 기술용어사전은 기계, 화학 분야 각 1만 건 및 전기전자분야 5만 건에 관련 특허출원번호를 구축하여 연결
특허 데이터 구축내용 표 (구축년도,데이터종류,포함내용,제공방식) 데이터 종류 포함 내용 제공 방식 특허 청구항 정보 특허 청구항의 특허 아이템 및 구성요소 파일 다운로드 기술용어사전 기술키워드, 출원번호 리스트 파일 다운로드 2017년도
- 특허 지식베이스는 전기전자분야 특허, 실용신안 100만개를 대상으로 관련 특허출원번호, 특허 패밀리, 분쟁, 거래, 인용 정보 등의 60여종의 연관정보를 구축·연결
- 기술용어사전은 전기전자분야의 관련 기술용어 12만개에 관련 특허출원번호, 동기어, 유망성 파라미터를 구축하여 연결
- 특허도면태그정보는 특허내의 도면 정보별로 도면태그정보 2,338만건을 제공함으로써 도면만으로 해당 기술을 용이하게 파악 가능토록 태그 정보를 제공
- 특허 지식베이스에 포함된 데이터
특허 데이터 구축내용 표 (데이터 종류, 포함 내용, 제공방식) 데이터 종류 포함 내용 제공 방식 특허정보 특허출원번호, 특허 패밀리, 분쟁, 거래, 인용 관련 파라미터 60종 파일 다운로드 기술용어사전 기술키워드, 출원번호, 동기어, 유망성 파라미터 등 파일 다운로드 도면태그정보 특허출원번호, 도면 번호, 도면 태그정보, 도면태그 추출 숫자·영문자 이미지 데이터 파일 다운로드 특허 지식베이스 구조
2018년도
- 특허 청구항 정보 구축은 처음 시도되는 작업으로 특허 청구항에 나타나는 특허 아이템과 구성요소 및 그 연결 관계를 나타내는 구문을 구분
- 특허 아이템을 구분해주는 명사구, 동사구를 관계어휘 구분자로 정의
- 특허 구성요소를 구분해주는 명사구, 동사구를 관계어휘로 정의
- "~에" 있어구문을 특허 표현의 전제부로 정의
- 현재 분석이 어려운 부분은 추후 분석을 위하여 ANY로 정의
- 특허 문헌에 사용된 기술 용어 중 미등록 기술용어를 추출하기 위하여 자연어 처리 방법을 응용하여 기술용어 추출 방법론 정의
- 기술용어사전은 기술용어와 출원번호 리스트의 쌍으로 표현
2017년도
- 특허 지식베이스는 국내특허데이터를 KoreanPatentContent 클래스로 정의하고 기존 특허청 LOD와의 호환성을 유지하기 위해 PatentContent, Content, bibo:Collection 클래스의 계층적 구조로 정의
- 향후 해외 특허 데이터로의 확장을 위해 InternationalPatentContent 클래스를 정의
- 특허 출원인, 권리자, 발명인을 표현하기 위해 각각 Applicant, Assignee, Inventor 클래스를 정의하였고 외부 지식베이스와의 연계를 위해 foaf:Agent 클래스로부터 상속받아 표현
- 특허 문헌에 포함되어 있는 도면 정보는 PatentDrawingTagInfo 클래스로 정의
- 특허 문헌에 사용된 기술용어를 표현하기 위해 KoreanTerm, EnglishTerm 클래스를 Term 클래스로부터 상속받아 정의
- 키워드 유망성 정보를 표현하기 위한 개념적인 클래스로 KeywordPromisingInfo 클래스를 정의하여 Term 클래스와 연결
- 특허 분류정보는 IPC분류정보를 SKOS체계를 통해 표현
특허 지식베이스 활용 예
- 기술 용어를 포함하는 특허군을 바탕으로 개별기술용어별 미래 유망성을 판단하는 미래유망기술 예측/분석/발굴 서비스
- 향후 해외 특허 데이터로의 확장을 위해 InternationalPatentContent 클래스를 정의
- 도면 태그정보, 양도, 양수인, 기관속성, 총분쟁수, 총양도수, 패밀리수, 인용수 등의 기존 검색시스템에서는 제공하지 않았던 차별화된 특허연계속성정보를 활용한 지능형 검색시스템
- 특허별 공기어 정보를 활용하여, 키워드 관점에서 유사성 높은 특허를 생성하고 특허별로 복수 개의 유사 특허 추천 및 유사도 제공 서비스
-
데이터셋 구축 담당자
수행기관(주관) : 광개토연구소('17), 아이브릭스('18)
데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 이지현(광개토연구소) 02-569-7503(광개토연구소) [email protected](광개토연구소) 박호진(아이브릭스) 031-8023-5482(아이브릭스) [email protected](아이브릭스)
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.