-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2024-10-30 데이터 최종 개방 1.0 2024-06-28 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-06-28 산출물 공개 Beta Version 소개
- 한국 관광에 특화된 일본어 텍스트 데이터와 각 데이터에 대한 일본어 질의응답 데이터의 도합 2억 어절의 일본인 관광객을 위한 서비스 구축을 위한 데이터셋
구축목적
- 방한 일본인 관광객을 대상으로 인공지능 검색 서비스와 관련하여 소비자가 서비스의 신뢰성을 믿고 사용할 수 있는 양질의 데이터를 수집·가공하여 제공함
-
메타데이터 구조표 데이터 영역 한국어 데이터 유형 텍스트 , 이미지 데이터 형식 CSV, JSON 데이터 출처 공공데이터, 온라인 저작물, 오프라인 저작물(도서) 라벨링 유형 질의응답(자연어) 라벨링 형식 JSON 데이터 활용 서비스 챗봇 서비스 데이터 구축년도/
데이터 구축량2023년/- 원천데이터: 464,932건 / 177,670,461어절 - 라벨링데이터: 163,857,963어절 -
- 데이터 구축 규모, 내용
데이터 구축 규모, 내용 클래스 문단 수량 어절 수 원천데이터 라벨링데이터 자연관광 46,011 17,116,981 14,339,326 문화/역사관광 144,930 43,213,368 38,434,041 음식 141,665 57,509,383 51,738,536 숙박 77,677 39,188,878 38,689,576 쇼핑 36,439 15,116,078 14,793,149 레저스포츠 18,210 5,475,773 5,862,835 합계 464,932 177,620,461 163,857,463 - 데이터 분포
-
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드- 활용 모델
*학습 내용
LIama2 Pre-trained Set기반 원천데이터 + 질의응답(QA)데이터셋 학습ㅇ 유효성 평가 환경, 학습 조건
유효성 항목 및 지표 유효성 항목 및 지표 항목명 질의응답 성능 임무 질의응답 성능을 평가 – JSQuAD, JCommonSenseQA 벤치마크 사용 지표 JSQuAD : Accuracy / JCommonSenseQA : Exact Match 측정 산식 HW 사양 CPU 듀얼 x86 CPU Memory 2TB GPU NVIDIA H100 * 8 Storage 30TB NVMeSSD OS ubuntu 20.04.6 알고리즘 및 학습 조건 개발 언어 Python 3.10.13 프레임워크 CUDA 12.0, Pytorch 2.10, Tensorboard 2.9.0, Transformer 4.31.0, konlpy 알고리즘 Transfomer, LIama2 (7B) 학습조건 batch_size = 8, max_epoch = 1, initial ir = 1e-2 파일 형식 라벨 데이터 : JSON 전체 구축 데이터
대비 모델에 적용
되는 비율구축 데이터 100% (478,522건)
Train : Validation = 478,283 (99.95%) : 239 (0.05%)모델 학습 과정별
데이터 분류 및
비율 정보모델 학습 과정별 데이터 분류 및 비율 정보 주제 Train Validation 자연관광 27451 15 문화/역사관광 213142 104 음식점 100386 53 숙박 83726 48 쇼핑 36709 14 레포츠 16869 5 Test set :JSQuAD : 403건 / JCommonSenseQA : 4,442건
제한사항 * 벤치마크 데이터셋은 학습을 제외, 검증용으로만 사용됨. - 서비스 활용 시나리오
- 관광용 인공지능 챗봇, 큐레이션 서비스
- LLM 활용 인공지능 검색 엔진
* 관광특화 문서 말뭉치데이터셋은 민간 소상공인이나 공공 분야에서 다양한 형태의 챗봇을 개발하기 위해 소요되는 데이터 구축 비용 및 노력 저감, 챗봇서비스 확보의 진입장벽을 낮출 수 있고, 또한 다양한 인공지능 서비스와 연계하여 폭넓게 활용될 수 있을 것으로 기대. 구축한 데이터셋을 LLM에 입력하여 자연어 형태의 이용자 요청에 대응하는 관광 안내 수행 가능. -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드- 원천 데이터 포맷
* 메타데이터원천 데이터 포맷(메타데이터) 항목명 설명 형식 예시 문단 번호 데이터 고유 번호 J_카테고리_NNNNNN J_HIS_164121 구분 데이터 출처 유형 온라인/오프라인 오프라인 도서 writer 저작자 이름 유철상 표준도서번호 도서 고유 번호 AAA-BB-CCCC-DDD-E 979-11-6782-085-3 Version 도서 개정 판수 초판/개정판 초판 3쇄 Source_language 원문 데이터 언어 ko/ja ko 번역기 기계번역기명 파파고 출처 데이터 출처 전국일주 가이드북 수집시기 데이터 수집 일자 YYYY-MM-DD 2023-10-13 등록일자 데이터 생성 일자 YYYY-MM-DD 2023-08-04 분류 데이터 카테고리 자연관광, 문화/역사관광, 숙박, 음식점, 쇼핑, 레포츠 문화/역사관광 데이터 제목 데이터 제목 거제맹종죽테마파크 * 원문데이터
원문데이터 원시 데이터 거제맹종죽테마파크
우리나라 맹종죽의 80% 이상이 거제도에서 생 산된다. 맹종죽이 울창한 숲을 이루고 있는 거 제 맹종죽 테마파크로 향하자. 죽림욕장은 밖 의 온도보다 4~7도 정도 낮기 때문에 산소 발 생량이 많고 일반 숲보다 음이온 발생량이 10 배 정도 높다. 시원한 바람과 상쾌한 공기를 즐기며 산책로를 걸어보자. 대나무 의자에 앉 아 사색에 잠기는 것도 좋다. 산중턱에 위치한 쉼터에 다다르면 거제의 푸른 바다가 한눈에 들어온다.재구성 및 전처리 우리나라 맹종죽의 80% 이상이 거제도에서 생산된다는 사실로 인해, 거제 맹종죽 테마파크는 우리나라에서 가장 중요한 죽 생산지로 알려져 있습니다. 이 곳은 맹종죽으로 이루어진 울창한 숲으로 유명하며, 많은 사람들이 이곳을 찾아옵니다. 맹종죽 테마파크의 죽림욕장은 밖의 온도보다 4~7도 낮기 때문에 산소 발생량과 음이온 발생량이 높은 특징을 가지고 있습니다. 그래서 시원한 바람과 상쾌한 공기를 느끼며 산책로를 걸어볼 수 있습니다. 산책 도중에는 대나무 의자에 앉아 사색에 잠기기도 좋습니다. 특히, 산중턱에 위치한 쉼터에서는 거제의 아름다운 푸른 바다를 감상할 수 있습니다. 기계 번역 巨済孟宗竹テーマパークは、韓国で最も重要な竹の生産地として広く知られています。この地域では、韓国の孟宗竹の80%以上が生産されています。このテーマパークは美しい孟宗竹の森で構成されており、多くの人々が訪れる人気スポットです。 孟宗竹テーマパークの竹林浴場は、外の気温よりも4~7度低く、酸素発生量やマイナスイオン発生量が非常に高い特徴があります。このため、涼しい風とさわやかな空気を楽しみながら散策ができます。また、途中で竹の椅子に座って思索にふけるのも最適です。特に、山腹に位置する憩いの場からは、巨済の美しい青い海を鑑賞することができます。 전문가 번역수정
(최종 원천 데이터)韓国の孟宗竹の80%以上は巨済島で生産されているという事実により、巨済孟宗竹テーマパークは韓国で最も重要な竹の生産地として知られています。 ここは孟宗竹で構成された鬱蒼とした森で有名で、多くの人がここを訪れます。 孟宗竹テーマパークの竹林浴場は外の温度より4~7度低いため、酸素発生量とマイナスイオン発生量が高い特徴を持っています。 そのため、涼しい風とさわやかな空気を感じながら散策路を歩いてみることができます。 散歩の途中は竹の椅子に座って思索にふけるのにも最適です。 特に、山腹に位置する憩いの場では巨済の美しい青い海が鑑賞できます。 - 라벨링 데이터 포맷
라벨링 데이터 포맷 항목 타입 필수여부 설명 비고 data_info object Y documentID String Y 문단ID sourceClassification String Y 출처 구분 writer String N 도서 작가
이름ISBN String N 도서 번호 version String N 도서 인쇄수 source_language String Y 원시 언어 ko, ja translator String N 기계번역기 source String Y 문단 출처 collectedDate String Y 문단
수집일자YYYY-MM-DD publishedDate String Y 문단
작성일자YYYY-MM-DD classification String Y 문단
대분류자연관광,
문화/역사관광,
숙박, 음식점,
쇼핑, 레포츠title String N 문단 제목 text String Y QA array Y question String Y 질문 1 answer String Y 응답 1 word_count object Y text number N TEXT
어절수QA number N QA
어절수- 라벨링 데이터 실제 예시
data_info: {
}
documentID _HIS_000088 source: 2201
writer: null
ISBN_ISNN null
version null
source_language ja
translator: null
source_url https://www.data.go.kr/tcs/dss/selectApiDataDetaily
iew.do?publicDataPk=15101760
collectedDate: 2023-09-13
publishedDate: 2020-03-19
domain 是/岡
title 登億温泉団地 (9)
text 登億温泉団地) \n
蔚山広域市
州郡 上北面 アルプス温泉197 (上北面 ) \n 蔚山広域市州郡上北面登億里、嶺南のアルプスといわれる神仏山の 麓に位置する登億温泉は実に72,727.6平方メートル (22万坪以上) の 規模をもつ大きな温泉地です。 ここには神仏山温泉、 彦陽温泉、 山温泉などが集まっています。 \n
南のアルプスと呼ばれる神仏山と智山、月山など、 海抜1,000 メートルを超える山脈と接しており登山を終えた後に登億温泉で汗と 疲れをとり温泉を楽しむのにぴったりです。 ここの温泉水は主にア ルカリ性重曹泉で各種皮膚の炎症、神経痛、 消化器官の疾患、 気管支 炎、高血圧、肌の美容に効果があるといいます。 またそのまま飲料水 として飲むこともできるのが特徴です。 近隣には紫水晶洞窟の国、 お ばけ、川亭、 月自然休養林、石南寺などの観光地があり一緒 に観光を楽しむのも良いでしょう。
▼QA [4items
▼0:{
question :登像温泉団地はどのような場所に位置していますか?
answer: 蔚山広域市薪州郡上北面登里、南のアルプスといわれる 神仏山の麓に位置しています。
}
▼1:(
question : 登像温泉はどのくらいの規模の温泉地ですか?
answer : 72,727.6平方メートル (22万坪以上) の規模をもつ大きな温
地です。
}
▼2:{
question :登温泉の特徴的な効能は何ですか?
answer :主にアルカリ性重曹泉で、 各種皮膚の炎症、神経痛、消化器 官の疾患、気管支炎、高血圧、肌の美容に効果があるといわ れています。
}
▼3:{
question : 登億温泉の近隣にはどのような観光地がありますか?
answer :紫水晶洞窟の国、 おばけ道路 川亭 月自然休養林、 石 南寺などがあります。
}
]
▼ word_Count: {
text 249
QA: 68
}
} -
데이터셋 구축 담당자
수행기관(주관) : ㈜마음에이아이
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 윤선희 031-625-4346 [email protected] 실무 총괄 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜마음에이아이 AI 모델 활용 데이터 유효성 평가 ㈜헤이스타즈 데이터 수집 및 정제 ㈜레이존 데이터 가공 및 검수 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 정승필 070-7776-9902 [email protected] 윤선희 031-625-4346 [email protected] AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 윤선희 031-625-4346 [email protected] 이혜림 1661-3222 [email protected] 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 송진주 070-7776-9902 [email protected] 정승필 070-7776-9902 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.