NEW 생성형AI 한국어 성능이 개선된 초거대AI 언어모델 개발 및 데이터
- 분야한국어
- 유형 텍스트
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2024-10-30 데이터 최종 개방 1.0 2024-07-05 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-07-05 산출물 공개 Beta Version 소개
- 한국어 말뭉치 데이터 20억 어절/310만 건과 Reinforcement Learning Human Feedback(RLHF) 데이터 7만 7천 건으로 구성
구축목적
- AI Hub에 다양한 분야의 대규모 한국어 말뭉치 데이터를 공개함으로써 한국어 말뭉치 데이터의 다양성과 품질을 향상시키는 데에 기여함
-
메타데이터 구조표 데이터 영역 한국어 데이터 유형 텍스트 데이터 형식 json 데이터 출처 - 공유저작물 포털사이트에 기증된 공유·공공 데이터 - 저작권 만료된 고전 문학, 어문, 음원 데이터 - 크리에이티브 커먼즈 라이선스 표기된 유튜브 영상 데이터 라벨링 유형 SFT데이터 – 질의응답(자연어) / RM데이터 – 순위(텍스트) *한국어말뭉치데이터 및 PPO 데이터는 라벨링 데이터 없음 라벨링 형식 json 데이터 활용 서비스 AI 챗봇 서비스 개발, AI 보이스 어시스턴트 서비스 개발 데이터 구축년도/
데이터 구축량2023년/1. 한국어말뭉치데이터 20억 어절, 310만 건 2. RLHF데이터 7만7천건 / SFT질문 데이터 – 13,000건, 답변 (라벨링) 데이터 – 13,000건 / RM질의응답 데이터 – 33,000건, 순위 (라벨링) 데이터 – 33,000건 / PPO질문 데이터 – 31,000건 -
- 데이터 구축 규모
데이터 구축 규모 데이터 종류 데이터 형태 원문 규모 어노테이션 규모 한국어말뭉치데이터 자연어 310만 건
(20억 어절)- RLHF데이터 SFT데이터 질의응답 1.3만 건 1.3만 건 RM데이터 응답순위 3.3만 건 3.3만 건 PPO데이터 질문 3.1만 건 - - 데이터 분포
문체별 분포: 구어체, 문어체 건 수, 어절 수데이터 분포 문체 원문 규모 어절 수 구어체 683,277건 1,025,519,624어절 문어체 2,678,129건 1,260,946,221어절 합계 3,361,406건 2,286,465,845어절 주제별 분포: 공학, 명칭, 보건, 사회, 산업, 예체능, 인문, 자연, 종교, 기타 원문 건 수
한국어말뭉치데이터
한국어말뭉치데이터 중분류 원문 규모 비율 공학 61,963건 1.84% 기타 374,513건 11.14% 명칭 3,217건 0.10% 보건 186,247건 5.54% 사회 1,218,049건 36.24% 산업 600,154건 17.85% 예체능 178,491건 5.31% 인문 489,046건 14.55% 자연 149,095건 4.44% 종교 100,629건 2.99% 합계 3,361,404건 100.00% RLHF데이터
- SFT 데이터RLHF데이터 - SFT 데이터 중분류 원문 규모 비율 공학 1,307 9.88% 기타 1,429 10.81% 명칭 577 4.36% 보건 1,112 8.41% 사회 1,675 12.67% 산업 1,107 8.37% 예체능 1,787 13.51% 인문 1,337 10.11% 자연 2,320 17.54% 종교 574 4.34% 합계 13,225 100.00% - RM데이터
RLHF데이터 - RM데이터 중분류 원문 규모 비율 공학 3,069 9.30% 기타 786 2.38% 명칭 2,103 6.37% 보건 2,101 6.36% 사회 7,684 23.28% 산업 896 2.71% 예체능 6,582 19.94% 인문 3,155 9.56% 자연 5,986 18.13% 종교 648 1.96% 합계 33,010 100.00% - PPO데이터
RLHF데이터 - PPO데이터 중분류 원문 규모 비율 공학 3,203 10.07% 기타 912 2.87% 명칭 2,196 6.90% 보건 1,359 4.27% 사회 7,440 23.39% 산업 748 2.35% 예체능 7,513 23.62% 인문 3,197 10.05% 자연 4,753 14.94% 종교 483 1.52% 합계 31,804 100.00% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드- LLaMA2 Large Language Model Meta AI
- Meta AI에서 개발한 상용 오픈소스 언어 모델
- Pre-normalization, SwiGLU 활성화 함수, Rotray Embddings를 적용
- 모델의 크기는 줄이면서 높은 성능 유지가 가능학습 모델 Pretraining Data - 2 Trillion tokens 학습(본 과제에서는 from scratch로 20B token을 학습 함) Model architecture standard transformer를 부분수정하여 사용 - Pre-mormalization using RMSNorm - SwiGLU activation function - Rotray positional embeddings hyperparameters AdamW optimaizer Tokenizer - byterpair encoding (BPE) algorithem - total vocabulary : 32k tokens -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드- 데이터 구성
1-1) 한국어 말뭉치 데이터데이터 구성 1-1) 한국어 말뭉치 데이터 No Key Type Description 1 dataset_info Object 데이터셋 정보 1-1 augmentation_type String 데이터셋 증강기법 유형 1-2 augmentation_id Number 데이터셋 증강기법 id 1-3 last_updated String 마지막 갱신 날짜 2 data_info Array 원시 데이터 정보 2-1 data_id String 원시 데이터 식별자 2-2 data_file String 원시 데이터 파일명 2-3 data_title String 원시 데이터 명 2-4 data_type String 원시 데이터 유형 2-5 data_year String 작성연도 2-6 collected_date String 획득 일자 2-7 data_institution String 소장기관명 2-8 data_author String 저자/제작자/채널명 2-9 data_source String 출처 2-10 data_ccl String CCL 조건 2-11 data_count Number 데이터 어절 수 2-12 data_lexemes String 어휘 유형 2-13 data_category Object 데이터셋 분류 2-13-1 main String 대분류 2-13-2 middle String 중분류 2-13-3 sub String 원시 데이터 분류체계-소분류 2-14 contents String 한국어 말뭉치 데이터 1-2) SFT 데이터
데이터 구성 1-2) SFT 데이터 No Key Type Description 1 dataset_info 데이터셋 정보 1-1 dataset_type string 데이터셋 유형 1-2 last_updated string 마지막 갱신 날짜 2 data_info 데이터 정보 2-1 data_id string 데이터 식별자 2-2 data_category 원시 데이터 분류체계 2-2-1 main string 대분류 2-2-2 middle string 중분류 2-2-3 sub string 소분류 2-3 question_type string 질문 데이터 획득 방식 2-4 question_count number 질문 데이터 어절 수 2-5 data_lexemes String 어휘 유형 2-6 question string 질문 데이터 2-7 answer01 답변1 2-7-1 answer_count number 답변 데이터 어절 수 2-7-2 contents string 답변1 데이터 2-8 answer02 답변2 2-8-1 answer_count number 답변 데이터 어절 수 2-8-2 contents string 답변2 데이터 2-9 answer03 답변3 2-9-1 answer_count number 답변 데이터 어절 수 2-9-2 contents string 답변3 데이터 2-10 answer04 답변4 2-10-1 answer_count number 답변 데이터 어절 수 2-10-2 contents string 답변4 데이터 2-11 answer05 답변5 2-11-1 answer_count number 답변 데이터 어절 수 2-11-2 contents string 답변5 데이터 1-3) RM 데이터
데이터 구성 1-3) RM 데이터 No Key Type Description 1 dataset_info 데이터셋 정보 1-1 dataset_type string 데이터셋 유형 1-2 last_updated string 마지막 갱신 날짜 2 data_info 데이터 정보 2-1 data_id string 데이터 식별자 2-2 data_category 데이터 분류체계 2-2-1 main string 대분류 2-2-2 middle string 중분류 2-2-3 sub string 소분류 2-3 question_type string 질문 데이터 획득 방식 2-4 question_count number 질문 데이터 어절 수 2-5 data_lexemes String 어휘 유형 2-6 question string 질문 데이터 1-4) PPO 데이터
데이터 구성 1-4) PPO 데이터 No Key Type Description 1 dataset_info 데이터셋 정보 1-1 dataset_type string 데이터셋 유형 1-2 last_updated string 마지막 갱신 날짜 2 data_info 데이터 정보 2-1 data_id string 데이터 식별자 2-2 data_category 데이터 분류체계 2-2-1 main string 대분류 2-2-2 middle string 중분류 2-2-3 sub string 소분류 2-3 question_type string 질문 데이터 획득 방식 2-4 question_count number 질문 데이터 어절 수 2-5 data_lexemes String 어휘 유형 2-6 question string 질문 데이터 - 어노테이션 포맷
2-1) SFT 데이터어노테이션 포맷 2-1) SFT 데이터 No Key Type 필수여부 Description 범위 1 dataset_info 데이터셋 정보 1-1 dataset_type string Y 데이터셋 유형 SFT 1-2 last_updated string N 마지막 갱신 날짜 2 data_info 데이터 정보 2-1 data_id string Y 데이터 식별자 2-2 data_category 원시 데이터 분류체계 2-2-1 main string Y 대분류 2종류 2-2-2 middle string Y 중분류 10종류 2-2-3 sub string N 소분류 68종류 2-3 question_type string Y 질문 데이터 획득 방식 구매, 생성 2-4 question_count number N 질문 데이터 어절 수 1-500 2-5 data_lexemes String N 어휘 유형 일반어,
방언,
신조어,
준말2-6 question string Y 질문 데이터 2-7 answer 답변 2-7-1 answer_count number N 답변 데이터 어절 수 3-2000 2-7-2 contents string Y 답변 데이터 2-2) RM 데이터
어노테이션 포맷 2-2) RM 데이터 No Key Type 필수여부 Description 범위 1 dataset_info 데이터셋 정보 1-1 dataset_type string Y 데이터셋 유형 RM 1-2 last_updated string N 마지막 갱신 날짜 2 data_info 데이터 정보 2-1 data_id string Y 데이터 식별자 2-2 data_category 원시 데이터 분류체계 2-2-1 main string Y 대분류 2종류 2-2-2 middle string Y 중분류 10종류 2-2-3 sub string N 소분류 68종류 2-3 question_type string Y 질문 데이터 획득 방식 구매, 생성 2-4 question_count number N 질문 데이터 어절 수 1-500 2-5 data_lexemes String N 어휘 유형 일반어,
방언,
신조어,
준말2-6 question string Y 질문 데이터 2-7 answer01 답변1 2-7-1 answer_count number N 답변 데이터 어절 수 3-2000 2-7-2 ranking number Y 답변1 순위 데이터 1, 2, 3, 4, 5 2-7-3 contents string Y 답변1 데이터 2-8 answer02 답변2 2-8-1 answer_count number N 답변 데이터 어절 수 3-2000 2-8-2 ranking number Y 답변2 순위 데이터 1, 2, 3, 4, 5 2-8-3 contents string Y 답변2 데이터 2-9 answer03 답변3 2-9-1 answer_count number N 답변 데이터 어절 수 3-2000 2-9-2 ranking number Y 답변3 순위 데이터 1, 2, 3, 4, 5 2-9-3 contents string Y 답변3 데이터 2-10 answer04 답변4 2-10-1 answer_count number N 답변 데이터 어절 수 3-2000 2-10-2 ranking number Y 답변4 순위 데이터 1, 2, 3, 4, 5 2-10-3 contents string Y 답변4 데이터 2-11 answer05 답변5 2-11-1 answer_count number N 답변 데이터 어절 수 3-2000 2-11-2 ranking number Y 답변5 순위 데이터 1, 2, 3, 4, 5 2-11-3 contents string Y 답변5 데이터 - 데이터 포맷
1-1) 한국어 말뭉치 데이터데이터 포맷 1-1) 한국어 말뭉치 데이터 제목 성씨 대분류 문어체 중분류 인문 작성연도 2022 소장기관명 한국민족문화대백과사전 원문 성씨란 일정한 인물을 시조로 하여 대대로 이어 내려오는 단계혈연집단(單系血緣集團)의 한 명칭이며, 곧 족적 관념(族的觀念)의 표현이라고 볼 수도 있다는 데서 결국 족의 문제와 직접 연결된 것으로, 고대로 거슬러 올라 갈수록 더욱 밀착되어 있다.
후대의 성씨는 한자식 표기로서 이름 앞에 붙어 족계(族系)를 나타내는 동계혈족집단의 명칭을 가리키고, 이는 바로 중국식 출자율(出自律)의 의미를 내포하고 있다.
성과 씨는 역사상 때로는 함께 붙어서, 때로는 각각 독립적으로 사용되기도 하였다. 본관과 함께 사용하여 혈연관계가 없는 동일한 성과 구별된다. 여기에서 현재 한국인이라면 누구나 본 · 성 · 이름을 가지게 되어 있다.
성씨는 발생한 이래 계속 분화하여 같은 조상이면서 성을 달리하기도 하며, 동성이면서 조상을 달리하기도 하였다. 또는 부의 성을 따르기도 하며 또는 모의 성을 따르는가 하면, 또는 혈연적인 관계가 전혀 없는 성을 거짓 사용하거나[冒姓] 변성(變姓) · 사성(賜姓) · 자칭성(自稱姓)하기도 하였다.
중국의 경우 삼대(三代:夏 · 殷 · 周) 이전에는 남자는 씨를, 여자는 성을 호칭하였다가 후대에 성씨가 합쳐졌던 것이며, 씨는 신분의 귀천을 분별하였기 때문에 귀한 자는 씨가 있으나, 천한 자는 이름만 있고 씨는 없었다.
중국의 성씨제도를 수용한 우리나라에서는 고려 초기부터 지배층에게 성이 보급되면서 성은 부계혈통을 표시하고 명은 개인의 이름을 가리키게 되었다.
그 결과 성은 그 사람의 혈연관계를 분류하는 기준이 되며, 이름은 그 성과 결합하여 사회성원으로서의 개인을 남과 구별하는 구실을 한다. 이름 그 자체만으로는 독립된 인격 행위를 할 수 없으며 어디까지나 성을 보조하는 기능을 가진다.
성은 그 사람이 태어난 부계혈통의 표지(標識)이기 때문에, 그 사람의 신분이나 호적에 변동이 생긴다 하여도 혈통이 변하는 것이 아니므로 일생 동안 바꾸지 못하는 것이 우리나라 고래의 관습법이다.
현행 「민법」상으로 자(子)는 부의 성과 본을 따르도록 되어 있으며(제781조), 성이 잘못 불리거나 하는 특별한 경우 이외에는 성의 변경은 허용되지 않는다.
중국의 문자구조에 관한 최초의 자전인 『설문해자(說文解字)』에 “성인지소생야(姓人之所生也)”라 하듯이, 성은 출생의 계통을 표시하는 것으로 모계시대에는 여계의 혈통을, 부계시대에는 남계의 혈통을 나타내는 표지이다.
또, 『좌전(左傳)』에 “천자건덕 인생이사성(天子建德 因生以賜姓)”이라 한 것처럼, 천자가 유덕한 사람을 세워 제후(諸侯)를 봉할 때 그 조상의 출생지로써 성을 주었다고 한다.
그러므로 각 개인의 성에 의하여 각자의 소속된 혈통을 분별할 수 있다. 그러나 동일한 혈통을 가진 자가 각지에 분산하게 될 때 각기 지역에 분산된 일파를 표시하기 위한 표지가 필요하다. 이것이 곧 씨이다. 『좌전』에 “조지토이명지씨(胙之土而命之氏)”라 한 바와 같이, 씨는 지명에 의하여 명명됨을 말하고 있다.
씨는 분화된 혈통(성)의 각각의 지연(地緣)을 표시하는 표지인 것이 분명하므로 그 본원적 의미는 성의 분파를 뜻한다. 그러므로 중국의 고전에서 말하는 성은 혈통의 연원을 표시하는 것으로 역시 우리의 성이라는 것에 해당되며, 씨란 같은 성에서도 소유한 지역으로써 분별한 것이므로 우리의 본관에 해당된다.
경주 김씨 · 전주 이씨 · 밀양 박씨 등의 씨자에는 존칭적 의미도 잠재하여 있지만, 본관을 표시하는 의미가 포함되어 있다. 씨는 또한 조선시대 양반의 처(妻)에 대한 이름 대용의 경칭적 칭호로도 사용되었다.전처리 후 성씨란 일정한 인물을 시조로 하여 대대로 이어 내려오는 단계혈연집단의 한 명칭이며, 곧 족적 관념의 표현이라고 볼 수도 있다는 데서 결국 족의 문제와 직접 연결된 것으로, 고대로 거슬러 올라 갈수록 더욱 밀착되어 있다. 후대의 성씨는 한자식 표기로서 이름 앞에 붙어 족계를 나타내는 동계혈족집단의 명칭을 가리키고, 이는 바로 중국식 출자율의 의미를 내포하고 있다. 성과 씨는 역사상 때로는 함께 붙어서, 때로는 각각 독립적으로 사용되기도 하였다. 본관과 함께 사용하여 혈연관계가 없는 동일한 성과 구별된다. 여기에서 현재 한국인이라면 누구나 본 · 성 · 이름을 가지게 되어 있다. 성씨는 발생한 이래 계속 분화하여 같은 조상이면서 성을 달리하기도 하며, 동성이면서 조상을 달리하기도 하였다. 또는 부의 성을 따르기도 하며 또는 모의 성을 따르는가 하면, 또는 혈연적인 관계가 전혀 없는 성을 거짓 사용하거나 변성 · 사성 · 자칭성하기도 하였다. 중국의 경우 삼대 이전에는 남자는 씨를, 여자는 성을 호칭하였다가 후대에 성씨가 합쳐졌던 것이며, 씨는 신분의 귀천을 분별하였기 때문에 귀한 자는 씨가 있으나, 천한 자는 이름만 있고 씨는 없었다. 중국의 성씨제도를 수용한 우리나라에서는 고려 초기부터 지배층에게 성이 보급되면서 성은 부계혈통을 표시하고 명은 개인의 이름을 가리키게 되었다. 그 결과 성은 그 사람의 혈연관계를 분류하는 기준이 되며, 이름은 그 성과 결합하여 사회성원으로서의 개인을 남과 구별하는 구실을 한다. 이름 그 자체만으로는 독립된 인격 행위를 할 수 없으며 어디까지나 성을 보조하는 기능을 가진다. 성은 그 사람이 태어난 부계혈통의 표지이기 때문에, 그 사람의 신분이나 호적에 변동이 생긴다 하여도 혈통이 변하는 것이 아니므로 일생 동안 바꾸지 못하는 것이 우리나라 고래의 관습법이다. 현행 민법상으로 자는 부의 성과 본을 따르도록 되어 있으며(제781조), 성이 잘못 불리거나 하는 특별한 경우 이외에는 성의 변경은 허용되지 않는다. 중국의 문자구조에 관한 최초의 자전인 『설문해자』에 “성인지소생야”라 하듯이, 성은 출생의 계통을 표시하는 것으로 모계시대에는 여계의 혈통을, 부계시대에는 남계의 혈통을 나타내는 표지이다. 또, 『좌전』에 “천자건덕 인생이사성”이라 한 것처럼, 천자가 유덕한 사람을 세워 제후를 봉할 때 그 조상의 출생지로써 성을 주었다고 한다. 그러므로 각 개인의 성에 의하여 각자의 소속된 혈통을 분별할 수 있다. 그러나 동일한 혈통을 가진 자가 각지에 분산하게 될 때 각기 지역에 분산된 일파를 표시하기 위한 표지가 필요하다. 이것이 곧 씨이다. 『좌전』에 “조지토이명지씨”라 한 바와 같이, 씨는 지명에 의하여 명명됨을 말하고 있다. 씨는 분화된 혈통(성)의 각각의 지연을 표시하는 표지인 것이 분명하므로 그 본원적 의미는 성의 분파를 뜻한다. 그러므로 중국의 고전에서 말하는 성은 혈통의 연원을 표시하는 것으로 역시 우리의 성이라는 것에 해당되며, 씨란 같은 성에서도 소유한 지역으로써 분별한 것이므로 우리의 본관에 해당된다. 경주 김씨 · 전주 이씨 · 밀양 박씨 등의 씨자에는 존칭적 의미도 잠재하여 있지만, 본관을 표시하는 의미가 포함되어 있다. 씨는 또한 조선시대 양반의 처에 대한 이름 대용의 경칭적 칭호로도 사용되었다. 1-2) SFT 데이터
데이터 포맷 1-2) SFT 데이터 대분류 문어체 중분류 자연 질문 데이터 획득 방식 생성 원문 질문: 지구의 구성 요소는 무엇인가요? 라벨링 후 질문: 지구의 구성 요소는 무엇인가요? 답변: 지구는 대부분의 우주 물질로 이루어진 행성으로, 기본적으로 다음과 같은 구성 요소로 구성되어 있습니다.\n1. 지각: 지구의 겉면을 이루는 땅과 바위로 된 표면 부분입니다.\n2. 수질: 지구의 표면에 존재한느 물의 총질량을 의미합니다. 바다, 강, 호수 등을 포함합니다.\n3. 대기: 지구를 둘러싸고 있는 공기의 두꺼운 층으로, 대기는 생명체에게 산소를 제공하고 기후와 날씨를 조절하는 역할을 합니다.\n4. 생물: 지구상에 살아 숨 쉬는 생명체들을 의미합니다. 식물, 동물, 미생물 등이 여기에 포함됩니다.\n이러한 구성 요소들이 지구를 형성하며, 서로 복잡하게 상호작용하면서 지구 생태계를 이루고 있습니다. 1-3) RM 데이터
데이터 포맷 1-3) RM 데이터 대분류 문어체 중분류 인문 질문 데이터 획득 방식 생성 원문 질문: 소크라테스의 유명한 말인 '나는 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'에 대해 어떻게 생각하시나요? 답변 생성 후 질문: 소크라테스의 유명한 말인 '나는 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'에 대해 어떻게 생각하시나요?
답변1: 소크라테스의 말 '나는 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'는 겸손과 지속적인 학습의 중요성을 강조하여, 우리가 얼마나 많은 것을 모르는지를 자각하고 성장해 나가야 한다는 철학을 나타낸다.
답변2: 소크라테스의 말은 '내가 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'로, 겸손과 지속적인 학습의 중요성을 강조하며, 끊임없는 성장과 발전을 장려합니다.
답변3: 소크라테스의 말 '나는 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'는 자기계발과 겸손의 중요성을 강조하며, 끊임없는 학습과 성장을 촉구하는 철학을 나타냅니다.
답변4: 소크라테스의 유명한 말은 자기 자신과 타인에 대한 겸손을 강조하며, 지식의 한계를 자각하고 항상 배움에 열린 태도를 장려합니다. 이를 통해 더 나은 사람이 되기 위한 지속적인 성장과 발전을 강조합니다.
답변5: 소크라테스의 명언은 모든 지식의 기반은 겸손에서 비롯된다는 믿음을 반영하며, 학습의 길에는 끊임없는 탐구와 자기반성이 수반되어야 한다고 주장합니다. 그의 철학은 자기 앞의 무지를 고백함으로써 비로소 진정한 지혜를 얻을 수 있다는 관점을 제시합니다.라벨링 후 질문: 소크라테스의 유명한 말인 '나는 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'에 대해 어떻게 생각하시나요?
답변1: 소크라테스의 말 '나는 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'는 겸손과 지속적인 학습의 중요성을 강조하여, 우리가 얼마나 많은 것을 모르는지를 자각하고 성장해 나가야 한다는 철학을 나타낸다. (1위)
답변2: 소크라테스의 말은 '내가 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'로, 겸손과 지속적인 학습의 중요성을 강조하며, 끊임없는 성장과 발전을 장려합니다. (2위)
답변3: 소크라테스의 말 '나는 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'는 자기계발과 겸손의 중요성을 강조하며, 끊임없는 학습과 성장을 촉구하는 철학을 나타냅니다. (3위)
답변4: 소크라테스의 유명한 말은 자기 자신과 타인에 대한 겸손을 강조하며, 지식의 한계를 자각하고 항상 배움에 열린 태도를 장려합니다. 이를 통해 더 나은 사람이 되기 위한 지속적인 성장과 발전을 강조합니다. (4위)
답변5: 소크라테스의 명언은 모든 지식의 기반은 겸손에서 비롯된다는 믿음을 반영하며, 학습의 길에는 끊임없는 탐구와 자기반성이 수반되어야 한다고 주장합니다. 그의 철학은 자기 앞의 무지를 고백함으로써 비로소 진정한 지혜를 얻을 수 있다는 관점을 제시합니다. (5위)1-4) PPO 데이터
데이터 포맷 1-4) PPO 데이터 대분류 구어체 중분류 보건 질문 데이터 획득 방식 구매 원문 질문: 한의학에서 비염을 어켕 치료하나요? 전처리 후 질문: 한의학에서 비염을 어떻게 치료하나요? - 실제 예시
● 한국어 말뭉치 데이터
{
"dataset_info": {
"data_category": {
"main": "문어체",
"middle": "인문"
},
"augmentation_type": "None",
"augmentation_id": 0,
"last_updated": "230829"
},
"data_info": [
{
"data_id":"88005",
"data_file":"ANM8805.txt",
"data_title":"성씨",
"data_subcategory":"인문 일반",
"data_type":"텍스트",
"data_year":"2022",
"collected_data":"230717",
"data_institution":"한국민족문화대백과사전",
"data_author":["홍길동"],
"data_source":"https://encykorea.aks.ac.kr/Article/E0029415",
"data_ccl":"CC BY",
"data_count":"394",
"contents":"성씨란 일정한 인물을 시조로 하여 대대로 이어 내려오는 단계혈연집단의 한 명칭이며, 곧 족적 관념의 표현이라고 볼 수도 있다는 데서 결국 족의 문제와 직접 연결된 것으로, 고대로 거슬러 올라 갈수록 더욱 밀착되어 있다. 후대의 성씨는 한자식 표기로서 이름 앞에 붙어 족계를 나타내는 동계혈족집단의 명칭을 가리키고, 이는 바로 중국식 출자율의 의미를 내포하고 있다. 성과 씨는 역사상 때로는 함께 붙어서, 때로는 각각 독립적으로 사용되기도 하였다. 본관과 함께 사용하여 혈연관계가 없는 동일한 성과 구별된다. 여기에서 현재 한국인이라면 누구나 본 · 성 · 이름을 가지게 되어 있다. 성씨는 발생한 이래 계속 분화하여 같은 조상이면서 성을 달리하기도 하며, 동성이면서 조상을 달리하기도 하였다. 또는 부의 성을 따르기도 하며 또는 모의 성을 따르는가 하면, 또는 혈연적인 관계가 전혀 없는 성을 거짓 사용하거나 변성 · 사성 · 자칭성하기도 하였다. 중국의 경우 삼대 이전에는 남자는 씨를, 여자는 성을 호칭하였다가 후대에 성씨가 합쳐졌던 것이며, 씨는 신분의 귀천을 분별하였기 때문에 귀한 자는 씨가 있으나, 천한 자는 이름만 있고 씨는 없었다. 중국의 성씨제도를 수용한 우리나라에서는 고려 초기부터 지배층에게 성이 보급되면서 성은 부계혈통을 표시하고 명은 개인의 이름을 가리키게 되었다. 그 결과 성은 그 사람의 혈연관계를 분류하는 기준이 되며, 이름은 그 성과 결합하여 사회성원으로서의 개인을 남과 구별하는 구실을 한다. 이름 그 자체만으로는 독립된 인격 행위를 할 수 없으며 어디까지나 성을 보조하는 기능을 가진다. 성은 그 사람이 태어난 부계혈통의 표지이기 때문에, 그 사람의 신분이나 호적에 변동이 생긴다 하여도 혈통이 변하는 것이 아니므로 일생 동안 바꾸지 못하는 것이 우리나라 고래의 관습법이다. 현행 민법상으로 자는 부의 성과 본을 따르도록 되어 있으며(제781조), 성이 잘못 불리거나 하는 특별한 경우 이외에는 성의 변경은 허용되지 않는다. 중국의 문자구조에 관한 최초의 자전인 『설문해자』에 “성인지소생야”라 하듯이, 성은 출생의 계통을 표시하는 것으로 모계시대에는 여계의 혈통을, 부계시대에는 남계의 혈통을 나타내는 표지이다. 또, 『좌전』에 “천자건덕 인생이사성”이라 한 것처럼, 천자가 유덕한 사람을 세워 제후를 봉할 때 그 조상의 출생지로써 성을 주었다고 한다. 그러므로 각 개인의 성에 의하여 각자의 소속된 혈통을 분별할 수 있다. 그러나 동일한 혈통을 가진 자가 각지에 분산하게 될 때 각기 지역에 분산된 일파를 표시하기 위한 표지가 필요하다. 이것이 곧 씨이다. 『좌전』에 “조지토이명지씨”라 한 바와 같이, 씨는 지명에 의하여 명명됨을 말하고 있다. 씨는 분화된 혈통(성)의 각각의 지연을 표시하는 표지인 것이 분명하므로 그 본원적 의미는 성의 분파를 뜻한다. 그러므로 중국의 고전에서 말하는 성은 혈통의 연원을 표시하는 것으로 역시 우리의 성이라는 것에 해당되며, 씨란 같은 성에서도 소유한 지역으로써 분별한 것이므로 우리의 본관에 해당된다. 경주 김씨 · 전주 이씨 · 밀양 박씨 등의 씨자에는 존칭적 의미도 잠재하여 있지만, 본관을 표시하는 의미가 포함되어 있다. 씨는 또한 조선시대 양반의 처에 대한 이름 대용의 경칭적 칭호로도 사용되었다."
}
]
}● SFT 데이터
- 원천 데이터
{
"dataset_info": {
"dastaset_type":"SFT",
"last_updated": "230829"
},
"data_info": [
{
"data_id": "7b3d7d63-721e-4c5b-b3a1-9b9b2c3a4e5f",
"data_category": {
"main": "문어체",
"middle": "자연",
"sub":"지구"
},
"question_type": "생성",
"question_count": 4,
"data_lexemes":"일반어",
"question":"지구의 구성 요소는 무엇인가요?",
}
]
}
- 라벨 데이터
{
"dataset_info": {
"dastaset_type":"SFT",
"last_updated": "230829"
},
"data_info": [
{
"data_id": "7b3d7d63-721e-4c5b-b3a1-9b9b2c3a4e5f",
"data_category": {
"main": "문어체",
"middle": "자연",
"sub":"지구"
},
"question_type": "생성",
"question_count": 4,
"data_lexemes":"일반어",
"question":"지구의 구성 요소는 무엇인가요?",
"answer":{
"answer_count":73,
"contents":"지구는 대부분의 우주 물질로 이루어진 행성으로, 기본적으로 다음과 같은 구성 요소로 구성되어 있습니다.\n1. 지각: 지구의 겉면을 이루는 땅과 바위로 된 표면 부분입니다.\n2. 수질: 지구의 표면에 존재한느 물의 총질량을 의미합니다. 바다, 강, 호수 등을 포함합니다.\n3. 대기: 지구를 둘러싸고 있는 공기의 두꺼운 층으로, 대기는 생명체에게 산소를 제공하고 기후와 날씨를 조절하는 역할을 합니다.\n4. 생물: 지구상에 살아 숨 쉬는 생명체들을 의미합니다. 식물, 동물, 미생물 등이 여기에 포함됩니다.\n이러한 구성 요소들이 지구를 형성하며, 서로 복잡하게 상호작용하면서 지구 생태계를 이루고 있습니다."
}
}
]
}● RM 데이터
- 원천 데이터
{
"dataset_info": {
"dastaset_type":"RM",
"last_updated": "230829"
},
"data_info": [
{
"data_id": "a8e0f9c2-90e7-4a6d-8e8b-6c974f3f3a12",
"data_category": {
"main": "문어체",
"middle": "인문",
"sub":"철학"
},
"question_type": "생성",
"question_count": 13,
"data_lexemes":"일반어",
"question":"소크라테스의 유명한 말인 '나는 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'에 대해 어떻게 생각하시나요?",
"answer01":{
"answer_count":25,
"contents":"소크라테스의 말 '나는 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'는 겸손과 지속적인 학습의 중요성을 강조하여, 우리가 얼마나 많은 것을 모르는지를 자각하고 성장해 나가야 한다는 철학을 나타낸다."
},
"answer02":{
"answer_count":18,
"contents":"소크라테스의 말은 '내가 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'로, 겸손과 지속적인 학습의 중요성을 강조하며, 끊임없는 성장과 발전을 장려합니다."
},
"answer03":{
"answer_count":19,
"contents":"소크라테스의 말 '나는 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'는 자기계발과 겸손의 중요성을 강조하며, 끊임없는 학습과 성장을 촉구하는 철학을 나타냅니다."
},
"answer04":{
"answer_count":27,
"contents":"소크라테스의 유명한 말은 자기 자신과 타인에 대한 겸손을 강조하며, 지식의 한계를 자각하고 항상 배움에 열린 태도를 장려합니다. 이를 통해 더 나은 사람이 되기 위한 지속적인 성장과 발전을 강조합니다."
},
"answer05":{
"answer_count":30,
"contents":"소크라테스의 명언은 모든 지식의 기반은 겸손에서 비롯된다는 믿음을 반영하며, 학습의 길에는 끊임없는 탐구와 자기반성이 수반되어야 한다고 주장합니다. 그의 철학은 자기 앞의 무지를 고백함으로써 비로소 진정한 지혜를 얻을 수 있다는 관점을 제시합니다."
}
}
]
}
- 라벨 데이터
{
"dataset_info": {
"dastaset_type":"RM",
"last_updated": "230829"
},
"data_info": [
{
"data_id": "a8e0f9c2-90e7-4a6d-8e8b-6c974f3f3a12",
"data_category": {
"main": "문어체",
"middle": "인문",
"sub":"철학"
},
"question_type": "생성",
"question_count": 13,
"data_lexemes":"일반어",
"question":"소크라테스의 유명한 말인 '나는 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'에 대해 어떻게 생각하시나요?",
"answer01":{
"answer_count":25,
"ranking":3,
"contents":"소크라테스의 말 '나는 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'는 겸손과 지속적인 학습의 중요성을 강조하여, 우리가 얼마나 많은 것을 모르는지를 자각하고 성장해 나가야 한다는 철학을 나타낸다."
},
"answer02":{
"answer_count":18,
"ranking":5,
"contents":"소크라테스의 말은 '내가 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'로, 겸손과 지속적인 학습의 중요성을 강조하며, 끊임없는 성장과 발전을 장려합니다."
},
"answer03":{
"answer_count":19,
"ranking":1,
"contents":"소크라테스의 말 '나는 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'는 자기계발과 겸손의 중요성을 강조하며, 끊임없는 학습과 성장을 촉구하는 철학을 나타냅니다."
},
"answer04":{
"answer_count":27,
"ranking":2,
"contents":"소크라테스의 유명한 말은 자기 자신과 타인에 대한 겸손을 강조하며, 지식의 한계를 자각하고 항상 배움에 열린 태도를 장려합니다. 이를 통해 더 나은 사람이 되기 위한 지속적인 성장과 발전을 강조합니다."
},
"answer05":{
"answer_count":30,
"ranking":4,
"contents":"소크라테스의 명언은 모든 지식의 기반은 겸손에서 비롯된다는 믿음을 반영하며, 학습의 길에는 끊임없는 탐구와 자기반성이 수반되어야 한다고 주장합니다. 그의 철학은 자기 앞의 무지를 고백함으로써 비로소 진정한 지혜를 얻을 수 있다는 관점을 제시합니다."
}
}
]
}• PPO 데이터
- 원천 데이터
{
"dataset_info": {
"dastaset_type":"PPO",
"last_updated": "230829"
},
"data_info": [
{
"data_id": "f55f68f1-48c4-4788-9fb4-ef4a4eef7d8d",
"data_category": {
"main": "구어체",
"middle": "보건",
"sub":"한의"
},
"question_type": "구매",
"question_count": 4,
"data_lexemes":"일반어",
"question":"한의학에서 비염을 어떻게 치료하나요?"
},
{
"data_id": "8dc2453d-532b-4d51-92b4-c24ab4b62fd6",
"data_category": {
"main": "구어체",
"middle": "인문",
"sub":"문학"
},
"question_type": "생성",
"question_count": 7,
"data_lexemes":"일반어",
"question":"어두운 분위기의 한국 근대 문학을 추천해 주세요."
}
]
} -
데이터셋 구축 담당자
수행기관(주관) : 대구경북과학기술원
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김슬기 010-8943-3496 [email protected] 데이터 구축 관리 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜빅웨이브에이아이 데이터 증강, 유해데이터 및 개인정보 필터링 ㈜유니바 AI 모델 학습, 데이터 검수 인하대학교 산학협력단 데이터 획득, 정제, 증강 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 최유진 053-615-1263 [email protected] 이진선 053-615-1263 [email protected] AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 최유진 053-615-1263 [email protected] 이진선 053-615-1263 [email protected] 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 최유진 053-615-1263 [email protected] 이진선 053-615-1263 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.