NEW 생성형AI 초거대 AI 헬스케어 질의응답 데이터
- 분야한국어
- 유형 텍스트
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2024-10-30 데이터 최종 개방 1.0 2024-06-28 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-08-09 AI모델 소스코드 수정 2024-06-28 산출물 공개 Beta Version 소개
- 헬스케어 분야에서 전문 지식 내용을 포함한 초거대 AI 모델을 만들기 위한 말뭉치 데이터로 의료 분야 카테고리에 대한 질문 및 답변 유형으로 구성
구축목적
- 의료용 챗봇 서비스를 위한 헬스케어 챗봇 학습용 대화 데이터 구축
-
메타데이터 구조표 데이터 영역 한국어 데이터 유형 텍스트 데이터 형식 .txt 데이터 출처 자체 수집, 의료 문서(온라인 기사) 라벨링 유형 질의응답(자연어) 라벨링 형식 json 데이터 활용 서비스 의료용 챗봇 서비스 데이터 구축년도/
데이터 구축량2023년/라벨링 데이터 기준 242,870,922어절(원천데이터 동일) -
- 최종 증강 데이터 구축량
질문 어절 수 질문 어절 수 질환 분류 어절 호흡기질환 540,515 신장비뇨기질환 664,627 순환기질환 746,680 뇌신경정신질환 1,179,013 유방내분비질환 653,752 소아청소년질환 438,335 근골격질환 1,123,839 치과질환 237,203 응급질환 656,608 유전질환 194,578 귀코목질환 788,691 기타 371,874 소화기질환 946,099 여성질환 741,541 눈질환 502,573 감염성질환 959,116 피부질환 906,534 성형미용 및 재건 205,132 종양혈액질환 984,867 전체 12,841,577 의료진 답변 어절 수 의료진 답변 어절 수 질환 분류 어절 호흡기질환 1,694,986 신장비뇨기질환 3,842,939 순환기질환 2,439,279 뇌신경정신질환 4,957,681 유방내분비질환 2,955,153 소아청소년질환 2,416,840 근골격질환 4,766,769 치과질환 932,301 응급질환 3,116,101 유전질환 1,659,768 귀코목질환 4,130,182 기타 1,392,876 소화기질환 5,040,068 여성질환 4,659,717 눈질환 2,633,944 감염성질환 4,278,142 피부질환 4,524,034 성형미용 및 재건 1,106,395 종양혈액질환 5,111,776 전체 61,658,951 의료문서기반 어절 수 의료문서기반 어절 수 질환 분류 어절 호흡기질환 11,885,475 신장비뇨기질환 4,459,708 순환기질환 4,196,568 뇌신경정신질환 25,210,067 유방내분비질환 2,156,829 소아청소년질환 4,375,227 근골격질환 8,043,873 치과질환 405,599 응급질환 18,595,697 유전질환 5,098,805 귀코목질환 2,229,483 기타 5,220,622 소화기질환 8,276,157 여성질환 6,178,579 눈질환 5,147,155 감염성질환 7,950,851 피부질환 11,333,081 성형미용 및 재건 - 종양혈액질환 31,380,039 전체 162,143,815 - 데이터 분포
- 카테고리는 질환 분류, 질환명, 질문 의도 등으로 구성
- 질환 분류: 감염성 질환, 귀코목 질환, 근골격 질환, 눈질환 등19개
- 질환명: 궤양성 대장염, 급성 심근경색증, 다운증후군 등 주요질환 500여개
- 진료과: 마취통증의학과, 피부과, 응급의학과, 이비인후과, 가정의학과, 일반외과, 내과, 순환기내과, 내분비내과,소화기내과, 혈액종양내과, 감염내과, 신장내과, 호흡기내과, 류마티스내과, 심장내과, 알레르기 내과 등
- 의도: 정의, 증상, 진단, 치료, 예방, 약물, 운동, 재활, 식이/생활 등 11개
- 카테고리별 목표 비율로 데이터 구축- 최종 학습용 데이터 구성(라벨링 데이터 JSON파일수 기준)
최종 학습용 데이터 구성 분류 데이터 구축 총량
(100%)학습 데이터
(80%)테스트 데이터
(10%)검증 데이터
(10%)질문데이터 1,431,243 1,143,131 146,820 141,292 답변데이터 2,461,960 1,966,902 249,654 245,404 합계 3,893,203
(242,870,922어절)3,110,033
(194,061,198어절)396,474
(24,625,829어절)386,696
(24,183,895어절) -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드- 인공지능 데이터 활용 AI 모델 개발
- ETRI T5 (답변 생성) 모델
- 성능 지표: 미세조정 학습 모델의 ROUGE 1, 2 점수
- 성능 목표값: ROUGE 1 ≥ 0.18, ROUGE 2 ≥ 0.025
- Input data: 질문, output data: 답변 -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드- 원천 데이터 설명
1) 증강 질문 데이터
-원시데이터 질문데이터를 기반으로 증강
-질문 카테고리별 분류 후 증강
-BART모델을 활용한 의미 유지 증강 수행2) 증강 답변 데이터
-의사, 간호사 등 의료진이 직접 작성한 건강 정보 데이터
-카테고리별 증강을 통해 데이터 의미 혼동 방지3) 증강 답변 데이터(의료 문서 기반)
-의료 문서, 공개 홈페이지 건강 상식 등 저작권 구매 또는 무료 데이터 활용
-이를 리소스 데이터로 활용하여 증강 수행
- 최종 증강 데이터(원천데이터) 규모최종 증강 데이터(원천데이터) 규모 항목 파일 수(json) 어절 수 일반인
질문 데이터1,431,243 12,841,577 의료진
답변 데이터633,637 61,658,951 의료문서기반
답변 데이터1,762,555 162,143,815 합계 3,827,435 236,644,343 - 구축된 증강 데이터를 기반으로 최종 학습용 데이터를 구성함
- 최종 학습용 데이터의 수량: 3,893,203개(파일수)/242,870,922(어절)- 라벨링 데이터 어노테이션 명세
라벨링 데이터 어노테이션 명세 데이터명 AI 모델 Task 어노테이션
방법주요 어노테이션 속성(질의, 답변 공통 속성) 속성 설명 라벨링
데이터 포맷초거대 AI
헬스케어
질의응답
데이터답변 생성 태깅 disease_category 질환 분류 JSON disease_name 질환명 intention 질문 의도 - 질문 레이블 데이터(JSON) 어노테이션 표
질문 레이블 데이터(JSON) 어노테이션 표 속성 설명 fileName 파일명 disease_category 질환 분류 participantsInfo gender 참여자 성별 age 참여자 나이 occupation 참여자 직업 history 과거병력유무 rPlace 현 거주지 disease_name kor 한글 질환명 eng 영어 질환명 intention 질문 의도 question 질문 문장 entities id 엔티티 id text 엔티티 텍스트 entity 엔티티 값 position 엔티티 텍스트 시작 위치 num_or_words 질문 문장 어절 수 - 답변 레이블 데이터(JSON) 어노테이션 표
답변 레이블 데이터(JSON) 어노테이션 표 속성 설명 fileName 파일명 disease_category 질환 분류 disease_name kor 한글 질환명 eng 영어 질환명 department 진료과 intention 질문 의도 answer intro 서론(선택) body 본론 conclusion 결론(선택) num_of_words 답변 문장 어절 수 - 원천데이터 및 라벨링 데이터 샘플
-질문 데이터 샘플
- 답변 데이터 샘플
-
데이터셋 구축 담당자
수행기관(주관) : 미디어젠(주)
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 송민규 02-6429-7104 [email protected] 데이터 정제/가공, 모델링 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜메인 데이터 검수 ㈜메트릭스 데이터 수집/획득, 크라우드 소싱 ㈜비디 수집/검수 도구 개발, 모니터링 ㈜위뉴 데이터 수집/검수 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 송민규 02-6429-7104 [email protected] 김진아 02-6429-7100 [email protected] AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 송민규 02-6429-7104 [email protected] 윤종성 02-6429-7100 [email protected] 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 송주홍 02-2025-4999 [email protected] 조영진 02-2025-4999 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.