-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2023-12-15 데이터 최종 개방 1.0 2023-07-26 데이터 개방(Beta Version) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-02-07 산출물 전체 공개 소개
o 주택유형(아파트, 연립다세대, 단독주택)별 평면도, 단면도, 입면도, 구조도의 48,033장의 건축도면 내 객체 2,653,998건과 건축도면 내 텍스트 304,462건에 대해 시멘틱 세그멘테이션/바운딩 박스를 통한 인공지능 학습용 데이터 구축
구축목적
o 건축 도면 자동화 기술 서비스를 위한 인공지능 학습용 데이터 구축 o 구축된 데이터 셋은 딥러닝 기법을 이용하여 건축도면 내 주요 객체를 검출하고 영상처리기법을 통하여 검출된 객체에 대한 공간구성을 새롭게 창출
-
메타데이터 구조표 데이터 영역 영상이미지 데이터 유형 이미지 데이터 형식 png 데이터 출처 참여기업 보유분 및 수집 라벨링 유형 바운딩박스(이미지), 시멘틱 세그멘테이션(이미지) 라벨링 형식 json 데이터 활용 서비스 건축도면 내 객체탐지, 문자탐지, 구조분석, 공간분석 데이터 구축년도/
데이터 구축량2022년/48,033장 -
4-1. 데이터 구축 규모
◯ 원천데이터 구축 규모
- 대분류 : 주택유형은 아파트, 연립다세대, 단독주택으로 구분
- 중분류 : 도면 유형은 평면도, 입면도, 단면도, 구조도/구조상세도로 구분4-1. 데이터 구축 규모◯ 원천데이터 구축 규모 대분류 중분류 구축량(장) 합 계 48,033 아파트 평면도 33,998 단면도 2,287 입면도 1,099 구조도/구조상세도 1,137 연립다세대 평면도 3,871 단면도 492 입면도 243 구조도/구조상세도 253 단독주택 평면도 3,687 단면도 483 입면도 253 구조도/구조상세도 230 4-2. 데이터 분포
◯ 클래스 규모
- 소분류는 구조 8종, 공간 12종, 객체 5종으로 구분4-2. 데이터 분포◯ 클래스 규모 소분류 클 래 스 세 부 구축량 구 조
(8종)출입문 여닫이문 240,113 미닫이문 9,503 기타문 3,033 창호 여닫이창 59,563 미닫이창 511,744 기타창 149,720 벽체 철근콘크리트벽 533,972 기타벽 440,221 공 간
(12종)거실 27,746 침실 87,916 주방 28,478 현관 29,975 발코니 53,754 화장실 63,881 실외기룸 19,962 드레스룸 24,411 기타(다목적공간) 192,531 엘리베이터홀 11,098 계단실 12,698 엘리베이터 9,923 객 체
(5종)변기 41,285 세면대 41,189 싱크대 20,951 욕조 19,740 가스레인지 20,591 객체 라벨링 합계 2,653,998 OCR 304,462 -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드5-1. AI 학습 모델
5-1. AI 학습 모델 학습 모델 알고리즘 성능지표 건축 도면 객체 인식(Object Recognition) 학습모델 YoloV5 mAP 72이상 건축 도면 시멘틱 세그멘테이션 (Semantic Segmentation) 구조인식 학습모델 DeepLabV3+ mIoU 60이상 건축 도면 시멘틱 세그멘테이션 (Semantic Segmentation) 공간인식 학습모델 DeepLabV3+ mIoU 60이상 건축 도면 광학 문자 인식(Optical character recognition) 학습모델 YoloV5, CRNN CER 5%이하 5-2. 응용서비스
5-2-1. 건축 도면 객체 인식(Object Recognition) 학습모델
ㅇ 벽체, 창문 등의 객체 탐지 대응 서비스 구현을 위해 YoloV5를 이용한 건축도면 객체 인식 모델 학습 진행
ㅇ 건축도면 분야의 객체에 대한 자동 탐지 및 대응에 대한 AI 서비스에 활용
- 건축도면 내 객체 추출 서비스
ㅇ 건축 2D 설계도면의 3D 모델링 자동 변환을 통하여 시각적으로 완성된 건물을 보고 소비자의 요구사항을 수렴하여 건축 설계를 수정[ 원본이미지 / 정답이미지 / 예측 이미지 / mAP: 90 ]
5-2-2. 건축 도면 시멘틱 세그멘테이션 (Semantic Segmentation) 공간인식 학습모델
ㅇ 거실, 침실, 주방 등의 공간 탐지 대응 서비스 구현을 위해 DeeplabV3+를 이용한 건축 도면 공간 인식 시멘틱 세그멘테이션 모델 학습 진행
ㅇ 건축도면 분야의 공간에 대한 자동 탐지 및 대응에 대한 AI 서비스에 활용
- 건축도면 공간 분석 서비스
ㅇ 건축 2D 설계도면의 3D 모델링 자동 변환을 통하여 시각적으로 완성된 건물을 보고 소비자의 요구사항을 수렴하여 건축 설계를 수정[ 원본이미지 / 정답이미지 / 예측 이미지 / mIoU: 87 ]
5-2-3. 건축 도면 시멘틱 세그멘테이션 (Semantic Segmentation) 구조인식 학습모델
ㅇ 출입문, 창호, 벽체 등의 구조 탐지 대응 서비스 구현을 위해 DeeplabV3+를 이용한 건축 도면 구조 인식 시멘틱 세그멘테이션 모델 학습 진행
ㅇ 건축도면 분야의 구조에 대한 자동 탐지 및 대응에 대한 AI 서비스에 활용
- 건축도면 구조 분석 서비스
ㅇ 건축 2D 설계도면의 3D 모델링 자동 변환을 통하여 시각적으로 완성된 건물을 보고 소비자의 요구사항을 수렴하여 건축 설계를 수정[ 원본이미지 / 정답이미지 / 예측 이미지 / mIoU: 85 ]
5-2-4. 건축 도면 광학 문자 인식(Optical character recognition) 학습모델
ㅇ 도면내의 문자 탐지 대응 서비스 구현을 위해 YoloV5 모델을 이용하여 문자 영역 예측 후, CRNN 모델을 이용하여 문자 인식 과정을 진행
ㅇ 건축도면 분야의 문자에 대한 자동 탐지 및 대응에 대한 AI 서비스에 활용
- 건축도면 내 문자 정보 추출 서비스[ 원본이미지 / 정답이미지 / 예측 이미지 / CER: 4.09% ]
-
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 OCR 탐지 Optical Character Recognition YOLO v5 CER 5 % 4.95 % 2 바운딩 박스 객체 탐지 Object Detection YOLO v5 mAP 72 % 90.33 % 3 세그멘테이션 객체 탐지 Object Detection DeepLabv3Plus mIoU 60 % 71.2 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드3-1. 데이터 정보 요약
데이터 명 건축 도면 데이터 활용 분야 건축도면 자동 생성 서비스, 스마트건설 분양 자동화 및 지능화 서비스 데이터 요약 건축 도면 내 객체 클래스(25종)에 대한 시멘틱 세그멘테이션, 각 건축 도면 데이터에 포함된 문자 데이터 바운딩 박스를 통한 인공지능 학습용 데이터를 구축함 데이터 출처 참여기관 보유 데이터 및 회원, 협력업체 보유 데이터 데이터 통계 데이터 구축 규모 건축도면 48,033장(평면도 41,556장, 단면도 3,262장, 입면도 1,595장 구조도 1,620장) 데이터 분포 · 다양성(통계) : 건축 도면 내 공간 12종(562,373건), 구조 8종 (1,947,869건), 객체 5종(143,756건), OCR(304,462건) · 다양성(요건) : 평면도 41,556장, 단면도 3,262장, 입면도 1,595장, 구조도 1,620장 3-2. 데이터 포맷
3-2-1. 데이터 구성 및 구분 정보3-2. 데이터 포맷 3-2-1. 데이터 구성 및 구분 정보 경로 구분 정보 구분자 정보 1차 경로 원천데이터 원천 및 라벨링 데이터, 건축 개요 데이터 구분 라벨링데이터 건축 개요 및 도면정보 2차 경로 APT ◦주택 종류 구분
APT:공동주택, DEH:단독주택, ROW:연립다세대DEH ROW 3차 경로 CS ◦도면 종류 구분
FP:평면도, CS:단면도, EP:입면도, SD:구조도EP FP SD 4차 경로 OCR ◦라벨 종류 구분
STR:구조, SPA:공간, OBJ:객체, OCR:문자OBJ SPA STR 3-2-2. 건축 개요 및 도면 정보
3-2. 데이터 포맷 3-2-2. 건축 개요 및 도면 정보 1차 경로 2차경로 3차 경로 파일 포맷 수량 - - - .csv 1 총 수량 1 3-2-3. 파일명/폴더명 구성 정보
[원천 데이터]3-2. 데이터 포맷 3-2-3. 파일명/폴더명 구성 정보[원천 데이터] 예시 세부 구성 설명 APT_FP_STR_100008400.png 주택종류(3자리)_도면분류(2자리)_라벨분류(3자리)_숫자(9자리).png ◦라벨분류 약어 설명 비고 STR 구조 라벨 문, 창, 벽등 구조에 대한 라벨 SPA 공간 라벨 거실, 침실 등 공간에 대한 라벨 OBJ 객체 라벨 변기, 싱크대 등 객체에 대한 라벨 OCR OCR 라벨 OCR(문자인식)에 대한 라벨 건축 및 도면 개요 정보.csv 건축 및 도면 개요 정보.csv [라벨링 데이터]
3-2. 데이터 포맷 3-2-3. 파일명/폴더명 구성 정보[라벨링 데이터] 예시 세부 구성 설명 APT_FP_STR_100008400.json 주택종류(3자리)_도면분류(2자리)_라벨분류(3자리)_숫자(9자리).json ◦라벨분류 약어 설명 비고 STR 구조 라벨 문, 창, 벽등 구조에 대한 라벨 SPA 공간 라벨 거실, 침실 등 공간에 대한 라벨 OBJ 객체 라벨 변기, 싱크대 등 객체에 대한 라벨 OCR OCR 라벨 OCR(문자인식)에 대한 라벨 3-2-4. 건축 개요 데이터
3-2. 데이터 포맷 3-2-4. 건축 개요 데이터 구분 속성명 타입 필수여부 설명 범위 1 FileName string y 데이터 식별자 2 site_area number y 대지면적 3 building_area number y 건축면적 4 building_vtl_rate number y 용적율 5 building_coverage number y 건폐율 6 design_stage string y 설계단계 계획, 실시 7 file_extension string y 파일확장자 PNG 8 width number y 도면 가로 사이즈 0 이상 9 height number y 도면 세로 사이즈 0 이상 10 large_id string y 주택 유형 11 middle_id string y 도면 유형 평면도, 단면도, 입면도, 구조도 12 drawing_id string y 도면 번호 13 area number y 면적 14 scale number y 축적도 3-2-5. 원천 데이터
3-2. 데이터 포맷 3-2-5. 원천 데이터 1차 경로 2차경로 3차 경로 파일 포맷 수량 APT FP OBJ .png 8,293 OCR .png 8,310 SPA .png 9,095 STR .png 8,300 CS OCR .png 787 SPA .png 713 STR .png 787 EP STR .png 1,099 SD STR .png 1,137 DEH FP OBJ .png 899 OCR .png 928 SPA .png 931 STR .png 929 CS OCR .png 147 SPA .png 164 STR .png 172 EP STR .png 253 SD STR .png 230 ROW FP OBJ .png 935 OCR .png 940 SPA .png 998 STR .png 998 CS OCR .png 164 SPA .png 164 STR .png 164 EP STR .png 243 SD STR .png 253 총수량 48,033 3-2-6. 라벨링 데이터
3-2. 데이터 포맷 3-2-6. 라벨링 데이터 1차 경로 2차경로 3차 경로 파일 포맷 수량 APT FP OBJ .json 8,293 OCR .json 8,310 SPA .json 9,095 STR .json 8,300 CS OCR .json 787 SPA .json 713 STR .json 787 EP STR .json 1,099 SD STR .json 1,137 DEH FP OBJ .json 899 OCR .json 928 SPA .json 931 STR .json 929 CS OCR .json 147 SPA .json 164 STR .json 172 EP STR .json 253 SD STR .json 230 ROW FP OBJ .json 935 OCR .json 940 SPA .json 998 STR .json 998 CS OCR .json 164 SPA .json 164 STR .json 164 EP STR .json 243 SD STR .json 253 총수량 48,033 3-3. 어노테이션 포맷
3-3-1. 구조 라벨(STR)3-3. 어노테이션 포맷 3-3-1. 구조 라벨(STR) 구분 속성명 타입 필수여부 설명 범위 비고 1 categories array of object y 라벨 유형 정보 1-1 id integer y 라벨 유형 번호 [1,23] 1-2 name string y 라벨 유형 이름 2 images array of object y 원천데이터 정보 배열 길이 1 고정 2-1 id number y 이미지 번호 2-2 width number y 이미지 폭 0 이상 2-3 height number y 이미지 높이 0 이상 2-4 file_name string y 원천데이터 파일명 3 annotations array of object y 원천데이터별 라벨링정보 3-1 id number y 어노테이션 식별자 3-2 image_id number y 이미지 번호 3-3 category_id integer y 라벨 유형(클래스 id) [1,23] 3-4 segmentation array of array of number y 세그멘테이션 정보 [[x1, y1, ... , xn, yn]] 3-5 area number y 바운딩박스 전체면적 3-6 bbox array of number y 바운딩박스 정보 [x1, y1, width, height] (x1, y1은 좌상단 좌표) 3-7 iscrowd number n 다중 객체 라벨 시 사용되는 변수 0,1 3-8 attributes object y 라벨 속성값 3-8-1 구조_벽체 string n 라벨값 철근콘크리트벽, 기타벽 3-8-2 창호 string n 라벨값 미닫이창, 여닫이창, 기타창 3-8-3 구조_출입문 string n 라벨값 미닫이문, 여닫이문, 기타문 3-8-4 occluded boolean n 객체 가려짐 여부 3-3-2. 공간 라벨(SPA)
3-3. 어노테이션 포맷 3-3-2. 공간 라벨(SPA) 구분 속성명 타입 필수여부 설명 범위 비고 1 categories array of object y 라벨 유형 정보 1-1 id integer y 라벨 유형 번호 [1,23] 1-2 name string y 라벨 유형 이름 2 images array of object y 원천데이터 정보 배열 길이 1 고정 2-1 id number y 이미지 번호 2-2 width number y 이미지 폭 0 이상 2-3 height number y 이미지 높이 0 이상 2-4 file_name string y 원천데이터 파일명 3 annotations array of object y 원천데이터별 라벨링정보 3-1 id number y 어노테이션 식별자 3-2 image_id number y 이미지 번호 3-3 category_id integer y 라벨 유형(클래스 id) [1,23] 3-4 segmentation array of array of number y 세그멘테이션 정보 [[x1, y1, ... , xn, yn]] 3-5 area number y 바운딩박스 전체면적 3-6 bbox array of number y 바운딩박스 정보 [x1, y1, width, height] (x1, y1은 좌상단 좌표) 3-7 iscrowd number n 다중 객체 라벨 시 사용되는 변수 0,1 3-8 attributes object n 라벨 속성값 3-8-1 occluded boolean n 객체 가려짐 여부 3-3-3. 객체 라벨(OBJ)
3-3. 어노테이션 포맷 3-3-3. 객체 라벨(OBJ) 구분 속성명 타입 필수여부 설명 범위 비고 1 categories array of object y 라벨 유형 정보 1-1 id integer y 라벨 유형 번호 [1,23] 1-2 name string y 라벨 유형 이름 2 images array of object y 원천데이터 정보 배열 길이 1 고정 2-1 id number y 이미지 번호 2-2 width number y 이미지 폭 0 이상 2-3 height number y 이미지 높이 0 이상 2-4 file_name string y 원천데이터 파일명 3 annotations array of object y 원천데이터별 라벨링정보 3-1 id number y 어노테이션 식별자 3-2 image_id number y 이미지 번호 3-3 category_id integer y 라벨 유형(클래스 id) [1,23] 3-4 segmentation array of number n 세그멘테이션 정보 [x1, y1, ... , xn, yn] 3-5 area number y 바운딩박스 전체면적 3-6 bbox array of number y 바운딩박스 정보 [x1, y1, width, height] (x1, y1은 좌상단 좌표) 3-7 iscrowd number n 다중 객체 라벨 시 사용되는 변수 0,1 3-8 attributes object n 라벨 속성값 3-8-1 occluded boolean n 객체 가려짐 여부 3-8-2 rotation number n 바운딩박스 회전값 [0, 360] 3-3-4. OCR 라벨(OCR)
3-3. 어노테이션 포맷 3-3-4. OCR 라벨(OCR) 구분 속성명 타입 필수여부 설명 범위 비고 1 categories array of object y 라벨 유형 정보 1-1 id integer y 라벨 유형 번호 [1,23] 1-2 name string y 라벨 유형 이름 2 images array of object y 원천데이터 정보 배열 길이 1 고정 2-1 id number y 이미지 번호 2-2 width number y 이미지 폭 0 이상 2-3 height number y 이미지 높이 0 이상 2-4 file_name string y 원천데이터 파일명 3 annotations array of object y 원천데이터별 라벨링정보 3-1 id number y 어노테이션 식별자 3-2 image_id number y 이미지 번호 3-3 category_id integer y 라벨 유형(클래스 id) [1,23] 3-4 segmentation array of number n 세그멘테이션 정보 [x1, y1, ... , xn, yn] 3-5 area number y 바운딩박스 전체면적 3-6 bbox array of number y 바운딩박스 정보 [x1, y1, width, height] (x1, y1은 좌상단 좌표) 3-7 iscrowd number n 다중 객체 라벨 시 사용되는 변수 0,1 3-8 attributes object y 라벨 속성값 3-8-1 OCR string y 라벨값 3-8-2 occluded boolean n 객체 가려짐 여부 3-8-3 rotation number n 바운딩박스 회전값 [0, 360] -
데이터셋 구축 담당자
수행기관(주관) : 에이치씨아이플러스(주)
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 손익생 02-6925-0325 [email protected] 품질/과제총괄 수행기관(참여)
수행기관(참여) 기관명 담당업무 디에스네트웍스(주) 수집 (주)투웨이브 수집 (사)한국건축가협회 수집 (주)스마트뱅크 가공 (주)지디에스컨설팅그룹 품질 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 손익생 02-6925-0325 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.