한희선 |구민사
상품정보
발행일 :2020-06-15 |520
이 도서의 분야
IT/베스트셀러 > 컴퓨터/IT도서
도서소개
이 책은 수집 및 저장된 데이터를 빅데이터 분석 목적을 달성하기 위하여 정제하고 변환하고 적재 및 검증하는 과정을 통하여 분석용 데이터셋이 구축된다. 본서를 보기 위한 구성은 아래 그림과 같다.
(1) 수집 및 저장
데이터 수집은 비정형 및 정형의 DBMS 데이터 등을 수집하고, 저장에서는 HDFS 및 Hbase에 데이터를 저장한다. 본서의 [Part 3. 외부 데이터 수집하기]를 보기 바란다.
(2) 전처리
전처리는 원본 데이터 로드가 정확히 되었는지 검토하기 위해 Data Type 및 텍스트형식으로 저장된 데이터의 Level을 확인한다. 본서의 [Part. 1 빅데이터로 무엇을 해야 할까, Part 2. R로 하는 빅데이터 전처리]를 보기 바란다.
(3) 정제
정제에서는 본격적으로 분석용 데이터셋을 구축하기 위하여 분석에 필요한 데이터를 식별하고, 식별된 데이터를 가공 및 오류 - 결측치 처리를 한다. 본서의 [Part 5. 분석에 적합하게 변환하기(데이터 가공), Part 7. 데이터 탐색]을 보기 바란다.
(4) 변환 / 적재
데이터 변환 및 적재는 정제된 데이터를 빅데이터 분석에 용이한 형태로 적재한다. 변환기법에는 데이터를 평활화(smoothing), 집계(aggregation), 일반화(generalization), 정규화(normalization), 파생 속성생성 등이 있다. 본서의 [Part 4. 다양한 형식의 데이터 로딩하기, Part 5의 파생변수, Part 7 데이터 탐색의 chapter2] 등을 보기 바란다.
(5) 검증
검증은 정제된 분석용 데이터의 적재가 정합성 있게 되었는지 확인한다(데이터 품질 포함). 이 책의 [Part 6. 데이터 정제]를 보기 바란다.
도서목차
PART 01 빅데이터로 무엇을 해야 할까
Chapter 1 빅데이터와 데이터 과학자
PART 02 R로 하는 빅데이터 전처리
Chapter 1 R환경(Environment)
Chapter 2 빅데이터 분석 R 환경 구성 및 입문
Chapter 3 패키지 사용
Chapter 4 데이터 구조와 메타 데이터 051
Chapter 5 R에 저장된 데이터 타입(Type)보기
Chapter 6 Vector Object
Chapter 7 범주형 데이터 Factor Object
Chapter 8 Matrix Object
Chapter 9 DataFrame Object
Chapter 10 List Object
Chapter 11 Arrary Object
PART 03 외부 데이터 수집하기
Chapter 1 분석프로그램에 내장된 데이터
Chapter 2 오픈 데이터
Chapter 3 날씨 json 파일 읽기
Chapter 4 웹페이지 가져오기
PART 04 다양한 형식의 데이터 로딩하기
Chapter 1 CSV 파일 로딩
Chapter 2 탭으로 구분된 파일 로딩
Chapter 3 엑셀 xls, xlsx 파일 로딩하기
Chapter 4 XML 파일 로딩
Chapter 5 데이터 파일로 저장하기
PART 05 분석에 적합하게 변환하기(데이터 가공)
Chapter 1 분석 마트
Chapter 2 파생 변수
PART 06 데이터 정제
Chapter 1 데이터 Value 검증(Validation)
Chapter 2 중복 관리
Chapter 3 정렬 및 그룹화
PART 07 데이터 탐색
Chapter 1 교차표(Crosstabs)로 데이터 특징 찾기
Chapter 2 데이터 속성(컬럼)관리 및 행관리
PART 08 텍스트 데이터 처리(자연어 처리)
Chapter 1 정규표현식 사용하기
Chapter 2 Corpus 및 Vectorsources
Chapter 3 문서-단어, 단어-문서 테이블 생성 및 사용하기
Chapter 4 한글 인코딩
해시태그
#AI #분석을 #위한 #빅데이터 #구축
회원리뷰 (0)
▶
배송/교환/반품안내▶