목록study_BigData (2)
Msg 성장일기
핵심포인트: 명목자료, 표준편차, 정규화, 이상치, 대치법, 후진소거법, 과적합, 무작위 결측, 차원 축소, 요인 분석, 로그 변환, 전처리 질적자료 1) 명목자료 : 측정대상이 범주나 종류에 대해 구분되어지는 것을 수치 또는 기호로 분류되는 자료 ( 예: 전화번호상의 국번, 지역번호 ) 2) 서열자료 : 명목자료와 비슷하나 수치나 기호가 서열을 나타내는 자료 ( 예: =, 등) 이상치 1) 단변수 이상치: 하나의 데이터 분포에서 발생하는 이상치 2)다변수 이상치 : 복수의 연결된 데이터 분포공간에서 발생하는 이상치 대치법 1) 단순 대치법 - 완전 분석 : 불완전 자료는 완전하게 무시하고 분석을 수행 - 평균 대치 : 평균의 의한 대치로 효율성의 향상 측면에서는 장점이 있으너 표준오차가 과소 추정 - ..
핵심포인트 : 하둡, 데이터웨어하우스, ETL, 크롤링, NoSQL, 스트리밍, 맵리듀스, API, DBMS, NoSQL, 인터프리터, 스쿱 시스템 구축 절차 └ 수집데이터 유형파악 - 수집기술 결정 - 아키텍처 수립 - 하드웨어 구축 - 실행환경 구축 비즈니스 도메인과 원천 데이터 수집 └ 비즈니스 모델, 비즈니스 용어집, 비즈니스 프로세스로부터 비즈니스 도메인 정보를 습득하고, 도메인 전문가 인터뷰를 통해 데이터의 정보를 습득한다. 내부데이터와 외부데이터 └ 내부 데이터에는 서비스 시스템 데이터, 네트워크 및 서버 장비 데이터, 마케팅 데이터가 있으며, 외부 데이터로는 소셜 데이터, 특정 기관 데이터, M2M 데이터, Linked Open Data가 있다. DBToDB : 데이터베이스 관리시스템 간 ..