Msg 성장일기

데이터 전처리 본문

study_BigData/빅분기

데이터 전처리

공부하는 어른이 2023. 11. 29. 15:45

핵심포인트: 명목자료, 표준편차, 정규화, 이상치, 대치법, 후진소거법, 과적합, 무작위 결측, 차원 축소, 요인 분석, 로그 변환, 전처리


질적자료


1) 명목자료 : 측정대상이 범주나 종류에 대해 구분되어지는 것을 수치 또는 기호로 분류되는 자료
                     ( 예: 전화번호상의 국번, 지역번호 )
2) 서열자료 :  명목자료와 비슷하나 수치나 기호가 서열을 나타내는 자료 ( 예: =,<,> 등)


이상치


1) 단변수 이상치: 하나의 데이터 분포에서 발생하는 이상치
2)다변수 이상치 : 복수의 연결된 데이터 분포공간에서 발생하는 이상치   


대치법

 

1) 단순 대치법
- 완전 분석 :         불완전 자료는 완전하게 무시하고 분석을 수행
- 평균 대치 :         평균의 의한 대치로 효율성의 향상 측면에서는 장점이 있으너 표준오차가 과소 추정
- 회귀 대치 :         회귀분석에 의한 결측치를 대치하는 방법 
- 단순 확률 대치 : 평균 대치법에서 추정량 표준오차의 과소 추정을 보완하는 대치법, hot-deck이라고도 
- 최근접  :             응답자료를 순서대로 정리한 후, 결측값 바로 이전의 응답을 결측치로 대치

 

2) 다중 대치법
1단계 - 대치단계 : 결측을 대치한 데이터 복수 개를 생성한다.
2단계 - 분석단계 : 복수 개의 데이터셋에 대한 분석을 시행한다.
3단계 - 결합단계 : 복수 개의 분석결과에 대한 통계적 결합을 통해 결과를 도출한다.


변수의 선택방법

1) 전진 선택법: 영 모형에서 시작, 모든 독립변수 중 종속변수와 단순상관계수의 절댓값이 가장 큰 변수를 포함
2) 후진 소거법: 모든 독립변수 중 종속변수와 단순상관계수의 절댓값이 가장 작은 변수를 제외시킴
3) 단계적 선택법: 전진소거법 + 후진소거법


차원 축소의 필요성

1) 복잡도의 축소
2) 과적합 방지
3) 해석력의 확보 : 차원이 작은 간단한 분석모델일수록 내부구조 이해가 용이하고 해석이 쉬움
4) 차원의 저주 : 학습을 위해 차원이 증가하면서 학습데이터의 수보다 차원의 수가 많아져 성능이 저하되는 현상


분포형태별 정규분포 변환

변수변환 전 분포 사용변수 변환식 변수변환 후 분포
좌로 치우침 X^3 정규분포화
좌로 약간 치우침 X^2
우로 약간 치우침 루트 X
우로 치우침 ln(X)
극단적 우로 치우침 1/X

'study_BigData > 빅분기' 카테고리의 다른 글

데이터 수집과 탐색  (1) 2023.11.28