Msg 성장일기
데이터 전처리 본문
핵심포인트: 명목자료, 표준편차, 정규화, 이상치, 대치법, 후진소거법, 과적합, 무작위 결측, 차원 축소, 요인 분석, 로그 변환, 전처리
질적자료
1) 명목자료 : 측정대상이 범주나 종류에 대해 구분되어지는 것을 수치 또는 기호로 분류되는 자료
( 예: 전화번호상의 국번, 지역번호 )
2) 서열자료 : 명목자료와 비슷하나 수치나 기호가 서열을 나타내는 자료 ( 예: =,<,> 등)
이상치
1) 단변수 이상치: 하나의 데이터 분포에서 발생하는 이상치
2)다변수 이상치 : 복수의 연결된 데이터 분포공간에서 발생하는 이상치
대치법
1) 단순 대치법
- 완전 분석 : 불완전 자료는 완전하게 무시하고 분석을 수행
- 평균 대치 : 평균의 의한 대치로 효율성의 향상 측면에서는 장점이 있으너 표준오차가 과소 추정
- 회귀 대치 : 회귀분석에 의한 결측치를 대치하는 방법
- 단순 확률 대치 : 평균 대치법에서 추정량 표준오차의 과소 추정을 보완하는 대치법, hot-deck이라고도
- 최근접 : 응답자료를 순서대로 정리한 후, 결측값 바로 이전의 응답을 결측치로 대치
2) 다중 대치법
1단계 - 대치단계 : 결측을 대치한 데이터 복수 개를 생성한다.
2단계 - 분석단계 : 복수 개의 데이터셋에 대한 분석을 시행한다.
3단계 - 결합단계 : 복수 개의 분석결과에 대한 통계적 결합을 통해 결과를 도출한다.
변수의 선택방법
1) 전진 선택법: 영 모형에서 시작, 모든 독립변수 중 종속변수와 단순상관계수의 절댓값이 가장 큰 변수를 포함
2) 후진 소거법: 모든 독립변수 중 종속변수와 단순상관계수의 절댓값이 가장 작은 변수를 제외시킴
3) 단계적 선택법: 전진소거법 + 후진소거법
차원 축소의 필요성
1) 복잡도의 축소
2) 과적합 방지
3) 해석력의 확보 : 차원이 작은 간단한 분석모델일수록 내부구조 이해가 용이하고 해석이 쉬움
4) 차원의 저주 : 학습을 위해 차원이 증가하면서 학습데이터의 수보다 차원의 수가 많아져 성능이 저하되는 현상
분포형태별 정규분포 변환
| 변수변환 전 분포 | 사용변수 변환식 | 변수변환 후 분포 |
| 좌로 치우침 | X^3 | 정규분포화 |
| 좌로 약간 치우침 | X^2 | |
| 우로 약간 치우침 | 루트 X | |
| 우로 치우침 | ln(X) | |
| 극단적 우로 치우침 | 1/X |
'study_BigData > 빅분기' 카테고리의 다른 글
| 데이터 수집과 탐색 (1) | 2023.11.28 |
|---|