PCA의 개념
데이터를 더 낮은 차원으로 표현함으로써 (변수양 줄이기) 데이터의 복잡성을 감소시키고 변수 간의 상관 관계 및 패턴을 파악, 다차원 데이터의 여러 변수 중 중복되는 정보나 상호 연관성을 가지고 있는 변수등을 찾아내 고차원 데이터를 저차원 데이터로 변환하여 데이터의 중요 특징과 변동성은 유지하며 차원은 줄인다.
예시) 월별, 주별 자전거 대여에서 월과 주는 겹칠 수 있는 변수
또 차원축소를 통해 데이터의 정보를 최대한 보존, 주성분은 원본 데이터를 설명하는 데 가장 기여가 큰 데이터들을 남긴다.
PCA의 효과
데이터의 차원 축소, 변수 간 상관 관계 파악, 잡음 제거, 데이터 시각화, 다중공선성 해결 등 다양한 분야에서 유용하게 활용.
PCA의 전처리
데이터 전처리 : PCA를 실행하기 전 전처리는 매우 중요!
ㄴ 변수 스케일링 : 변수들 간에 크기 차이가 클 경우 PCA는 크기가 큰 변수에 더 큰 가중치 부여할 수 있다
ㄴ변수 상관관계 : 중복이 심한 변수는 제거
ㄴ 이상치 처리
ㄴ결측치 처리
데이터의 정규화,표준화 등 전처리하는 법
ㄴ 데이터 표준화: 데이터 평균을 0으로 표준편차를 1로 조정
ㄴ이외에도 로그 변환, Box-cox 변환 등 다양한 전처리 방법이 있다.
공분산 행렬의 PCA에서 활용원리
1. 공분산 행렬 계산
2. 고유값과 고유벡터 계산
3. 주성분 선택
'machine_learning' 카테고리의 다른 글
| 데이터 수집과 전처리 (0) | 2023.06.14 |
|---|---|
| 통계 - 인자분석 (0) | 2023.06.02 |
| 통계 - 공분산과 상관행렬 (0) | 2023.06.01 |
| [통계] 시계열 데이터-이상치 (0) | 2023.05.31 |
| [통계] 시계열 데이터 (0) | 2023.05.30 |