PCA의 개념

데이터를 더 낮은 차원으로 표현함으로써 (변수양 줄이기) 데이터의 복잡성을 감소시키고 변수 간의 상관 관계 및 패턴을 파악, 다차원 데이터의 여러 변수 중 중복되는 정보나 상호 연관성을 가지고 있는 변수등을 찾아내 고차원 데이터를 저차원 데이터로 변환하여 데이터의 중요 특징과 변동성은 유지하며 차원은 줄인다.

예시) 월별, 주별 자전거 대여에서 월과 주는 겹칠 수 있는 변수

 

또 차원축소를 통해 데이터의 정보를 최대한 보존, 주성분은 원본 데이터를 설명하는 데 가장 기여가 큰 데이터들을 남긴다. 

 

PCA의 효과

데이터의 차원 축소, 변수 간 상관 관계 파악, 잡음 제거, 데이터 시각화, 다중공선성 해결 등 다양한 분야에서 유용하게 활용. 

 

PCA의 전처리

 

데이터 전처리 : PCA를 실행하기 전 전처리는 매우 중요!

ㄴ 변수 스케일링 : 변수들 간에 크기 차이가 클 경우 PCA는 크기가 큰 변수에 더 큰 가중치 부여할 수 있다

ㄴ변수 상관관계 : 중복이 심한 변수는 제거

ㄴ 이상치 처리

ㄴ결측치 처리

 

데이터의 정규화,표준화 등 전처리하는 법

ㄴ 데이터 표준화: 데이터 평균을 0으로 표준편차를 1로 조정

ㄴ이외에도 로그 변환, Box-cox 변환 등 다양한 전처리 방법이 있다.

 

공분산 행렬의 PCA에서 활용원리

1. 공분산 행렬 계산

2. 고유값과 고유벡터 계산

3. 주성분 선택

'machine_learning' 카테고리의 다른 글

데이터 수집과 전처리  (0) 2023.06.14
통계 - 인자분석  (0) 2023.06.02
통계 - 공분산과 상관행렬  (0) 2023.06.01
[통계] 시계열 데이터-이상치  (0) 2023.05.31
[통계] 시계열 데이터  (0) 2023.05.30

+ Recent posts