통계 - 주성분 분석(PCA)

jinny95 2023. 6. 1. 20:19

2023. 6. 1. 20:19

PCA의 개념

데이터를 더 낮은 차원으로 표현함으로써 (변수양 줄이기) 데이터의 복잡성을 감소시키고 변수 간의 상관 관계 및 패턴을 파악, 다차원 데이터의 여러 변수 중 중복되는 정보나 상호 연관성을 가지고 있는 변수등을 찾아내 고차원 데이터를 저차원 데이터로 변환하여 데이터의 중요 특징과 변동성은 유지하며 차원은 줄인다.

예시) 월별, 주별 자전거 대여에서 월과 주는 겹칠 수 있는 변수

또 차원축소를 통해 데이터의 정보를 최대한 보존, 주성분은 원본 데이터를 설명하는 데 가장 기여가 큰 데이터들을 남긴다.

PCA의 효과

데이터의 차원 축소, 변수 간 상관 관계 파악, 잡음 제거, 데이터 시각화, 다중공선성 해결 등 다양한 분야에서 유용하게 활용.

PCA의 전처리

데이터 전처리 : PCA를 실행하기 전 전처리는 매우 중요!

ㄴ 변수 스케일링 : 변수들 간에 크기 차이가 클 경우 PCA는 크기가 큰 변수에 더 큰 가중치 부여할 수 있다

ㄴ변수 상관관계 : 중복이 심한 변수는 제거

ㄴ 이상치 처리

ㄴ결측치 처리

데이터의 정규화,표준화 등 전처리하는 법

ㄴ 데이터 표준화: 데이터 평균을 0으로 표준편차를 1로 조정

ㄴ이외에도 로그 변환, Box-cox 변환 등 다양한 전처리 방법이 있다.

공분산 행렬의 PCA에서 활용원리

1. 공분산 행렬 계산

2. 고유값과 고유벡터 계산

3. 주성분 선택

'machine_learning' 카테고리의 다른 글

데이터 수집과 전처리 (0)	2023.06.14
통계 - 인자분석 (0)	2023.06.02
통계 - 공분산과 상관행렬 (0)	2023.06.01
[통계] 시계열 데이터-이상치 (0)	2023.05.31
[통계] 시계열 데이터 (0)	2023.05.30

JINHEE's lab

통계 - 주성분 분석(PCA)

'machine_learning' 카테고리의 다른 글

+ Recent posts

티스토리툴바