공분산은 두 변수 사이의 관계를 나타내는 통계적 개념이고, 상관 행렬은 변수들 간의 상관 관계를 표준화한 행렬로 다중 변수 분석에서 유용하게 사용

 

공분산(Covariance): 두변수가 함께 변하는 정도

함께 증가하거나(양의 비례관계) 하나의 변수가 증가할 때 하나는 감소(반비례)

-관계의 존재 여부

-관계의 강도 : 0이면 관계가 약하고 1(양의 관련성, 정비례) 혹은 -1에 가까울 수록 관계성(음의 관련성, 반비례)이 강한 것

-단위 의존성 : 공분산은 변수의 단위에 영향을 받기 때문에 공분산 값 만으로는 변수 간의 관성성 정도 비교 어렵

 

상관 행렬(Correlation Matrix): 공분산을 -1에서 1 사이로 나타낸 것.  상관 계수가 1에 가까울수록 강한 양의 선형 관계가 있음을 나타내고, -1에 가까울수록 강한 음의 선형 관계가 있음을 나타냄. 0에 가까운 상관 계수는 두 변수 사이에 선형 관계가 없거나 약한 선형 관계가 있음을 나타냄.

 


활용 사례

-두 변수간의 의존성을 파악하여 두 변수들 사이에 패턴과 경향 이해하여 예측 모델링에 활용

- 변수 선택 

-차원 축소

-데이터 시각화(예시:히트맵)

 

즉 변수들 사이에 뭐가 필요한지 불필요한지 나누는 지표


공분산 행렬의 개념

 

여러 변수들 간의 공분산을 나타내는 정사각 행렬, 각 행과 각열은 각 변수로 이루어져 있다. 

예를 들어 공분산을 파악하고자 하는 변수가 5개라고 해보자

c와 b의 상관관계 (3,2) b와 c의 상관관계는 (2,3) 이런 식으로 이루어져 있을 것이고 대각선은 자기 자신과의 상관관계이므로 무조건 상관관계가 1이 나온다.

 

상관행렬의 성질 소개

-대칭성: (I,J)의 성분 = (J,I)의 성분

-대각선의 값 : 자기 자신(상관관계=1)

 

공분산과 상관 행렬의 차이

공분산은 두 변수간의 변동성을 측정하는 지표, 상관행렬은 정규화 된 지표.

공분산과 상관 행렬은 변수들 간 관계를 이해하는 데 사용되지만 상관 행렬은 변수들 간의 선형관계를 더 정확하고 표준화된 방식으로 나타낸다. 

 

다중 공선성

회귀 분석 같은 다변량 분석에서 발생할 수 있는 문제로 독립 변수들 간에 강한 선형 관계가 있는 경우 발생

'machine_learning' 카테고리의 다른 글

통계 - 인자분석  (0) 2023.06.02
통계 - 주성분 분석(PCA)  (0) 2023.06.01
[통계] 시계열 데이터-이상치  (0) 2023.05.31
[통계] 시계열 데이터  (0) 2023.05.30
통계기반의 데이터분석(1)  (1) 2023.05.22

+ Recent posts