다변량 통계 분석 기법 중 하나로 다양한 관찰 변수들 사이의 내재된 구조를 이해하고 설명하는 데 사용
목적은 데이터의 차원 축소와 변수 간의 상관관계 파악, 잠재적 요인 식벼르 변수 간의 상관관계 파악이 있다.
인자분석 활용
사회과학 및 교육 분야
경영 및 마케팅 분야
의학 및 생물학 분야
심리학 및 행동과학 분야
이미지 및 음성 처리 분야
데이터 구조를 파악하고 해석하는 도구로 사용
작업해야 하는 것
인자분석 데이터의 결측치 처리
인자 분석을 수행할 때 결측치가 있다면 처리해야 한다,
1. 결측치 있는 부분을 삭제하거나 제외하고 분석
2. 대체값 사용
3. 예측 모델을 사용한 대체-다른 변수들의 정보를 활용하여 예측모델을 통해 대체(결측치를 예측)
4. EM 알고리즘 : EM알고리즘은 결측치가 있는 데이터를 활용하여 퇴대우도추정을 수행, 결측치와 관련된 변수들 간의 상관관계를 추정하고 이 기반으로 결측치를 대체\
인자분석 데이터의 적절한 스케일링
변수의 표준화: 표준화는 변수의 평균을 0으로 표준편차를 1로 조정
인자 모델의 설정 - 인자의 개수 결정 방법
1. Scree plot 스크리 플롯
2. Kaiser criterion 카이저 기준
주가시장에서 스크리 플롯은 주가의 패턴을 시각화하여 분석하고 예측하는 데 사용되는 도구이며, 카이저 기준은 주가의 추세를 분석하기 위한 이동 평균 지표 중 하나입니다. 이러한 기술적 분석 도구들은 트레이더나 투자자들이 주식 시장에서 결정을 내릴 때 참고할 수 있는 도구로 활용될 수 있습니다.
인자 모델의 설정
인자 분석은 몇가지 가정을 정제로 수행-인자독립성, 인자 정규성
1. 주성분 분석 : PCA
2. 최대우도 추정법: MLE
인자 추정 방법 선택 및 적용 소개
1. 분석 목적 설정
2. 데이터 탐색 - 데이터 탐색하여 변수들 간의 상관 관계, 분포등 파악
3. 인자 축소 방법 선택
4. 방법 적용
5. 결과 해석
인자 분석 - 고유값, 고유 벡터 해석
고유값:
1. 고유값은 인자 분석에서 추출된 주성분의 중요도
2. 각 주성분에 대해 고유값이 할당, 해당 주성분이 원본 데이터의 분산을 얼마나 잘 설명하는지 나타냄
3. 일반적으로 내림차순 정렬, 상위 고유값이 데이터의 변동성 더 잘 나타냄
고유벡터:
1. 고유 벡터는 인자 분석에서 추출된 주성분의 방향
2. 각 주성분에 대해 해당 주성분의 방향 정의
3. 원본 변수들 간의 선형 조합으로 이루어져 있고 해당 조합 계수 나타냄
인자의 해석 및 명칭 지정
-인자는 주로 변수들 간의 공통된 변동성을 나타냄
- 인자의 명칭은 해당 인자를 명확하게 구분하고 이해하기 쉽게 하기 위해 지정
인자의 구성
-인자는 주로 원본 변수들의 선형 조합
-인자는 원본 변수들의 가중치를 조합하여 생성
-인자의 가중치는 해당인자가 어떤 특성을 나타내는지 결정
인자 분석 결과에서 각 인자의 가중치를 확인하여 해당 인자와 원본 변수들 간의 관계 파악하여 인자를 해석한다
인자 분석에서 인자의 해석 가능성과 실용성은 중요한 평가 요소이나 주관적 요소도 포함되기 때문에 전문가들과 협업하여 검토할 것.
인자분석의 한계
가정:
1. 선형적 가정: 비선형 관계 경우 인자분석 불가할 수도있다
2. 독립성 가저이 변수들 간의 독립성 가정, 만약 변수들 간 상호 의존성이 존재하면 결과 왜곡
3. 정규성 가정
한계:
1. 해석의 주관성
2. 정보 손실: 인자분석은 원본 데이터의 정보를 축소하고 요약하기 때문
3. 표본 크기: 작은 표본일 경우 신뢰도 하락
인자분석의 확장된 방법인 구조 방정식 모델링 사용하여 보완
'machine_learning' 카테고리의 다른 글
| 데이터 수집과 전처리2 (0) | 2023.06.14 |
|---|---|
| 데이터 수집과 전처리 (0) | 2023.06.14 |
| 통계 - 주성분 분석(PCA) (0) | 2023.06.01 |
| 통계 - 공분산과 상관행렬 (0) | 2023.06.01 |
| [통계] 시계열 데이터-이상치 (0) | 2023.05.31 |