다변량 통계 분석 기법 중 하나로 다양한 관찰 변수들 사이의 내재된 구조를 이해하고 설명하는 데 사용

목적은 데이터의 차원 축소와 변수 간의 상관관계 파악, 잠재적 요인 식벼르 변수 간의 상관관계 파악이 있다.

 

인자분석 활용

사회과학 및 교육 분야

경영 및 마케팅 분야

의학 및 생물학 분야

심리학 및 행동과학 분야

이미지 및 음성 처리 분야

 

데이터 구조를 파악하고 해석하는 도구로 사용


작업해야 하는 것

 

인자분석 데이터의 결측치 처리

인자 분석을 수행할 때 결측치가 있다면 처리해야 한다,

1. 결측치 있는 부분을 삭제하거나 제외하고 분석

2. 대체값 사용

3. 예측 모델을 사용한 대체-다른 변수들의 정보를 활용하여 예측모델을 통해 대체(결측치를 예측)

4. EM 알고리즘 : EM알고리즘은 결측치가 있는 데이터를 활용하여 퇴대우도추정을 수행, 결측치와 관련된 변수들 간의 상관관계를 추정하고 이 기반으로 결측치를 대체\

 

인자분석 데이터의 적절한 스케일링

변수의 표준화: 표준화는 변수의 평균을 0으로 표준편차를 1로 조정

 

인자 모델의 설정 - 인자의 개수 결정 방법

1. Scree plot 스크리 플롯

2. Kaiser criterion 카이저 기준

더보기

주가시장에서 스크리 플롯은 주가의 패턴을 시각화하여 분석하고 예측하는 데 사용되는 도구이며, 카이저 기준은 주가의 추세를 분석하기 위한 이동 평균 지표 중 하나입니다. 이러한 기술적 분석 도구들은 트레이더나 투자자들이 주식 시장에서 결정을 내릴 때 참고할 수 있는 도구로 활용될 수 있습니다.

인자 모델의 설정

인자 분석은 몇가지 가정을 정제로 수행-인자독립성, 인자 정규성

1. 주성분 분석 : PCA

2.  최대우도 추정법: MLE

 

인자 추정 방법 선택 및 적용 소개

1. 분석 목적 설정

2. 데이터 탐색 -  데이터 탐색하여 변수들 간의 상관 관계, 분포등 파악

3. 인자 축소 방법 선택

4. 방법 적용

5. 결과 해석

 


인자 분석 - 고유값, 고유 벡터 해석

 

고유값:

1. 고유값은 인자 분석에서 추출된 주성분의 중요도

2. 각 주성분에 대해 고유값이 할당, 해당 주성분이 원본 데이터의 분산을 얼마나 잘 설명하는지 나타냄

3. 일반적으로 내림차순 정렬, 상위 고유값이 데이터의 변동성 더 잘 나타냄

 

고유벡터:

1. 고유 벡터는 인자 분석에서 추출된 주성분의 방향

2. 각 주성분에 대해 해당 주성분의 방향 정의

3. 원본 변수들 간의 선형 조합으로 이루어져 있고 해당 조합 계수 나타냄

 

인자의 해석 및 명칭 지정

-인자는 주로 변수들 간의 공통된 변동성을 나타냄

- 인자의 명칭은 해당 인자를 명확하게 구분하고 이해하기 쉽게 하기 위해 지정

 

인자의 구성

-인자는 주로 원본 변수들의 선형 조합

-인자는 원본 변수들의 가중치를 조합하여 생성

-인자의 가중치는 해당인자가 어떤 특성을 나타내는지 결정

 

 

인자 분석 결과에서 각 인자의 가중치를 확인하여 해당 인자와 원본 변수들 간의 관계 파악하여 인자를 해석한다

인자 분석에서 인자의 해석 가능성과 실용성은 중요한 평가 요소이나 주관적 요소도 포함되기 때문에 전문가들과 협업하여 검토할 것.


인자분석의 한계

 

가정:

1. 선형적 가정: 비선형 관계 경우 인자분석 불가할 수도있다

2. 독립성 가저이 변수들 간의 독립성 가정, 만약 변수들 간 상호 의존성이 존재하면 결과 왜곡

3. 정규성 가정

 

한계:

1. 해석의 주관성

2. 정보 손실: 인자분석은 원본 데이터의 정보를 축소하고 요약하기 때문

3. 표본 크기: 작은 표본일 경우 신뢰도 하락

 

인자분석의 확장된 방법인 구조 방정식 모델링 사용하여 보완

 

 

'machine_learning' 카테고리의 다른 글

데이터 수집과 전처리2  (0) 2023.06.14
데이터 수집과 전처리  (0) 2023.06.14
통계 - 주성분 분석(PCA)  (0) 2023.06.01
통계 - 공분산과 상관행렬  (0) 2023.06.01
[통계] 시계열 데이터-이상치  (0) 2023.05.31

PCA의 개념

데이터를 더 낮은 차원으로 표현함으로써 (변수양 줄이기) 데이터의 복잡성을 감소시키고 변수 간의 상관 관계 및 패턴을 파악, 다차원 데이터의 여러 변수 중 중복되는 정보나 상호 연관성을 가지고 있는 변수등을 찾아내 고차원 데이터를 저차원 데이터로 변환하여 데이터의 중요 특징과 변동성은 유지하며 차원은 줄인다.

예시) 월별, 주별 자전거 대여에서 월과 주는 겹칠 수 있는 변수

 

또 차원축소를 통해 데이터의 정보를 최대한 보존, 주성분은 원본 데이터를 설명하는 데 가장 기여가 큰 데이터들을 남긴다. 

 

PCA의 효과

데이터의 차원 축소, 변수 간 상관 관계 파악, 잡음 제거, 데이터 시각화, 다중공선성 해결 등 다양한 분야에서 유용하게 활용. 

 

PCA의 전처리

 

데이터 전처리 : PCA를 실행하기 전 전처리는 매우 중요!

ㄴ 변수 스케일링 : 변수들 간에 크기 차이가 클 경우 PCA는 크기가 큰 변수에 더 큰 가중치 부여할 수 있다

ㄴ변수 상관관계 : 중복이 심한 변수는 제거

ㄴ 이상치 처리

ㄴ결측치 처리

 

데이터의 정규화,표준화 등 전처리하는 법

ㄴ 데이터 표준화: 데이터 평균을 0으로 표준편차를 1로 조정

ㄴ이외에도 로그 변환, Box-cox 변환 등 다양한 전처리 방법이 있다.

 

공분산 행렬의 PCA에서 활용원리

1. 공분산 행렬 계산

2. 고유값과 고유벡터 계산

3. 주성분 선택

'machine_learning' 카테고리의 다른 글

데이터 수집과 전처리  (0) 2023.06.14
통계 - 인자분석  (0) 2023.06.02
통계 - 공분산과 상관행렬  (0) 2023.06.01
[통계] 시계열 데이터-이상치  (0) 2023.05.31
[통계] 시계열 데이터  (0) 2023.05.30

공분산은 두 변수 사이의 관계를 나타내는 통계적 개념이고, 상관 행렬은 변수들 간의 상관 관계를 표준화한 행렬로 다중 변수 분석에서 유용하게 사용

 

공분산(Covariance): 두변수가 함께 변하는 정도

함께 증가하거나(양의 비례관계) 하나의 변수가 증가할 때 하나는 감소(반비례)

-관계의 존재 여부

-관계의 강도 : 0이면 관계가 약하고 1(양의 관련성, 정비례) 혹은 -1에 가까울 수록 관계성(음의 관련성, 반비례)이 강한 것

-단위 의존성 : 공분산은 변수의 단위에 영향을 받기 때문에 공분산 값 만으로는 변수 간의 관성성 정도 비교 어렵

 

상관 행렬(Correlation Matrix): 공분산을 -1에서 1 사이로 나타낸 것.  상관 계수가 1에 가까울수록 강한 양의 선형 관계가 있음을 나타내고, -1에 가까울수록 강한 음의 선형 관계가 있음을 나타냄. 0에 가까운 상관 계수는 두 변수 사이에 선형 관계가 없거나 약한 선형 관계가 있음을 나타냄.

 


활용 사례

-두 변수간의 의존성을 파악하여 두 변수들 사이에 패턴과 경향 이해하여 예측 모델링에 활용

- 변수 선택 

-차원 축소

-데이터 시각화(예시:히트맵)

 

즉 변수들 사이에 뭐가 필요한지 불필요한지 나누는 지표


공분산 행렬의 개념

 

여러 변수들 간의 공분산을 나타내는 정사각 행렬, 각 행과 각열은 각 변수로 이루어져 있다. 

예를 들어 공분산을 파악하고자 하는 변수가 5개라고 해보자

c와 b의 상관관계 (3,2) b와 c의 상관관계는 (2,3) 이런 식으로 이루어져 있을 것이고 대각선은 자기 자신과의 상관관계이므로 무조건 상관관계가 1이 나온다.

 

상관행렬의 성질 소개

-대칭성: (I,J)의 성분 = (J,I)의 성분

-대각선의 값 : 자기 자신(상관관계=1)

 

공분산과 상관 행렬의 차이

공분산은 두 변수간의 변동성을 측정하는 지표, 상관행렬은 정규화 된 지표.

공분산과 상관 행렬은 변수들 간 관계를 이해하는 데 사용되지만 상관 행렬은 변수들 간의 선형관계를 더 정확하고 표준화된 방식으로 나타낸다. 

 

다중 공선성

회귀 분석 같은 다변량 분석에서 발생할 수 있는 문제로 독립 변수들 간에 강한 선형 관계가 있는 경우 발생

'machine_learning' 카테고리의 다른 글

통계 - 인자분석  (0) 2023.06.02
통계 - 주성분 분석(PCA)  (0) 2023.06.01
[통계] 시계열 데이터-이상치  (0) 2023.05.31
[통계] 시계열 데이터  (0) 2023.05.30
통계기반의 데이터분석(1)  (1) 2023.05.22

이상치

-데이터 집합에서 동떨어진 값

-발생 요인은 잘못된 측정, 데이터 수집 오류, 자연적 이벤트 등

-분석과 예측에 부정적 영향을 미치며 잘못된 결과나 왜곡된 모델 유발

-교차검증을 통해 검수하여 찾아내는 것이 좋다

 

이상치 탐지의 중요성과 활용성

-데이터 품질 향상

- 모델 정황성 향상

-이상 패턴 탐지 : 특이한 패턴, 동향, 문제점 식별(금융 분야에서 이상 거래 탐지, 생산라인의 이상 동작 감지하여 장비 고장 예방, 데이터 이상치의 원인을 분석함으로서 비지니스 프로세스 최적화하고 데이터 품질 향상 가능)

 

1.이동 평균과 이동 표준 편차를 사용한 이상치 탐지

-이동 평균 계산 : 추세 파악

-이동 평균편차 계산 : 변동성 파악

-임계값 설정: 이동평균에 일정한 배수를 곱한 값과 이동 표준편차에 일정한 배수를 더한 값으로 설정, 이상치를 정의

-이상치 탐지: 설정한 임계값 사용하여 데이터 포인트가 이상치인지 여부 판별

 

# 임계값 설정에 주의해야한다(너무 넓게 잡으면 이상치가 아닌데 이상치로 판별)

 

 

원본 데이터 그래프

 

이동 평균, 이동 표준편차, 임계값, 이상치 그래프

임계값 설정 : 이동평균 + 일정배수 x 이동표준편차

 

2. 지수 평활법을 활용한 이상치 탐지

-시계열 데이터의 추세와 계절성을 고려할여 데이터를 부드럽게 탐지하는 방법

-추세(Trend)를 추정하고 전차(Residual)를 계산

-전차가 특정 임계값을 초과하는 경우 이를 이상치로 판단

 

trend = add는 지수 평활법 모델에서 추세를 가지는 모델을 설정하는 파라메터

original= 원본 시계열 데이터, trend = 지수 평활법에 의해 추정된 추세, outlier= 이상치로 편차가 미리 설정한 임계값보다 클 때

 

3. z-점수 기반 이상치 탐지

-통계적 방법 중 하나로 데이터 평균과 표준편차를 활용하여 이상치 탐지

-주어진 데이터 포인트가 평균에서 얼마나 떨어져있는지를 표준편차로 나타내는 z-점수로 계산하고 이 기준으로 이상치 판단

-임계값은 2 이상으로 설정되며 이를 초과하면 이상치

- 이 방법은 데이터가 정규분포를 따르는 가정을 전제로 함

-절차 수행 조건 : (1) 시계열 데이터 생성 (2) 평균과 표준편차 계산 (3) z-점수 계산 (4) 이상치 탐지 (5) 이상치 처리

이상치를 산점도로 표현

 

4. 스무딩

-시계열 데이터에서 잡음이나 불규칙한 변동을 완화시키는 기법

-주목적은 추세 신호를 강조하고 잡음을 제거하여 추세 분석에 도움을 주고 데이터의 부드러운 버전을 생성하여 예측 모델의 성능 향상, 이상치나 잡음을 완화하는 것

-대표적인 방법으로는 이동평균과 지수평활법이 있다. 

이동평균을 이용한 스무딩
지수평활법을 이용한 스무딩

-데이터가 긴 시간 동안 변하지 않은 경우에는 이동평균을 사용하는 것이 적절할 수 있다

-데이터가 짧은 시간 동안 빠르게 변화하거나 최신 정보에 더 관심이 있는 경우에는 지수평활법을 사용하는 것이 적절할 수 있다.

 


트랜드

시계열 데이터에서 장기적으로 증가하거나 감소하는 패턴으로 데이터의 추세를 보여주며 데이터 측성 파악에 도움

1. 상향 트랜드 : 데이터가 시간에 지남에 따라 증가하는 경향

2. 하향 트랜드 : 데이터가 시간에 지남에 따라 감소하는 경향

3. 수평 트랜드 : 데이터가 시간에 지남에도 변함없는 경향

 

파란색은 오리지널 데이터, 주황선은 트랜드를 나타낸다.보면 일주일 간격으로 동일한 패턴이 나타나는 걸 알 수 있다.


이상치 처리의 한계와 제약 사항

-이상치 정의의 주관성 : 이상치는 상황에 따라 다르게 정의될 수 있으며 이는 주관적인 판단을 따를 수 있다

-이상치 감지의 어려움 : 드물거나 예상치 못한 패턴을 가지는 이상치는 감지가 어렵다

-이상치 처리의 영향 : 이상치를 제거하거나 보정하는 과정은 데이터의 특성 변경 가능하여 결과 왜곡 가능

 


정규화와 변환

 

정규화 변환의 필요성

1. 데이터 스케일 조정 : 시계열 데이터는 다양한 크기와 범위를 가지고 있는데 이런 스케일 차이는 모델링이나 분석에 어려움을 주니 정규화 필요

2. 정규 분포 가정 : 많은 시계열 분석 및 예측 모델은 데이터가 정규분포를 따른다고 가정, 정규화화 변환을 통해 데이터를 정규 분포에 가깝게 변환하연 모델의 가정을 만족시킨다

3. 이상치 처리 : 이상치는 시계열 데이터 분석에서 중요한 문제, 정규화와 변환을 사용하여 이상치를 탐지하고 처리

4. 시계열 패턴 강조: 정규화와 변환은 시계열 데이터의 패턴을 강조하는데 사용

5. 모델 안정성 향상: 데이터가 안정된 상태여야만 정확한 예측하는 일부 시계열 데이터 모델이 있기 때문

 

주요 정규화와 변환 방법

1. 최소-최대 정규화( 데이터 값을 최소값과 최대값 사이의 범위로 변환, 일반적으로 0-1사이로)

2. z-점수 정규화(데이터 평균은 0, 표준편차는 1로 조정)

3. 로그 변환: 데이터에 로그함수 적용하여 비선형적 패턴을 선형으로 변형

4. 차분 : 현재 관측값과 이전 관측값 간의 차이를 계산하여 추세나 계절성을 제거, 데이터의 패턴에 집중

5. 박스-콕스 변환: 양수인 데이터의 정규화를 위해 사용되는 변환 방법

 

 


최소-최대 정규화의 과정

1. 데이터의 최소값과 최대값 계산

2. 각 데이터 포인트에 대해 위의 수식을 적용하여 정규화된 값 계산

3. 계산된 정규화된 값은 원본 데이터의 범위인 0-1사이에 위치(=표준화)

 

표준화 수식과 계산 방법

1. 데이터의 평균(mean) 계산

2. 데이터의 표준편차 계산(std)

3. 각데이터의 포인트에서 평균을 빼고 그 결과를 표준편차로 나누어 표준화된 값 계산

 

로그변환 

데이터의 스케일을 조정하고 분포를 변환하기 위해 로그 함수를 적용하는 변환 방법 , 주로 금융 데이터, 경제 데이터, 자연 현상 등에서 사용.데이터의 분포를 정규 분포에 가깝게 만들어주어 선형 모델의 가정을 충족시키는 데 도움을 준다. 또 로그 변환은 양수인 값에만 적용이 가능하며 0이나 음수는 불가능하다

 

차분 

차분은 시계열 데이터에서 현재 값과 이전 값 간의 차이를 계산하는 것

수식은 아래와 같다.

차분(시점t) = 데이터(시점t) -  데이터(시점 t-1)

시계열 데이터의 불규칙성을 제거하고 정상성을 가지는 시계열 데리터로 변환.

 

박스-콕스 변환 

데이터의 정규성을 개선하기 위해 사용되는 변환방법으로 양수인 데이터에서만 적용 가능하다.

적용 방법

1. 데이터가 양수인지 확인

2. lambda(변환된 데이터)값의 범위 지정, 여러 lambda 값에 대해 박스-콕스 변환 수행

3. 각각 변환된 데이터에 대해 정규성 검정 등을 통해 최적의 lambda 값 선택

4. 선택된 lambda 값을 사용하여 박스콕스 변환

 

정규화와 변환 방법 선택시 고려사항

1. 변수 간 상관 관계 

2. 목적과 분석 방법

 

데이터의 특성과 분석 목적에 따른 선택 가이드 제시

1. 데이터 분포의 형태

-정규분포 경우: 정규화나 표준화 적용

-비정규분포 경우: 로그 변환, 박스-콕스 변환 등 비선형 변환 고려

2. 스케일의 조정

3. 이상치 처리

4. 변수 간 상관 관계

-변수 간 상관관계가 높을 때 : 차분, 로그 변환

-트랜드나 계절성 있을 때 : 차분이나 로그 변환

5. 분석 목적

-선형 회귀 분석: 정규화나 표준화를 사용하여 변수 간 관계 분석

-시계열 분석: 차분, 로그변환을 활용한 시계열 패턴 분석

6. 결과 해석:

-정규화나 표준화를 적용한 경우: 해석이 용이하고 변수 간 상대적 영향력 비교 

-비선형 변환 적용한 경우: 원래 데이터와의 관계를 해석할 때 주의

 

 

 

 

'machine_learning' 카테고리의 다른 글

통계 - 주성분 분석(PCA)  (0) 2023.06.01
통계 - 공분산과 상관행렬  (0) 2023.06.01
[통계] 시계열 데이터  (0) 2023.05.30
통계기반의 데이터분석(1)  (1) 2023.05.22
MLOps (2) Azure의 ML service  (0) 2023.05.08


시계열 분석이 중요한 이유
1. 예측 및 추세 분석
2. 의사 결정 지원
3. 이상 탐지
4. 자원 할당과 계획

시계열 활용
1. 금융 분석
2. 수요 예측
3. 자연재해 예측
4. 건강관리
5. 에너지 예측 및 최적화
6. 교통 및 운송 분석
7. 경제 분석
8. 환경 모니터링

주요 시계열 분석 기법
1. 이동평균
2. 지수평활법
3. ARIMA
4. SARIMA
5. Prophet
6. LSTM
7. VAR

이 외에도 선형 회귀, 의사결정나무, 랜덤포레스트 등 다양한 기법 사용하여 시계열 데이터에 활용

시계열 데이터의 구성 요소 : 추세
1. 상향추세 : 시간이 지남에 따라 데이터가 점진적으로 증가(긍정)
2. 하향추세: 시간이 지남에 따라 데이터가 점진적으로 감소
3. 평평한 추세: 큰 변동이 없을 때

 

시계열 데이터의 몇가지 특징

1. 시간 의존성
2. 계절성
3. 추세

결측치는 시계열 데이터에서 누락되었거나 기록되지 않은 것으로 데이터 분석과 예측에 부정적인 영향을 미칠 수 있도 모델의 퀄리티를 하락 시킨다.그래서 결측치 처리를 해주어야 한다.

결측치 처리해야하는 이유

1. 데이터 왜곡 방지
2. 예측 정확도 향상
3. 유의미한 데이터 분석 

이를 위해 데이터를 예측 모델에 적합하게 변형하거나 제거해줘야 한다.

결측치 확인 방법
1. 데이터셋 요약 정보 확인 info()나 describe 메서드 이용하여 결측치 확인
2. 시각화 : 히트맵이나 누락 데이터 플롯 사용, 흰색 또는 다른 색상의 데이터 확인
3. 조건식: pandas의 isnull() 또는 isna() 메서드 이용, 또 마이너스 값도 찾을 수 있다.
4. 결측차 개수 확인 isnull().sum()메서드 사용하여 각열의 결측치 개수 확인

 

결측치의 빈도 및 패턴 분석방법
결측치의 빈도 및 패턴 분석하는 것은 결측치를 어떻게 처리할지 전략을 세울 때 필요하다.
그러나 패턴을 갖고 있는 경우는 드물며 갖고 있다면 특정 기간에 대한 패턴이 나타나는 경우가 많다->이 경우 그 기간만 빼고 작업

1. 결측치 개수 확인
2. 결측치의 위치 확인
3. 시각화
4. 시계열 분석 

 

시계열 데이터 전저치 방법 1. 결측치 삭제
장점
1. 간단하고 직관적으로 결측치 처리
2. 시계열 데이터 특성 유지하며 결측치 삭제
3. 시계열 데이터에서는 시간적 연속성이 중요하므로 시간적 흐름 유지할 수 있다는 장점

단점
1. 데이터 손실
2. 결측치가 많으면 데이터셋의 크기가 크게 축소
3. 해당 시점의 데이터 패턴이나 특성 파악 불가

결측치가 적거나 다른 변수와 상관관계가 적을 때만 사용하는 게 좋은 방법

 

시계열 데이터 전처리 방법 2.선형보간

선형보간 원리
1. 결측치 앞과 뒤에 있는 유효한 데이터 포인트 찾는다
2. 해당 유효한 데이터 포인트의 값과 위치를 사용하여 둘 사이에 값 채워넣는다

결측치 앞뒤 데이터의 경향성을 이용하여 대체하기 때문에 해당 데이터의 추세와 패턴을 잘 따라가지만 선형적인 방법에서만 사용할 수 있다.

 

주로 사용되는 세 가지 보간법
1. 선형 보간 : 주어진 두 점을 직선으로 연결
주로 시계열에서 간단하고 빠른 결측치 보완이 필요할 때 사용(예시 : 온도)

2. 스플라인 보간 : 주어진 데이터를 부드러운 곡선으로 연결
주로 데이터 셋이 크고 곡석의 특징을 정확하게 파악해야할 때 사용(예시: 경제 지표)

3. 최근접 이웃 보간 : 결측치를 가장 가까운 이웃의 값으로 채운다
주로 이산적인 데이터나 이상치에 민감하지 않을 때 사용한다.(예시: 추세나 변동성 파악)
        
각각의 보간법은 데이터의 특성과 분석 목적에 따라 선택되어야 한다

 

결측치를 대처하는 또 다른 방법

1.평균값 대처
결측치를 해당 변수의 평균값으로 대처

 

효과:
1. 간편하다
2. 데이터의 중심 경향성 유지
3. 표본 편향 감소

한계:
1. 정보 손실
2. 변동성 왜곡
3. 상관관계 왜곡

 

2. ARIMA 모델을 사용한 결측치 처리

 

시계열 모델을 사용한 결측지 예측과 대체에 대한 몇가지 주의
-결측치 예측 모델은 학습 데이터에 의존하므로, 예측 범위를 넘어선 시간대의 결측치에 대해서는 정확한 예측이 어렵습니다. 따라서, 모델을 적용할 시계열 데이터 범위를 신중하게 선택

- 결측치 예측 모델은 데이터의 패턴과 특성을 기반으로 예측하므로, 시계열 데이터에 시간적인 의존성이 존재해야 한다. 만약 데이터에 대한 시간적 의존성이 없는 경우 다른 대체 방법 고려

- 결측치 예측 모델의 성능은 예측 변수의 품질과 결측치의 분포에 따라 달라지니  예측 변수의 품질이 낮거나 결측치의 비율이 높을 경우 모델의 성능이 저하될 수 있다.

-결츨치 예측 모델은 예측 결과의 불확실성을 포함 할 수 있다.

-모델의 선택과 하이퍼파라미터 조정에 주의, 적절한 모델 선택과 모델 파라미터 튜닝을 통해 예측 성능을 향상

 

결측치 처리 전후 데이터 품질 평가 방법 소개

1. 결측치 비율 확인 

2. 기술 통계량 확인

3. 시각화

4. 예측 성능 평가

 

결측치 처리 과정에서 고려해야할 것

1. 결측치의 패턴 파악

2. 데이터의 특성 유지

3. 적절한 대처 방법 선택

 

결측치 처리 과정에서 고려해야 할 사항

1. 모델 선택과 평가 - 오버 피팅 반지하고 적절한 평가 지표 고르기

2. 전체 데이터 셋 고려

 

실제 응용 사례

금융: 주식 시장에서 결측된 가격 데이터를 처리하여 주가 예측 모델 구축

의료: 결측치 처리하여 질병 예측 모델이나 치료 효과 평가

고객 분석: 결측치 처리하여 고객 데이터에서 결측치 처리하여 활용

기상 예측: 결측치 처리하여 재난 대비나 농업에 활용

자동화 및 제조분야:  결측치 처리하여 이상 감지 고장 예측

'machine_learning' 카테고리의 다른 글

통계 - 공분산과 상관행렬  (0) 2023.06.01
[통계] 시계열 데이터-이상치  (0) 2023.05.31
통계기반의 데이터분석(1)  (1) 2023.05.22
MLOps (2) Azure의 ML service  (0) 2023.05.08
MLOps (1) Azure의 ML service  (0) 2023.05.04

아나콘다 :

-아나콘다는 머신러닝이나 데이터 분석 등에 사용하는 여러가지 패키지가 기본적으로 포함되어있는 파이 썬 배포판

-분야를 파이썬으로 접근하고자 할 때 세팅이 매우 간단

-또한, 파이썬 가상 환경을 구축하는데도 유용

-내부적으로 conda라는 환경/패키지 관리자가 존재하며 이 conda를 통해 패키지를 설치하거나 가상 환경을 관리

-하나의 가상 공간을 만들어서 버전별로 만들어져 있어서 버전관리에 용이

 

아나콘다를 설치 후 프롬프트를 열 때는 무조건'관리자 권한'으로 열어줄 것


 

1. 가상환경 만들고 들어가기

# 가상 환경 만들기
conda create -n AI python=3.8   # 여기서 AI는 원하는 대로 환경명을 지어주면 된다

# 가상환경 접속
conda activate AI

2. 가상환경에 주피터 노트북 설치

# 생성된 가상환경으로 접속하는 명령어
conda activate AI 

# 가상환경에 jupyter notebook 설치
pip install jupyter notebook 
pip install ipykernel

# 가상환경에 kernel 연결
python –m ipykernel install -–user -–name 가상환경명 –-display-name 가상환경명

python –m ipykernel install -–user -–name AI –-display-name AI

3. 주피터 노트북 접속 - 특정 폴더 만들고 그 폴더 안으로 경로변경(cd) 후 해줘라

jupyter notebook

#나오는 주소 들어가기

 

 

 

주피터 노트북에서 실습 끝나면 셧다운 해주기

 


 

평균과 표준편차는 알아둬라

 

1. 정규분포는 중심을 기준으로 양쪽으로 대칭되는 분포인 종모양 분포이다.

2. 내가 히스토그램으로 시각화한 데이터가 종모양이면 정규분포인 것

3. 정규분포에서는 평균과 표준편차가 아주 중요하다


# 연속형 데이터 분석 시 고려해야 할 사항 (분포, 통계 지표 등)

 

• 중심 경향성: 연속형 데이터의 중심 경향성을 파악하는 것은 매우 중요합니다.

이를 위해 대표적으로 평균(mean), 중앙값(median), 최빈값(mode)을 계산할 수 있습니다.

이 때, 데이터의 분포가 비대칭적 이면 평균보다 중앙값이나 최빈값이 더 적합한 경우가 있습니다

 

평균: 데이터 값 다 합쳐서 개수로 나눈 값

중앙값: 크기순서대로 정렬했을 때 데이터 가운데 위치한 값

최빈값: 데이터에서 등장 가장 자주하는 값

 


연속형 데이터 분석 시 고려해야 할 사항 (분포, 통계 지표 등)

 

• 산포도: 연속형 데이터의 산포도를 파악하는 것은 중요합니다. 대표적으로 분산(variance), 표준편차(s tandard deviation), 범위(range), 사분위간 범위(interquartile range) 등을 계산할 수 있습니다, 그래프가 얼마나 퍼져있는가

 

-산포도가 너무 높은 데이터세트로 학습시키면 특정 경향에서만 테스트 잘되는 모델이 생길 수도 있다.

 

 


이상치 : 대부분의 데이터가 모여있는 데이터들 밖으로 극단적인 값으로 나타난 데이터로 제거해주어야 함, 0으로 바꾸거나 제외해주거나 삭제해줄 수 있다. 보통은 0로 바꿔준다.

 

박스플롯을 통한 실습

상자 두께가 얕고 위아래 막대에 값이 많을 수록 중앙에 값이 잘 모여있다는 뜻


상관관계 : 연속형 데이터 간의 상관관계를 파악, 상관관계는 두변수간의 관련성을 -1~1로 표현, 값이 0이면 상관관계가 없다는 것. 1일수록(같이 같이 올라가면) 상관관계가 있으며(맑은 날 우산 판매량->비가 안올 때 우산 판매량 훅 떨어짐) -1이면 음의 상관관계가 있는 것.


데이터의 종류

 

1. 이산형 데이터 : 정수형 데이터, 동전던지기 처럼 확률이나 연속되지 않은 데이터. 가능한 값이 한정되어있음

2. 데이터

 


 

+ Recent posts