시계열 분석이 중요한 이유
1. 예측 및 추세 분석
2. 의사 결정 지원
3. 이상 탐지
4. 자원 할당과 계획

시계열 활용
1. 금융 분석
2. 수요 예측
3. 자연재해 예측
4. 건강관리
5. 에너지 예측 및 최적화
6. 교통 및 운송 분석
7. 경제 분석
8. 환경 모니터링

주요 시계열 분석 기법
1. 이동평균
2. 지수평활법
3. ARIMA
4. SARIMA
5. Prophet
6. LSTM
7. VAR

이 외에도 선형 회귀, 의사결정나무, 랜덤포레스트 등 다양한 기법 사용하여 시계열 데이터에 활용

시계열 데이터의 구성 요소 : 추세
1. 상향추세 : 시간이 지남에 따라 데이터가 점진적으로 증가(긍정)
2. 하향추세: 시간이 지남에 따라 데이터가 점진적으로 감소
3. 평평한 추세: 큰 변동이 없을 때

 

시계열 데이터의 몇가지 특징

1. 시간 의존성
2. 계절성
3. 추세

결측치는 시계열 데이터에서 누락되었거나 기록되지 않은 것으로 데이터 분석과 예측에 부정적인 영향을 미칠 수 있도 모델의 퀄리티를 하락 시킨다.그래서 결측치 처리를 해주어야 한다.

결측치 처리해야하는 이유

1. 데이터 왜곡 방지
2. 예측 정확도 향상
3. 유의미한 데이터 분석 

이를 위해 데이터를 예측 모델에 적합하게 변형하거나 제거해줘야 한다.

결측치 확인 방법
1. 데이터셋 요약 정보 확인 info()나 describe 메서드 이용하여 결측치 확인
2. 시각화 : 히트맵이나 누락 데이터 플롯 사용, 흰색 또는 다른 색상의 데이터 확인
3. 조건식: pandas의 isnull() 또는 isna() 메서드 이용, 또 마이너스 값도 찾을 수 있다.
4. 결측차 개수 확인 isnull().sum()메서드 사용하여 각열의 결측치 개수 확인

 

결측치의 빈도 및 패턴 분석방법
결측치의 빈도 및 패턴 분석하는 것은 결측치를 어떻게 처리할지 전략을 세울 때 필요하다.
그러나 패턴을 갖고 있는 경우는 드물며 갖고 있다면 특정 기간에 대한 패턴이 나타나는 경우가 많다->이 경우 그 기간만 빼고 작업

1. 결측치 개수 확인
2. 결측치의 위치 확인
3. 시각화
4. 시계열 분석 

 

시계열 데이터 전저치 방법 1. 결측치 삭제
장점
1. 간단하고 직관적으로 결측치 처리
2. 시계열 데이터 특성 유지하며 결측치 삭제
3. 시계열 데이터에서는 시간적 연속성이 중요하므로 시간적 흐름 유지할 수 있다는 장점

단점
1. 데이터 손실
2. 결측치가 많으면 데이터셋의 크기가 크게 축소
3. 해당 시점의 데이터 패턴이나 특성 파악 불가

결측치가 적거나 다른 변수와 상관관계가 적을 때만 사용하는 게 좋은 방법

 

시계열 데이터 전처리 방법 2.선형보간

선형보간 원리
1. 결측치 앞과 뒤에 있는 유효한 데이터 포인트 찾는다
2. 해당 유효한 데이터 포인트의 값과 위치를 사용하여 둘 사이에 값 채워넣는다

결측치 앞뒤 데이터의 경향성을 이용하여 대체하기 때문에 해당 데이터의 추세와 패턴을 잘 따라가지만 선형적인 방법에서만 사용할 수 있다.

 

주로 사용되는 세 가지 보간법
1. 선형 보간 : 주어진 두 점을 직선으로 연결
주로 시계열에서 간단하고 빠른 결측치 보완이 필요할 때 사용(예시 : 온도)

2. 스플라인 보간 : 주어진 데이터를 부드러운 곡선으로 연결
주로 데이터 셋이 크고 곡석의 특징을 정확하게 파악해야할 때 사용(예시: 경제 지표)

3. 최근접 이웃 보간 : 결측치를 가장 가까운 이웃의 값으로 채운다
주로 이산적인 데이터나 이상치에 민감하지 않을 때 사용한다.(예시: 추세나 변동성 파악)
        
각각의 보간법은 데이터의 특성과 분석 목적에 따라 선택되어야 한다

 

결측치를 대처하는 또 다른 방법

1.평균값 대처
결측치를 해당 변수의 평균값으로 대처

 

효과:
1. 간편하다
2. 데이터의 중심 경향성 유지
3. 표본 편향 감소

한계:
1. 정보 손실
2. 변동성 왜곡
3. 상관관계 왜곡

 

2. ARIMA 모델을 사용한 결측치 처리

 

시계열 모델을 사용한 결측지 예측과 대체에 대한 몇가지 주의
-결측치 예측 모델은 학습 데이터에 의존하므로, 예측 범위를 넘어선 시간대의 결측치에 대해서는 정확한 예측이 어렵습니다. 따라서, 모델을 적용할 시계열 데이터 범위를 신중하게 선택

- 결측치 예측 모델은 데이터의 패턴과 특성을 기반으로 예측하므로, 시계열 데이터에 시간적인 의존성이 존재해야 한다. 만약 데이터에 대한 시간적 의존성이 없는 경우 다른 대체 방법 고려

- 결측치 예측 모델의 성능은 예측 변수의 품질과 결측치의 분포에 따라 달라지니  예측 변수의 품질이 낮거나 결측치의 비율이 높을 경우 모델의 성능이 저하될 수 있다.

-결츨치 예측 모델은 예측 결과의 불확실성을 포함 할 수 있다.

-모델의 선택과 하이퍼파라미터 조정에 주의, 적절한 모델 선택과 모델 파라미터 튜닝을 통해 예측 성능을 향상

 

결측치 처리 전후 데이터 품질 평가 방법 소개

1. 결측치 비율 확인 

2. 기술 통계량 확인

3. 시각화

4. 예측 성능 평가

 

결측치 처리 과정에서 고려해야할 것

1. 결측치의 패턴 파악

2. 데이터의 특성 유지

3. 적절한 대처 방법 선택

 

결측치 처리 과정에서 고려해야 할 사항

1. 모델 선택과 평가 - 오버 피팅 반지하고 적절한 평가 지표 고르기

2. 전체 데이터 셋 고려

 

실제 응용 사례

금융: 주식 시장에서 결측된 가격 데이터를 처리하여 주가 예측 모델 구축

의료: 결측치 처리하여 질병 예측 모델이나 치료 효과 평가

고객 분석: 결측치 처리하여 고객 데이터에서 결측치 처리하여 활용

기상 예측: 결측치 처리하여 재난 대비나 농업에 활용

자동화 및 제조분야:  결측치 처리하여 이상 감지 고장 예측

'machine_learning' 카테고리의 다른 글

통계 - 공분산과 상관행렬  (0) 2023.06.01
[통계] 시계열 데이터-이상치  (0) 2023.05.31
통계기반의 데이터분석(1)  (1) 2023.05.22
MLOps (2) Azure의 ML service  (0) 2023.05.08
MLOps (1) Azure의 ML service  (0) 2023.05.04

+ Recent posts