통계기반의 데이터분석(1)

jinny95 2023. 5. 22. 08:56

2023. 5. 22. 08:56

아나콘다 :

-아나콘다는 머신러닝이나 데이터 분석 등에 사용하는 여러가지 패키지가 기본적으로 포함되어있는 파이 썬 배포판

-분야를 파이썬으로 접근하고자 할 때 세팅이 매우 간단

-또한, 파이썬 가상 환경을 구축하는데도 유용

-내부적으로 conda라는 환경/패키지 관리자가 존재하며 이 conda를 통해 패키지를 설치하거나 가상 환경을 관리

-하나의 가상 공간을 만들어서 버전별로 만들어져 있어서 버전관리에 용이

아나콘다를 설치 후 프롬프트를 열 때는 무조건'관리자 권한'으로 열어줄 것

1. 가상환경 만들고 들어가기

# 가상 환경 만들기
conda create -n AI python=3.8   # 여기서 AI는 원하는 대로 환경명을 지어주면 된다

# 가상환경 접속
conda activate AI

2. 가상환경에 주피터 노트북 설치

# 생성된 가상환경으로 접속하는 명령어
conda activate AI 

# 가상환경에 jupyter notebook 설치
pip install jupyter notebook 
pip install ipykernel

# 가상환경에 kernel 연결
python –m ipykernel install -–user -–name 가상환경명 –-display-name 가상환경명

python –m ipykernel install -–user -–name AI –-display-name AI

3. 주피터 노트북 접속 - 특정 폴더 만들고 그 폴더 안으로 경로변경(cd) 후 해줘라

jupyter notebook

#나오는 주소 들어가기

주피터 노트북에서 실습 끝나면 셧다운 해주기

평균과 표준편차는 알아둬라

1. 정규분포는 중심을 기준으로 양쪽으로 대칭되는 분포인 종모양 분포이다.

2. 내가 히스토그램으로 시각화한 데이터가 종모양이면 정규분포인 것

3. 정규분포에서는 평균과 표준편차가 아주 중요하다

# 연속형 데이터 분석 시 고려해야 할 사항 (분포, 통계 지표 등)

• 중심 경향성: 연속형 데이터의 중심 경향성을 파악하는 것은 매우 중요합니다.

이를 위해 대표적으로 평균(mean), 중앙값(median), 최빈값(mode)을 계산할 수 있습니다.

이 때, 데이터의 분포가 비대칭적 이면 평균보다 중앙값이나 최빈값이 더 적합한 경우가 있습니다

평균: 데이터 값 다 합쳐서 개수로 나눈 값

중앙값: 크기순서대로 정렬했을 때 데이터 가운데 위치한 값

최빈값: 데이터에서 등장 가장 자주하는 값

연속형 데이터 분석 시 고려해야 할 사항 (분포, 통계 지표 등)

• 산포도: 연속형 데이터의 산포도를 파악하는 것은 중요합니다. 대표적으로 분산(variance), 표준편차(s tandard deviation), 범위(range), 사분위간 범위(interquartile range) 등을 계산할 수 있습니다, 그래프가 얼마나 퍼져있는가

-산포도가 너무 높은 데이터세트로 학습시키면 특정 경향에서만 테스트 잘되는 모델이 생길 수도 있다.

이상치 : 대부분의 데이터가 모여있는 데이터들 밖으로 극단적인 값으로 나타난 데이터로 제거해주어야 함, 0으로 바꾸거나 제외해주거나 삭제해줄 수 있다. 보통은 0로 바꿔준다.

박스플롯을 통한 실습

상자 두께가 얕고 위아래 막대에 값이 많을 수록 중앙에 값이 잘 모여있다는 뜻

상관관계 : 연속형 데이터 간의 상관관계를 파악, 상관관계는 두변수간의 관련성을 -1~1로 표현, 값이 0이면 상관관계가 없다는 것. 1일수록(같이 같이 올라가면) 상관관계가 있으며(맑은 날 우산 판매량->비가 안올 때 우산 판매량 훅 떨어짐) -1이면 음의 상관관계가 있는 것.

데이터의 종류

1. 이산형 데이터 : 정수형 데이터, 동전던지기 처럼 확률이나 연속되지 않은 데이터. 가능한 값이 한정되어있음

2. 데이터

'machine_learning' 카테고리의 다른 글

[통계] 시계열 데이터-이상치 (0)	2023.05.31
[통계] 시계열 데이터 (0)	2023.05.30
MLOps (2) Azure의 ML service (0)	2023.05.08
MLOps (1) Azure의 ML service (0)	2023.05.04
비지도 학습 Clustering(3) - Hierarchical Clustering (0)	2023.05.01

JINHEE's lab

통계기반의 데이터분석(1)

'machine_learning' 카테고리의 다른 글

+ Recent posts

티스토리툴바