아나콘다 :
-아나콘다는 머신러닝이나 데이터 분석 등에 사용하는 여러가지 패키지가 기본적으로 포함되어있는 파이 썬 배포판
-분야를 파이썬으로 접근하고자 할 때 세팅이 매우 간단
-또한, 파이썬 가상 환경을 구축하는데도 유용
-내부적으로 conda라는 환경/패키지 관리자가 존재하며 이 conda를 통해 패키지를 설치하거나 가상 환경을 관리
-하나의 가상 공간을 만들어서 버전별로 만들어져 있어서 버전관리에 용이
아나콘다를 설치 후 프롬프트를 열 때는 무조건'관리자 권한'으로 열어줄 것
1. 가상환경 만들고 들어가기
# 가상 환경 만들기
conda create -n AI python=3.8 # 여기서 AI는 원하는 대로 환경명을 지어주면 된다
# 가상환경 접속
conda activate AI
2. 가상환경에 주피터 노트북 설치
# 생성된 가상환경으로 접속하는 명령어
conda activate AI
# 가상환경에 jupyter notebook 설치
pip install jupyter notebook
pip install ipykernel
# 가상환경에 kernel 연결
python –m ipykernel install -–user -–name 가상환경명 –-display-name 가상환경명
python –m ipykernel install -–user -–name AI –-display-name AI
3. 주피터 노트북 접속 - 특정 폴더 만들고 그 폴더 안으로 경로변경(cd) 후 해줘라
jupyter notebook
#나오는 주소 들어가기
주피터 노트북에서 실습 끝나면 셧다운 해주기

평균과 표준편차는 알아둬라
1. 정규분포는 중심을 기준으로 양쪽으로 대칭되는 분포인 종모양 분포이다.
2. 내가 히스토그램으로 시각화한 데이터가 종모양이면 정규분포인 것
3. 정규분포에서는 평균과 표준편차가 아주 중요하다
# 연속형 데이터 분석 시 고려해야 할 사항 (분포, 통계 지표 등)
• 중심 경향성: 연속형 데이터의 중심 경향성을 파악하는 것은 매우 중요합니다.
이를 위해 대표적으로 평균(mean), 중앙값(median), 최빈값(mode)을 계산할 수 있습니다.
이 때, 데이터의 분포가 비대칭적 이면 평균보다 중앙값이나 최빈값이 더 적합한 경우가 있습니다
평균: 데이터 값 다 합쳐서 개수로 나눈 값
중앙값: 크기순서대로 정렬했을 때 데이터 가운데 위치한 값
최빈값: 데이터에서 등장 가장 자주하는 값
연속형 데이터 분석 시 고려해야 할 사항 (분포, 통계 지표 등)
• 산포도: 연속형 데이터의 산포도를 파악하는 것은 중요합니다. 대표적으로 분산(variance), 표준편차(s tandard deviation), 범위(range), 사분위간 범위(interquartile range) 등을 계산할 수 있습니다, 그래프가 얼마나 퍼져있는가
-산포도가 너무 높은 데이터세트로 학습시키면 특정 경향에서만 테스트 잘되는 모델이 생길 수도 있다.
이상치 : 대부분의 데이터가 모여있는 데이터들 밖으로 극단적인 값으로 나타난 데이터로 제거해주어야 함, 0으로 바꾸거나 제외해주거나 삭제해줄 수 있다. 보통은 0로 바꿔준다.
박스플롯을 통한 실습
상자 두께가 얕고 위아래 막대에 값이 많을 수록 중앙에 값이 잘 모여있다는 뜻
상관관계 : 연속형 데이터 간의 상관관계를 파악, 상관관계는 두변수간의 관련성을 -1~1로 표현, 값이 0이면 상관관계가 없다는 것. 1일수록(같이 같이 올라가면) 상관관계가 있으며(맑은 날 우산 판매량->비가 안올 때 우산 판매량 훅 떨어짐) -1이면 음의 상관관계가 있는 것.
데이터의 종류
1. 이산형 데이터 : 정수형 데이터, 동전던지기 처럼 확률이나 연속되지 않은 데이터. 가능한 값이 한정되어있음
2. 데이터
'machine_learning' 카테고리의 다른 글
| [통계] 시계열 데이터-이상치 (0) | 2023.05.31 |
|---|---|
| [통계] 시계열 데이터 (0) | 2023.05.30 |
| MLOps (2) Azure의 ML service (0) | 2023.05.08 |
| MLOps (1) Azure의 ML service (0) | 2023.05.04 |
| 비지도 학습 Clustering(3) - Hierarchical Clustering (0) | 2023.05.01 |