1. 데이터 수집
2. 데이터 정제 : 원천 데이터 검수, 불량 데이터 제거 및 수정
3. 데이터 가공 : 레이블링 및 태깅, 데이블링 데이터 검수
4. 데이터셋 검증 : 품질과 유용성 검증
데이터 구축 기획
(1) 비즈니스 목표 설정
(2) 데이터 수집 계획
(3) 데이터 전처리 계획
(4) 데이터 저장 계획(데이터 베이스나 데이터 웨어하우스등 저장소 결정, 저장 방식과 구조등을 포함한 저장 계획을 수립)
데이터 저장할 때 날짜 기입하면 좋다
라벨은 80개 이하로 해야 적절
바운딩 박스
- 해당 물체에 거의 딱맞게 치는게 베스트
- 앞에 물체를 가리는 게 있다면 제외하고 잡기
- 이상한 곳에 박스 쳐서 태깅 이상하게 되면 삭제
- 태깅 대상이 있는데 무시한 경우
인체 키포인트 라벨링
- 몸통~하체는 가려쳐도 추정해서 라벨링
- 코는 가려지면 라벨링x
-팔꿈치 손목이 가려지면 라벵링 하지 않는다
- 장애물에 의해 관절 가려지면 상체의 경우 모두 추정하여 라벨링
복합 비정형 데이터를 위한 백터 데이터베이스
-벡터 기반 데이터를 저장, 관리, 검색하기 위한 데이터베이스 시스템
-이미지 검색 엔진은 바로 백터 데이터를 이용한 것
-벡터 데이터는 숫자의 배열 또는 값으로 표현되며, 공간상의 위치나 특성을 나타내는 데이터
-벡터 데이터베이스는 벡터의 고차원적인 특성을 고려하여 데이터를 구성하고, 효율적인 유사도 검색 알고리즘을 제공. 이를 통해 벡터 간의 거리, 유사도, 클러스터링 등을 계산하여 데이터를 검색하고 분석
'machine_learning' 카테고리의 다른 글
| 데이터셋과 데이터로더, Pytorch 설치 (1) | 2023.06.16 |
|---|---|
| 데이터 수집과 전처리2 (0) | 2023.06.14 |
| 데이터 수집과 전처리 (0) | 2023.06.14 |
| 통계 - 인자분석 (0) | 2023.06.02 |
| 통계 - 주성분 분석(PCA) (0) | 2023.06.01 |