사이킷런 3

[머신러닝] 12주차. 군집화

(군집화) 데이터 포인트들을 별개의 군집으로 그룹화 하는 것. 유사성이 높은 데이터들을 동일한 그룹으로 분류하고 서로 다른 군집들이 상이성을 가지도록 그룹화 해준다 (군집화 활용 분야) ž 고객,마켓,브랜드,사회 경제 활동 세분화 ž Image 검출,세분화,트랙킹 ž 이상 검출. (군집화 알고리즘) ž K-Means : centroid 기반. 비즈니스 세분화 영역에서 가장 많이 사용 ž Mean Shift : centroid 기반. 조금 다른 방식으로 작동 ž Gaussian Mixture Model: 어느 정규분포에 속하는지에 따라 클러스터링 ž DBSCAN : 데이터의 밀도에 따라 클러스터링. (K-Means Clustering) (K-Means의 장점과 단점) 장점 ž 일반적인 군집화에서 가장 많이..

[머신러닝] 11주차.차원 축소

(차원의 저주) 차원이 커질수록 데이터들간의 밀집도가 떨어진다. 데이터 희소화. 피처가 많을 경우 다중 공선성 문제로 모델 예측 성능 저하 가능성. (차원 축소의 장점) 학습 데이터 크기 줄여 학습 시간 절약. 모델 성능 향상에 기여할수도 다차원 데이터를 차원 축소를 통해 시각적으로 쉽게 데이터 패턴 인지 (피처 선택과 피처 추출) 차원 축소 – 피처 선택 / 피처 추출 피처 선택: 불필요한 피처는 아예 제거. 주요 피처만 선택 피처 추출: 저차원의 중요 피처로 압축해서 추출. 기존의 피처를 반영해 압축된 것이지만 새로운 피처로 추출하는 것. (피처 추출) 기존 피처를 단순 압축이 아닌, 피처를 함축적으로 더 잘 설명할 수 있는 또 다른 공간으로 매핑 => 잠재되어 있던 걸 발견 (차원축소의 의미) 단순..

[머신러닝] 9주차.선형 회귀

(사이킷런 LinearRegression) 잔차제곱합을 최소화하는 OLS 추정 방식으로 구현된 클래스. 규제 없음. fit() 메서드로 X,y 배열 입력 받으면 회귀계수를 coef_ 속성에 저장. 스케일의 영향을 받기 때문에 스케일링 해주는게 좋지만 입력 파라미터를 통해 하는 것보단 따로 전처리 과정에서 스케일링 하는 것이 좋다. (선형 회귀의 다중 공선성 문제) 선형회귀는 입력 피처의 독립성에 많은 영향을 받음. (독립이라는 가정, 그러나 실제로 독립 어렵) 피처 간의 상관관계가 매우 높으면 분산이 매우 커져서 오류에 민감해진다. 우선 적용 후 성능을 평가해보고 규제 선형, 회귀트리 등의 방법을 사용해보면 된다. (회귀 평가 지표) MAE : 실제 값과 예측 값의 차이를 절댓값으로 변환해 평균. MSE..