데이터분석 2

정규화 vs 표준화

1. Feature Scaling사용되는 피처들이 모두 비슷한 영향력을 행사하도록 값을 변환해주는 방법임.스케일링을 하지 않으면 중요한 특성임에도 다른 특성에 가중치를 주게됨→ 피처의 스케일이 심하게 차이가 나는 경우 값이 큰 피처가 더 중요하게 여겨질 수 있기 때문더보기[피쳐 스케일링에 영향을 받는 알고리즘들]1. 경사하강법 기반의 알고리즘Linear regression, Logistic Regression, Neural Network 등경사하강법에서 x값은 경사하강법의 단계의 크기에 큰 영향을 미치므로, 경사 하강이 최소값으로 이동하고, 하강 단계가 모든 특징에 대해 동일한 속도로 업데이트 되도록 하기 위해 피처 스케일링이 필요함. 2. 거리 기반 알고리즘KNN, K-means, SVMDistance..

SHAP(Shapley Additive exPlanations) 총정리

1. SHAP SHAP(Shapley Additive exPlanations)머신러닝 모델의 예측 결과를 해석하기 위한 방법론모델과 상관없이 전체 데이터에서의 변수 중요도(Global explainer)와 개별 예측값에 대한 각 변수들의 영향력(Local explainer)을 제공⇒ Shapley Value라는 개념을 기반으로 하며, 협력적 게임 이론에 근거한 수학적 개념2. Shapley Value2.1 계산식$\phi_{i}=\frac{1}{|N|!}\sum_{S \subset N-\{i\}}|S|!(|N|-|S|-1)!\,[v(S\cup\{i\})-v(S)]$$\phi_{i}$: 특정 변수의 Shapley Value$i$: 관심 있는 변수 집합$S$: 관심 변수가 제외된 변수 부분 집합$N$: 전체..