머신러닝 8

정규화 vs 표준화

1. Feature Scaling사용되는 피처들이 모두 비슷한 영향력을 행사하도록 값을 변환해주는 방법임.스케일링을 하지 않으면 중요한 특성임에도 다른 특성에 가중치를 주게됨→ 피처의 스케일이 심하게 차이가 나는 경우 값이 큰 피처가 더 중요하게 여겨질 수 있기 때문더보기[피쳐 스케일링에 영향을 받는 알고리즘들]1. 경사하강법 기반의 알고리즘Linear regression, Logistic Regression, Neural Network 등경사하강법에서 x값은 경사하강법의 단계의 크기에 큰 영향을 미치므로, 경사 하강이 최소값으로 이동하고, 하강 단계가 모든 특징에 대해 동일한 속도로 업데이트 되도록 하기 위해 피처 스케일링이 필요함. 2. 거리 기반 알고리즘KNN, K-means, SVMDistance..

SHAP(Shapley Additive exPlanations) 총정리

1. SHAP SHAP(Shapley Additive exPlanations)머신러닝 모델의 예측 결과를 해석하기 위한 방법론모델과 상관없이 전체 데이터에서의 변수 중요도(Global explainer)와 개별 예측값에 대한 각 변수들의 영향력(Local explainer)을 제공⇒ Shapley Value라는 개념을 기반으로 하며, 협력적 게임 이론에 근거한 수학적 개념2. Shapley Value2.1 계산식$\phi_{i}=\frac{1}{|N|!}\sum_{S \subset N-\{i\}}|S|!(|N|-|S|-1)!\,[v(S\cup\{i\})-v(S)]$$\phi_{i}$: 특정 변수의 Shapley Value$i$: 관심 있는 변수 집합$S$: 관심 변수가 제외된 변수 부분 집합$N$: 전체..

[프로젝트] 보험 사기 예측 모델

이 프로젝트는 고객 데이터 분석론 수업에서 기말 프로젝트로 개인별로 진행하게 되었다.고객 데이터 분석론 수업을 실제 대기업에서 계셨던 교수님이 진행하셔서 실제 기업이 데이터사이언티스트에게 원하는 방향을 잡는데 도움을 많이 주셨고, 모델 중심적인 사고만 하던 내 문제점들을 많이 깨달았다.이 수업을 들으면서 내가 만든 모델을 사용하게 하기 위해 어떻게 통계를 모르는 사람들에게도 설득할 수 있을지 고민을 많이 해보았다.나는 보험 사기 예측 모델을 구축하는 것을 목표로 진행하였고, 데이터는 2016 빅콘테스트에서 제공한 한화생명의 데이터를 사용하였다.발표에 활용한 피피티를 가지고 진행한 프로젝트를 설명할 예정이다.1. Introduction우선 보험사기의 정의에 대해 알아보았다. 보험사기방지 특별법에서 보험사기..

[프로젝트] 여러가지 변수에 따른 개인 별 의료비 예측

이번 회귀분석 강의에서는 정말 많은 것을 배웠다. 통계에 대한 흥미를 느끼게 해준 과목이며, 통계에 대한 이해도를 많이 높이는 과목이었다. 강의 하나에 시험,퀴즈,에세이,분석 팀플까지,,, 정말 이 과목에 시간을 많이 썼다.. 솔직히 힘들었지만 많은 걸 남길 수 있어 뿌듯하다 ! 이번 회귀분석 팀플에서는 나를 제외하고 다른 팀원들이 모두 코딩 경험. 분석 경험이 많지 않았다. 심지어 나도 우리과에서 코딩 실력이 좋다고 보기 어려운 사람이었다.. 막막했지만 무조건 내가 이끌고 가야겠다는 생각을 했던 것 같다. 다들 경험이 적다보니 쉬운 데이터로 분석 경험을 하는 것이 좋겠다고 판단 내려서 쉬운 데이터를 가지고 회귀분석 시간에 배우는 전반적인 내용을 모두 담아내보자고 생각했다. 1. Abstract 2021..

[머신러닝] 12주차. 군집화

(군집화) 데이터 포인트들을 별개의 군집으로 그룹화 하는 것. 유사성이 높은 데이터들을 동일한 그룹으로 분류하고 서로 다른 군집들이 상이성을 가지도록 그룹화 해준다 (군집화 활용 분야) ž 고객,마켓,브랜드,사회 경제 활동 세분화 ž Image 검출,세분화,트랙킹 ž 이상 검출. (군집화 알고리즘) ž K-Means : centroid 기반. 비즈니스 세분화 영역에서 가장 많이 사용 ž Mean Shift : centroid 기반. 조금 다른 방식으로 작동 ž Gaussian Mixture Model: 어느 정규분포에 속하는지에 따라 클러스터링 ž DBSCAN : 데이터의 밀도에 따라 클러스터링. (K-Means Clustering) (K-Means의 장점과 단점) 장점 ž 일반적인 군집화에서 가장 많이..

[머신러닝] 8주차. 스태킹

(Basic Stacking) 많은 부분이 앙상블과 유사 다른점: 기반 모델들이 예측한 값들을 Stacking 형태로 만들어서 메타 모델이 이를 학습하고 예측 -> 모델 개수만큼 쌓이게 된다. 최종적인 메타모델 (교차 검증 세트 기반의 스태킹) 오버피팅 해결 똑같은 것을 개별 모델 #i 에 적용 각각 모델에서 생성된 학습,테스트 데이터를 쌓아서 스태킹 모델 만들기. 학습,테스트를 모두 스태킹한 데이터는 메타 모델의 학습,테스트 데이터 평가는 원본 테스트 레이블로 성능 평가

[프로젝트] 음식 선호도에 기반한 당뇨병 환자의 식단 제공 프로그램 part. 2

결과랑 코드는 꼭 올려야겠다고 생각해서 part 2를 드디어 쓰게 되었다..! 이 프로젝트를 할 때는 내가 실력이 많이 부족해서 거의 버스를 넘어선 비행기를 탔지만... 이것을 토대로 프로젝트 진행 방법도 알게 되고, 이후에 올라올 예정인 회귀분석 프로젝트에서는 내가 버스를 태워줬다. 확실히 몰라도 우선 부딪혀 보는 것도 좋은 것 같다. 힘들겠지만 나를 정말 많이 성장시킬 수 있는 것 같다. 힘들고 안된다고 찡찡거리지 말고 우선 해보자! 3. Result 본 연구에서는 음식과 혈당부하지수 데이터를 이용하여 음식과 혈당부하지수와의 관계와 혈당부하지수와 탄수화물 함유량이 높은 음식과의 관계를 알아보았다. 또한 각 사람의 음식에 대한 선호도를 토대로 당뇨병 환자들이 적용할 수 있는 식단(혈당부하지수와 칼로리,..

[머신러닝] 5주차. 앙상블

앙상블의 유형 -보팅 -배깅: 랜덤포레스트 -부스팅: Gradient Boosting. XGBoost -스태킹 앙상블의 특징 단일 모델의 약점을 다수 모델들을 결합하여 보완. 결정 트리 알고리즘을 기반 알고리즘으로 적용함. (결정트리: 약한 학습기, 앙상블을 통해 많은 여러 개의 약한 학습기를 결합해 성능을 향상시킨다.) 결정 트리의 단점인 과적합을 많은 분류기를 결합해 보완하고 장점인 직관적인 분류 기준은 강화됨. 보팅과 배깅: 여러 개의 분류기가 투표를 통해 최적 예측결과를 결정하는 방식. -보팅: 서로 다른 알고리즘을 가진 분류기를 결합하는 것. -배깅: 각각의 분류기가 모두 같은 유형의 알고리즘 기반이지만, 데이터 샘플링을 서로 다르게 가져가면서 학습을 수행해 보팅을 수행하는 것. 보팅의 유형 -..