전체 글 46

SHAP(Shapley Additive exPlanations) 총정리

1. SHAP SHAP(Shapley Additive exPlanations)머신러닝 모델의 예측 결과를 해석하기 위한 방법론모델과 상관없이 전체 데이터에서의 변수 중요도(Global explainer)와 개별 예측값에 대한 각 변수들의 영향력(Local explainer)을 제공⇒ Shapley Value라는 개념을 기반으로 하며, 협력적 게임 이론에 근거한 수학적 개념2. Shapley Value2.1 계산식$\phi_{i}=\frac{1}{|N|!}\sum_{S \subset N-\{i\}}|S|!(|N|-|S|-1)!\,[v(S\cup\{i\})-v(S)]$$\phi_{i}$: 특정 변수의 Shapley Value$i$: 관심 있는 변수 집합$S$: 관심 변수가 제외된 변수 부분 집합$N$: 전체..

pytorch gpu 설정 & autogluon gpu 연결 방법

진짜 오랜만에 글을 적어봅니다.최근 저는 여러 대회에서 높은 성능을 보였던 autogluon을 자주 사용하고 있었습니다.평상시에는 노트북으로 작업하다보니 gpu를 연결할 일이 없었는데요.이번에 회사에서 매장별 메뉴 판매량 예측 프로젝트를 진행하면서 gpu 연결이 필요하게 되었습니다. 이전에 pytorch gpu 연결 경험은 여러번 있어서 비슷한 방식으로 진행하면 될 것이라고 생각했는데 조금 고생했네요..ㅎㅎ모든 세팅까지 4-5시간 정도 걸린 것 같습니다,, 이 글을 보시는 분들은 시간 아끼시길 바라는 마음으로 작성합니다. pytorch gpu 연결과 관련한 자료들은 여러 글들이 많습니다. 이곳에는 제가 진행한 작업들만 남겨놓겠습니다.본인 gpu와 맞는 분이 작성한 글 그대로 따라하시면 편해..

[프로젝트] 이커머스 고객 세그먼트 분석 및 장바구니 기반 추천 시스템 개발

세종대 & 인하대 데이터사이언스학과 연합 학술제에서 최우수상을 수상하였습니다!수상한 프로젝트에서 좀 더 디벨롭하여 추가 활동까지 함께 작성해두었습니다데이터는 데이콘의 이커머스 데이터를 사용하였고, 되게 다양한 분석들이 있으니 그것도 참고하시면 좋을 듯 합니다관련 코드는 제 깃허브에 있으니 참고해주세요1. 분석 개요1.1. 배경트렌드 코리아 2023 도서에 따르면 평균 실종, 선제적 대응 기술이라는 키워드가 등장합니다.평균실종이란 평균이 사라지고 양극화가 심화된다는 말로, 개인주의성향이 강해짐에 따라서 초다극화된 시장이 트렌드가 된 현상선제적 대응 기술이란 고객이 불편함을 깨닫기도 전에 판매자가 먼저 고객의 불편함을 해결해주는 기술을 의미합니다.따라서 저희는 해당 트렌드에 맞게 고객들에게 필요한 시기에 맞..

[프로젝트] 당뇨병 환자 식단 최적화

처음 써보는 라이브러리에 정보도 거의 없어서 코딩하기 제일 어려웠던 프로젝트로 기억한다.코드 자체는 쉬운데 최적화 내용을 처음 접하고 cplex도 처음 써봐서 너무 어렵게 느껴졌던 것 같다.당장 결과를 얻어내기 위해 시간에 쫓기면서 하다보니 나도 보기 싫은 하드 코딩을 했다..이렇게 부족한 점이 많지만 적는 이유는 우선 cplex를 처음 접해봤고, 관련 정보가 너무 없기 때문에 정보 제공을 위함이다.이 프로젝트는 2학년 1학기에 진행했던 당뇨병 환자 식단 추천 프로그램과 주제는 같지만 문제를 풀어나가는 방향이 완전히 달라 기록하는 것에 의미가 있을 것 같다. 발표 PPT를 활용하여 내용을 간단하게 설명하겠다. 1. 주제 및 선정 이유당뇨병 환자의 만족도를 최대화 하는 식단을 구성하자는 것을 주제로 이 프..

[프로젝트] 보험 사기 예측 모델

이 프로젝트는 고객 데이터 분석론 수업에서 기말 프로젝트로 개인별로 진행하게 되었다.고객 데이터 분석론 수업을 실제 대기업에서 계셨던 교수님이 진행하셔서 실제 기업이 데이터사이언티스트에게 원하는 방향을 잡는데 도움을 많이 주셨고, 모델 중심적인 사고만 하던 내 문제점들을 많이 깨달았다.이 수업을 들으면서 내가 만든 모델을 사용하게 하기 위해 어떻게 통계를 모르는 사람들에게도 설득할 수 있을지 고민을 많이 해보았다.나는 보험 사기 예측 모델을 구축하는 것을 목표로 진행하였고, 데이터는 2016 빅콘테스트에서 제공한 한화생명의 데이터를 사용하였다.발표에 활용한 피피티를 가지고 진행한 프로젝트를 설명할 예정이다.1. Introduction우선 보험사기의 정의에 대해 알아보았다. 보험사기방지 특별법에서 보험사기..

[프로젝트] 서울시 공공자전거 대여소 수요량 예측

1. 목표 및 중요성  따릉이는 서울시의 친환경사업과 함께 시민들에게 이동수단을 제공하기 위해 2015년부터 현재까지 계속 이루어지고 있는 사업이다. 실제로 시민들은 가까운 거리를 가거나 출퇴근, 산책, 운동을 하는 등 여러 방면에서 따릉이를 이용하고 있다.서울시 공공자전거 따릉이의 회원 수는 350만명을 넘어섰다. 일 평균 이용 건수는 약 9만건에 다다랐다. 따릉이를 효율적으로 운영하기 위해서 직원들이 대여소의 실시간 거치율을 확인하고, 70%의 거치율을 유지하고자 노력한다. 하지만 무조건 거치율을 유지하는 것 보다는 따릉이 재분배 문제는 단순 거치율의 문제가 아닌 장소별, 시간대별 수요예측이 중요하다. 왜냐하면 출근시간이나 퇴근시간과 같은 여러가지 경우의 수가 고려되어야 하기 때문이다. 그리고 회수율..

[프로젝트] 여러가지 변수에 따른 개인 별 의료비 예측

이번 회귀분석 강의에서는 정말 많은 것을 배웠다. 통계에 대한 흥미를 느끼게 해준 과목이며, 통계에 대한 이해도를 많이 높이는 과목이었다. 강의 하나에 시험,퀴즈,에세이,분석 팀플까지,,, 정말 이 과목에 시간을 많이 썼다.. 솔직히 힘들었지만 많은 걸 남길 수 있어 뿌듯하다 ! 이번 회귀분석 팀플에서는 나를 제외하고 다른 팀원들이 모두 코딩 경험. 분석 경험이 많지 않았다. 심지어 나도 우리과에서 코딩 실력이 좋다고 보기 어려운 사람이었다.. 막막했지만 무조건 내가 이끌고 가야겠다는 생각을 했던 것 같다. 다들 경험이 적다보니 쉬운 데이터로 분석 경험을 하는 것이 좋겠다고 판단 내려서 쉬운 데이터를 가지고 회귀분석 시간에 배우는 전반적인 내용을 모두 담아내보자고 생각했다. 1. Abstract 2021..

[머신러닝] 12주차. 군집화

(군집화) 데이터 포인트들을 별개의 군집으로 그룹화 하는 것. 유사성이 높은 데이터들을 동일한 그룹으로 분류하고 서로 다른 군집들이 상이성을 가지도록 그룹화 해준다 (군집화 활용 분야) ž 고객,마켓,브랜드,사회 경제 활동 세분화 ž Image 검출,세분화,트랙킹 ž 이상 검출. (군집화 알고리즘) ž K-Means : centroid 기반. 비즈니스 세분화 영역에서 가장 많이 사용 ž Mean Shift : centroid 기반. 조금 다른 방식으로 작동 ž Gaussian Mixture Model: 어느 정규분포에 속하는지에 따라 클러스터링 ž DBSCAN : 데이터의 밀도에 따라 클러스터링. (K-Means Clustering) (K-Means의 장점과 단점) 장점 ž 일반적인 군집화에서 가장 많이..

[머신러닝] 11주차.차원 축소

(차원의 저주) 차원이 커질수록 데이터들간의 밀집도가 떨어진다. 데이터 희소화. 피처가 많을 경우 다중 공선성 문제로 모델 예측 성능 저하 가능성. (차원 축소의 장점) 학습 데이터 크기 줄여 학습 시간 절약. 모델 성능 향상에 기여할수도 다차원 데이터를 차원 축소를 통해 시각적으로 쉽게 데이터 패턴 인지 (피처 선택과 피처 추출) 차원 축소 – 피처 선택 / 피처 추출 피처 선택: 불필요한 피처는 아예 제거. 주요 피처만 선택 피처 추출: 저차원의 중요 피처로 압축해서 추출. 기존의 피처를 반영해 압축된 것이지만 새로운 피처로 추출하는 것. (피처 추출) 기존 피처를 단순 압축이 아닌, 피처를 함축적으로 더 잘 설명할 수 있는 또 다른 공간으로 매핑 => 잠재되어 있던 걸 발견 (차원축소의 의미) 단순..

[머신러닝] 10주차.다양한 회귀 모델

(릿지 회귀) alpha값을 이용하여 회귀 계수의 크기를 조절. (alpha값 크면 회귀 계수 작아짐, alpha값 작으면 회귀 계수 커짐.) (라쏘 회귀) L1 규제: w의 절댓값에 페널티를 부여. Alpha * |w| 라쏘 회귀 비용함수의 목표: RSS(W) + alpha * |W| 식을 최소화하는 W 찾기. L1 규제는 불필요한 회귀 계수를 급격하게 감소시켜 0으로 만들고 제거. 적절한 피처만 회귀에 포함시키는 피처 셀렉션의 특성을 가지고 있음. (엘라스틱넷 회귀) L2 규제와 L1 규제를 결합. 따라서 식을 최소화 하는 W를 찾는 것이 엘라스틱넷 회귀 비용함수의 목표이다. 라쏘가 중요 피처만을 셀렉션하고 다른 피처들은 모두 회귀 계수를 0으로 만드는 성향이 강해 alpha 값에 따라 회귀 계수의 ..