데이터사이언스/프로젝트 7

[프로젝트] 이커머스 고객 세그먼트 분석 및 장바구니 기반 추천 시스템 개발

세종대 & 인하대 데이터사이언스학과 연합 학술제에서 최우수상을 수상하였습니다!수상한 프로젝트에서 좀 더 디벨롭하여 추가 활동까지 함께 작성해두었습니다데이터는 데이콘의 이커머스 데이터를 사용하였고, 되게 다양한 분석들이 있으니 그것도 참고하시면 좋을 듯 합니다관련 코드는 제 깃허브에 있으니 참고해주세요1. 분석 개요1.1. 배경트렌드 코리아 2023 도서에 따르면 평균 실종, 선제적 대응 기술이라는 키워드가 등장합니다.평균실종이란 평균이 사라지고 양극화가 심화된다는 말로, 개인주의성향이 강해짐에 따라서 초다극화된 시장이 트렌드가 된 현상선제적 대응 기술이란 고객이 불편함을 깨닫기도 전에 판매자가 먼저 고객의 불편함을 해결해주는 기술을 의미합니다.따라서 저희는 해당 트렌드에 맞게 고객들에게 필요한 시기에 맞..

[프로젝트] 당뇨병 환자 식단 최적화

처음 써보는 라이브러리에 정보도 거의 없어서 코딩하기 제일 어려웠던 프로젝트로 기억한다.코드 자체는 쉬운데 최적화 내용을 처음 접하고 cplex도 처음 써봐서 너무 어렵게 느껴졌던 것 같다.당장 결과를 얻어내기 위해 시간에 쫓기면서 하다보니 나도 보기 싫은 하드 코딩을 했다..이렇게 부족한 점이 많지만 적는 이유는 우선 cplex를 처음 접해봤고, 관련 정보가 너무 없기 때문에 정보 제공을 위함이다.이 프로젝트는 2학년 1학기에 진행했던 당뇨병 환자 식단 추천 프로그램과 주제는 같지만 문제를 풀어나가는 방향이 완전히 달라 기록하는 것에 의미가 있을 것 같다. 발표 PPT를 활용하여 내용을 간단하게 설명하겠다. 1. 주제 및 선정 이유당뇨병 환자의 만족도를 최대화 하는 식단을 구성하자는 것을 주제로 이 프..

[프로젝트] 보험 사기 예측 모델

이 프로젝트는 고객 데이터 분석론 수업에서 기말 프로젝트로 개인별로 진행하게 되었다.고객 데이터 분석론 수업을 실제 대기업에서 계셨던 교수님이 진행하셔서 실제 기업이 데이터사이언티스트에게 원하는 방향을 잡는데 도움을 많이 주셨고, 모델 중심적인 사고만 하던 내 문제점들을 많이 깨달았다.이 수업을 들으면서 내가 만든 모델을 사용하게 하기 위해 어떻게 통계를 모르는 사람들에게도 설득할 수 있을지 고민을 많이 해보았다.나는 보험 사기 예측 모델을 구축하는 것을 목표로 진행하였고, 데이터는 2016 빅콘테스트에서 제공한 한화생명의 데이터를 사용하였다.발표에 활용한 피피티를 가지고 진행한 프로젝트를 설명할 예정이다.1. Introduction우선 보험사기의 정의에 대해 알아보았다. 보험사기방지 특별법에서 보험사기..

[프로젝트] 서울시 공공자전거 대여소 수요량 예측

1. 목표 및 중요성  따릉이는 서울시의 친환경사업과 함께 시민들에게 이동수단을 제공하기 위해 2015년부터 현재까지 계속 이루어지고 있는 사업이다. 실제로 시민들은 가까운 거리를 가거나 출퇴근, 산책, 운동을 하는 등 여러 방면에서 따릉이를 이용하고 있다.서울시 공공자전거 따릉이의 회원 수는 350만명을 넘어섰다. 일 평균 이용 건수는 약 9만건에 다다랐다. 따릉이를 효율적으로 운영하기 위해서 직원들이 대여소의 실시간 거치율을 확인하고, 70%의 거치율을 유지하고자 노력한다. 하지만 무조건 거치율을 유지하는 것 보다는 따릉이 재분배 문제는 단순 거치율의 문제가 아닌 장소별, 시간대별 수요예측이 중요하다. 왜냐하면 출근시간이나 퇴근시간과 같은 여러가지 경우의 수가 고려되어야 하기 때문이다. 그리고 회수율..

[프로젝트] 여러가지 변수에 따른 개인 별 의료비 예측

이번 회귀분석 강의에서는 정말 많은 것을 배웠다. 통계에 대한 흥미를 느끼게 해준 과목이며, 통계에 대한 이해도를 많이 높이는 과목이었다. 강의 하나에 시험,퀴즈,에세이,분석 팀플까지,,, 정말 이 과목에 시간을 많이 썼다.. 솔직히 힘들었지만 많은 걸 남길 수 있어 뿌듯하다 ! 이번 회귀분석 팀플에서는 나를 제외하고 다른 팀원들이 모두 코딩 경험. 분석 경험이 많지 않았다. 심지어 나도 우리과에서 코딩 실력이 좋다고 보기 어려운 사람이었다.. 막막했지만 무조건 내가 이끌고 가야겠다는 생각을 했던 것 같다. 다들 경험이 적다보니 쉬운 데이터로 분석 경험을 하는 것이 좋겠다고 판단 내려서 쉬운 데이터를 가지고 회귀분석 시간에 배우는 전반적인 내용을 모두 담아내보자고 생각했다. 1. Abstract 2021..

[프로젝트] 음식 선호도에 기반한 당뇨병 환자의 식단 제공 프로그램 part. 2

결과랑 코드는 꼭 올려야겠다고 생각해서 part 2를 드디어 쓰게 되었다..! 이 프로젝트를 할 때는 내가 실력이 많이 부족해서 거의 버스를 넘어선 비행기를 탔지만... 이것을 토대로 프로젝트 진행 방법도 알게 되고, 이후에 올라올 예정인 회귀분석 프로젝트에서는 내가 버스를 태워줬다. 확실히 몰라도 우선 부딪혀 보는 것도 좋은 것 같다. 힘들겠지만 나를 정말 많이 성장시킬 수 있는 것 같다. 힘들고 안된다고 찡찡거리지 말고 우선 해보자! 3. Result 본 연구에서는 음식과 혈당부하지수 데이터를 이용하여 음식과 혈당부하지수와의 관계와 혈당부하지수와 탄수화물 함유량이 높은 음식과의 관계를 알아보았다. 또한 각 사람의 음식에 대한 선호도를 토대로 당뇨병 환자들이 적용할 수 있는 식단(혈당부하지수와 칼로리,..

[프로젝트] 음식 선호도에 기반한 당뇨병 환자의 식단 제공 프로그램 part. 1

귀찮아서 미루고 미뤄왔던 게시물을 드디어 쓰게 됐다.. 데이터사이언스 프로그래밍 수업은 중간에는 이론 시험, 기말은 프로젝트로 진행되었다. 나는 나를 포함한 데이터사이언스학과 3명이 팀이었고, 내가 제일 아는게 없었다...ㅎㅎ 그래도 끝내고보니 굉장히 뿌듯한 프로젝트였다. 1. 데이터셋 본 프로젝트에서 사용하는 데이터는 캐글 사이트의 dietary data (https://www.kaggle.com/datasets/saurabhshahane/dietary-data) 를 사용했다. 이는 크게 3 종류의 데이터로 이루어져 있다. 첫 번째 데이터는 당뇨병 환자의 기본 정보와 음식에 대한 선호도로 이루어져 있고, 두 번째 데이터는 음식을 얼마나 섭취하는지를 물어보는 질문에 대한 답안 기준 단위가 제시되어 있다...