시계열 3

시계열 이상치 탐지 2편 (Prediction Range 기반)

들어가며이전 글에서 Z-score 기반의 간단한 이상치 탐지 방법을 실습해 보았습니다.하지만 단순히 평균과 표준편차를 기준으로 Z-점수를 계산하는 방식은 실제 운영 환경에서 다음과 같은 한계가 있었습니다.야간 시간대처럼 본래 값의 분산이 작을 경우, 작은 변화에도 Z-score가 급격히 튀는 문제“Z = -3.1”과 같은 경고 메시지로는 얼마나 심각한 상황인지 직관적으로 파악하기 어려운 문제과거 이상치가 기준값을 왜곡하여 반복된 이상을 탐지하지 못하는 문제 등등이러한 문제를 해결하기 위해 Booking.com에서는 단순한 Z-score 기반 탐지를 넘어‘예측 범위 기반(Prediction Range)’ 이상치 탐지 방식을 도입하였습니다.이번 글에서는 그 방법을 따라가 보며 Apple 주식 데이터를 이용해..

시계열 이상치 탐지 1편 (z-score기반)

들어가며"실시간 지표 모니터링 자동화" 현업에서 운영되는 다양한 서비스는 수많은 지표(metric)들을 실시간으로 수집하고 분석합니다. 하지만 이 중 어떤 지표가 '이상치'를 보였는지를 사람이 매번 확인하는 것은 불가능합니다. 특히, 장애에 직결될 수 있는 핵심 지표의 경우, 변화가 감지되면 자동 알림을 보내는 시스템이 반드시 필요합니다.하지만 문제는... 무엇을 이상치로 볼 것인가?정해진 기준값(threshold)을 넘는 경우?평소보다 갑자기 튀는 경우?계절성이 있는 지표는 어떻게?이러한 고민은 인턴으로 일하면서도 쉽게 마주할 수 있었던 고민이었습니다.명확한 기준 없이 이상치 탐지는 주관적인 판단에 맡겨지기 쉬운데요, 이 고민을 해결하기 위해 최근 Booking.com에서 소개한 시계열 기반 이상치 탐..

[프로젝트] 서울시 공공자전거 대여소 수요량 예측

1. 목표 및 중요성  따릉이는 서울시의 친환경사업과 함께 시민들에게 이동수단을 제공하기 위해 2015년부터 현재까지 계속 이루어지고 있는 사업이다. 실제로 시민들은 가까운 거리를 가거나 출퇴근, 산책, 운동을 하는 등 여러 방면에서 따릉이를 이용하고 있다.서울시 공공자전거 따릉이의 회원 수는 350만명을 넘어섰다. 일 평균 이용 건수는 약 9만건에 다다랐다. 따릉이를 효율적으로 운영하기 위해서 직원들이 대여소의 실시간 거치율을 확인하고, 70%의 거치율을 유지하고자 노력한다. 하지만 무조건 거치율을 유지하는 것 보다는 따릉이 재분배 문제는 단순 거치율의 문제가 아닌 장소별, 시간대별 수요예측이 중요하다. 왜냐하면 출근시간이나 퇴근시간과 같은 여러가지 경우의 수가 고려되어야 하기 때문이다. 그리고 회수율..