DATA MARKETING

도전기!_!

머신러닝 기반 마케팅 예측 5

마케팅과 머신러닝 (basic)

머신러닝이란?데이터에서 패턴을 찾아 학습하고, 새로운 데이터에 대해 예측을 수행하는 시스템 머신러닝의 주요 학습 유형머신러닝은 학습 방식에 따라 다음과 같이 분류할 수 있습니다. 1) 지도 학습(Supervised Learning)정의: 입력 데이터(특징, Feature)와 이에 대응하는 정답(레이블, Label)이 주어진 상태에서 학습하는 방식목표: 주어진 데이터를 기반으로 입력과 출력 간의 관계를 학습하여, 새로운 입력값에 대해 올바른 출력을 예측하는 것예제이메일이 스팸인지 아닌지를 분류하는 모델주어진 집의 특성을 보고 가격을 예측하는 모델대표 알고리즘선형 회귀(Linear Regression)로지스틱 회귀(Logistic Regression)의사결정나무(Decision Tree)랜덤 포레스트(Ran..

k-NN 알고리즘 & 웹 기반 추천/자동화 시스템 구현

k-NN 알고리즘 개요 거리 측정: 새로운 데이터 포인트와 모든 훈련 데이터 포인트 간의 거리를 계산합니다. 일반적으로 유클리드 거리(Euclidean Distance)를 사용하지만, 맨해튼 거리(Manhattan Distance) 등 다른 거리 측정 방법도 사용할 수 있습니다.이웃 선택: 계산된 거리 값을 기준으로 가장 가까운 $k$개의 이웃을 선택합니다.분류/회귀:분류: 선택된 k개의 이웃 중 가장 많은 클래스를 새로운 데이터 포인트의 클래스로 할당합니다. 즉, 다수결 투표(Majority Voting) 방식으로 클래스를 결정합니다.회귀: 선택된 k개의 이웃의 평균 값을 새로운 데이터 포인트의 예측 값으로 사용합니다. k-NN 그래프 설명:빨간색 원: 클래스 A에 속하는 데이터 포인트들입니다.파란색 ..

의사결정 나무 (Decision Tree)

의사결정 나무란?결정 트리(Decision Tree)는 트리(Tree) 구조를 사용하여 데이터를 분류(Classification)하거나 회귀(Regression)하는 지도 학습(Supervised Learning) 알고리즘이다.트리의 각 노드는 특정 특징(feature)을 기준으로 데이터를 나누는 역할을 하며, 최종적으로 예측값(클래스 또는 수치)을 도출한다.  결정 트리의 구조결정 트리는 아래와 같은 트리 구조(Tree Structure) 로 이루어진다.루트 노드(Root Node):데이터가 처음 입력되는 노드가장 중요한 특징(Feature)을 기준으로 데이터를 나누는 역할내부 노드(Internal Nodes):특정 특징을 기준으로 데이터를 분할(Split) 하는 역할각 노드는 질문(조건문)을 포함하며..

로지스틱 회귀 분석 (Logistic Regression) & 모델 평가 지표

[이론 설명] 회귀분석관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한 뒤 적합도를 측정해 내는 분석 방법 선형 회귀주어진 데이터로부터 변수 간의 상관관계를 파악하고, 이를 바탕으로 미래의 값을 예측하거나 변수들이 어떻게 상호작용하는지 이해하는 데 사용됨 (인과관계가 아님!!) 로지스틱 회귀이진 분류 문제를 해결하는 지도 학습 알고리즘(machine learning model)출력값이 확률(0~1 사이의 값)으로 변환된 후 특정 임계값에 따라 분류됨시그모이드 함수를 사용하여 확률을 예측하고, 특정 임계값(기본: 0.5) 기준으로 분류를 수행그로스 마케팅에서는 광고 클릭 예측, 고객 이탈 예측, 스팸 메일 분류 등에 활용모델 평가 지표로 정확도, 정밀도, 재현율, F1-score 등을 사용  시그모..

다중 분류 (Multi-Class Classification)

다중 분류란?세 개 이상의 클래스를 분류하는 문제 => 소프트맥스 함수 사용이진 분류: 두 개의 클래스 분류 => 시그모이드 함수 사용손글씨 숫자 인식 (MNIST 데이터셋) → 0~9까지의 10개 숫자를 분류상품 추천 시스템 → 고객을 여러 구매 성향(High-Spender, Medium-Spender, Low-Spender)으로 분류 소프트맥스 함수 (softmax function)소프트맥스 함수는 각 클래스에 대한 확률 값을 출력하며, 확률 합은 항상 1이 된다.가장 확률이 높은 클래스를 최종 예측값으로 선택.   다중 분류 모델 평가 방법이진 분류와 마찬가지로 다중 분류에서도 정확도, Precision, Recall, F1-score 등을 활용하여 모델 성능을 평가할 수 있다.다만 다중 분류에서는..