Bank Term Deposit Prediction - Advanced ML Pipeline

A comprehensive ML solution predicting customer term deposit subscriptions using 8+ algorithms with hyperparameter tuning, achieving 60% F1-Score improvement over baseline models.

Machine Learning Completed 2 months

View Code Documentation

Bank Term Deposit Prediction - Advanced ML Pipeline

Performance Highlights

60.33%

Best F1-Score

XGBoost

95.22%

Best ROC-AUC

LightGBM Tuned

91.90%

Best Accuracy

XGBoost Tuned

+58%

F1-Score Improvement

vs Baseline

Business Impact

Marketing Optimization

Identifies top 10% of prospects with 70% precision, reducing wasted marketing spend on low-probability customers.

ROI Improvement

58% better prediction accuracy leads to improved campaign ROI through targeted outreach and resource optimization.

Key Insights

Students and retirees show highest subscription rates. March and December are optimal campaign months. Cellular contact outperforms telephone by 15%.

Dataset Information

Source

Bank Marketing Campaign Data

Size

41,188 customers × 51 engineered features

Target

Term deposit subscription (yes/no)

Class Distribution

88% no subscription, 12% subscription

Feature Categories

Demographic

Age, job, marital status, education, default status

Financial

Housing loan, personal loan status

Campaign

Contact method, month, day, duration, contacts

Economic

Employment rate, CPI, confidence index

Model Performance Comparison

Rank	Model	Accuracy	Precision	Recall	F1-Score	ROC-AUC
1	XGBoost	91.75%	65.78%	55.71%	60.33%	94.79%
2	LightGBM	91.75%	66.49%	53.88%	59.52%	95.08%
3	Random Forest Tuned	91.81%	67.35%	52.91%	59.26%	94.94%
4	XGBoost Tuned	91.90%	69.51%	50.11%	58.23%	95.20%
5	Stacking Ensemble	91.89%	69.46%	50.00%	58.15%	94.72%
12	Naive Bayes (Baseline)	87.80%	45.99%	47.52%	46.74%	84.36%

🏆 Best Overall Performance

XGBoost achieved the highest F1-Score (60.33%) with excellent balance between precision and recall.

🎯 Best Discrimination

LightGBM Tuned achieved the highest ROC-AUC (95.22%) for probability-based ranking.

📈 Dramatic Improvement

58% better F1-Score compared to baseline models through advanced techniques.

Key Insights & Findings

Data Insights

Class Imbalance

~88% customers do not subscribe to term deposits

High Correlation

Strong correlation between economic indicators

Seasonal Patterns

March and December show higher subscription rates

Contact Method

Cellular contact generally outperforms telephone

Business Recommendations

Target Segments

Focus campaigns on students and retired individuals

Timing

Schedule major campaigns in March and December

Contact Method

Prioritize cellular over telephone contact

Previous Success

Heavily weight previous campaign success in targeting

Enhanced Technical Pipeline

Data Processing

Data loading, cleaning, comprehensive EDA with visualizations and data quality validation for 41,188 records.

Advanced Feature Engineering

Creates 51 engineered features, handles multicollinearity, implements categorical encoding, and creates interaction features.

Multi-Model Training

Trains 8 different algorithms: Naive Bayes, Decision Trees, Random Forest, XGBoost, LightGBM, SVM, Logistic Regression.

Hyperparameter Tuning

Automated optimization using Optuna with 20 trials per model, Bayesian optimization for optimal performance.

Threshold Optimization

Dynamic threshold tuning for each model to achieve optimal F1-scores and precision-recall balance.

Model Stacking

Voting ensemble combining top 6 performers using soft voting for robust predictions.

Comprehensive Evaluation

Complete assessment with 9 visualizations, confusion matrices, ROC curves, and calibration analysis.

Key Code Components

Main Pipeline Orchestrator

Data Processing Module

Project Structure

src/

config.py

data_processing.py

feature_engineering.py

model_training.py

evaluation.py

main.py

data/

bank_data.csv

models/

saved models (.pkl)

results/

plots and reports

Technology Stack

Python Scikit-learn XGBoost LightGBM Pandas NumPy Matplotlib Seaborn Optuna Jupyter Joblib

Bank Term Deposit Prediction - Advanced ML Pipeline

Performance Highlights

Business Impact

Marketing Optimization

ROI Improvement

Key Insights

Dataset Information

Source

Size

Target

Class Distribution

Feature Categories

Demographic

Financial

Campaign

Economic

Model Performance Comparison

🏆 Best Overall Performance

🎯 Best Discrimination

📈 Dramatic Improvement

Key Insights & Findings

Data Insights

Class Imbalance

High Correlation

Seasonal Patterns

Contact Method

Business Recommendations

Target Segments

Timing

Contact Method

Previous Success

Enhanced Technical Pipeline

Data Processing

Advanced Feature Engineering

Multi-Model Training

Hyperparameter Tuning

Threshold Optimization

Model Stacking

Comprehensive Evaluation

Key Code Components

Main Pipeline Orchestrator

Data Processing Module

Project Structure

Technology Stack

Search