🎬 Streaming Wars: Analyzing OTT Content & Building a Recommendation System

Skills: Data Analytics, Machine Learning, Content Recommendation, Python, Pandas, Seaborn

🚀 Project Overview

The explosion of OTT streaming platforms has led to an overwhelming amount of content. Users often struggle to decide what to watch next. This project tackles this problem by analyzing content from major streaming platforms and building a personalized movie recommendation system.

✅ Analyzed Streaming Platforms:

Amazon Prime Video
Apple TV+
Disney+
HBO Max
Netflix
Paramount+
Hulu

📌 Datasets from Kaggle:

🎯 Key Objectives

✔ Analyze streaming platforms to understand content availability & trends
✔ Compare genre popularity, ratings, and exclusive content across platforms
✔ Develop a machine learning-based movie recommendation system
✔ Visualize content distribution across different OTT services

📊 Data Collection & Preprocessing

Each streaming platform dataset contains information on:

🎞 Title (Movie/TV Show name)
🎭 Genre (Action, Comedy, Drama, etc.)
🎬 Director & Cast
📅 Release Year
⭐ Ratings & Reviews
📺 Platform Availability

✅ Example: Loading Data from Multiple Platforms

import pandas as pd

amazon = pd.read_csv("amazon_titles.csv")
netflix = pd.read_csv("netflix_titles.csv")
disney = pd.read_csv("disney_titles.csv")

# Combine datasets into one master dataframe
ott_content = pd.concat([amazon, netflix, disney], axis=0)
ott_content.head()

💡 Why? – This allows us to compare platforms side by side.

📈 Exploratory Data Analysis (EDA)

We explore trends in the streaming industry, including genre distribution, ratings, and content exclusivity.

✅ Example: Genre Distribution Across Platforms

import seaborn as sns
import matplotlib.pyplot as plt

sns.countplot(y="genre", data=ott_content, order=ott_content["genre"].value_counts().index)
plt.title("Most Popular Movie Genres Across Streaming Platforms")
plt.show()

💡 Insight:

Drama & Comedy dominate across platforms.
Sci-Fi & Horror are more common on Netflix & HBO Max.

✅ Example: Average IMDb Ratings per Platform

sns.boxplot(x="platform", y="imdb_rating", data=ott_content)
plt.title("IMDb Ratings Distribution by Streaming Platform")
plt.show()

💡 Finding:

Netflix has the highest-rated content on average.
Amazon & Hulu have more mixed reviews.

✅ Example: Content Exclusivity Analysis

exclusive_content = ott_content.groupby("platform")["title"].nunique()
exclusive_content.plot(kind="bar", title="Exclusive Content per Platform")

💡 Observation:

Disney+ and HBO Max have the highest proportion of exclusive titles.

🎬 Building a Movie Recommendation System

We implement a content-based recommendation system that suggests movies based on genre similarity.

✅ Step 1: Convert Genres into Numerical Features

from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(stop_words="english")
genre_matrix = vectorizer.fit_transform(ott_content["genre"])

✅ Step 2: Compute Similarity Scores

from sklearn.metrics.pairwise import cosine_similarity

similarity_matrix = cosine_similarity(genre_matrix)

✅ Step 3: Recommend Similar Movies

def recommend_movie(movie_title, num_recommendations=5):
    idx = ott_content[ott_content["title"] == movie_title].index[0]
    similarity_scores = list(enumerate(similarity_matrix[idx]))
    sorted_scores = sorted(similarity_scores, key=lambda x: x[1], reverse=True)[1:num_recommendations+1]

    recommendations = [ott_content.iloc[i[0]]["title"] for i in sorted_scores]
    return recommendations

recommend_movie("Inception", 5)

💡 Example Output for "Inception":
1️⃣ Interstellar
2️⃣ The Matrix
3️⃣ Tenet
4️⃣ Blade Runner 2049
5️⃣ The Prestige

📊 Model Evaluation & Performance Metrics

To assess the recommendation system's quality, we use:
✔ Precision@K – Measures how many recommended movies are relevant
✔ Diversity Score – Ensures recommendations aren't too similar
✔ User Feedback Simulation – Testing recommendations against user preferences

✅ Example: Evaluating Precision@K

def precision_at_k(recommended_movies, relevant_movies, k=5):
    hits = sum(1 for movie in recommended_movies[:k] if movie in relevant_movies)
    return hits / k

# Example usage
precision_at_k(["Interstellar", "Tenet", "The Matrix"], ["Inception", "Interstellar", "The Prestige"])

💡 Why? – Higher precision means better recommendations.

🔮 Future Enhancements

🔹 Hybrid Recommendation System – Combine content-based + collaborative filtering
🔹 Sentiment Analysis on Reviews – Understand audience preferences using NLP
🔹 Time-Series Analysis – Predict which genres will trend in the future
🔹 Deploy as a Web App – Using Flask or Streamlit for interactive recommendations

🎯 Why This Project Stands Out for Data Science & AI Roles

✔ Combines EDA, Data Visualization & Recommendation Systems
✔ Uses Real-World OTT Data for Business Insights
✔ Applies Scikit-Learn & NLP for Movie Recommendations
✔ Explores Cross-Platform Content Availability & Ratings

🛠 How to Run This Project

1️⃣ Clone the repo:

git clone https://github.com/shrunalisalian/streaming-wars.git

2️⃣ Install dependencies:

pip install -r requirements.txt

3️⃣ Run the Jupyter Notebook:

jupyter notebook "Streaming Wars.ipynb"

📌 Connect with Me

LinkedIn: Shrunali Salian
Portfolio: https://portfolio-shrunali-suresh-salians-projects.vercel.app/
Email: Your Email

Reference: https://www.kaggle.com/code/ibtesama/getting-started-with-a-movie-recommendation-system

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
Batman_wordcloud_black.png		Batman_wordcloud_black.png
GOT1.jpg		GOT1.jpg
GOT2.jpg		GOT2.jpg
IMDB_rating.csv		IMDB_rating.csv
Netflix.ipynb		Netflix.ipynb
Netflix.webp		Netflix.webp
README.md		README.md
Screenshot 2023-04-28 at 10.39.09 AM.png		Screenshot 2023-04-28 at 10.39.09 AM.png
Screenshot 2023-04-28 at 10.51.34 AM.png		Screenshot 2023-04-28 at 10.51.34 AM.png
Streaming Wars.ipynb		Streaming Wars.ipynb
Streaming Wars_Trial_1.ipynb		Streaming Wars_Trial_1.ipynb
Streaming Wars_Trial_2.ipynb		Streaming Wars_Trial_2.ipynb
Top-OTT-Platforms-800x445.webp		Top-OTT-Platforms-800x445.webp
amazon_credits.csv		amazon_credits.csv
amazon_titles.csv		amazon_titles.csv
apple_credits.csv		apple_credits.csv
apple_titles.csv		apple_titles.csv
batman.png		batman.png
content_based.png		content_based.png
disney_credits.csv		disney_credits.csv
disney_titles.csv		disney_titles.csv
duplicates.jpg		duplicates.jpg
hbo_credits.csv		hbo_credits.csv
hbo_titles.csv		hbo_titles.csv
hulu_titles.csv		hulu_titles.csv
imdb_top_1000.csv		imdb_top_1000.csv
netflix_credits.csv		netflix_credits.csv
netflix_titles.csv		netflix_titles.csv
oscars-envelope-best-picture.jpg.webp		oscars-envelope-best-picture.jpg.webp
paramount_credits.csv		paramount_credits.csv
paramount_titles.csv		paramount_titles.csv
trending_now.jpg		trending_now.jpg
wonderwoman.jpg		wonderwoman.jpg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

🎬 Streaming Wars: Analyzing OTT Content & Building a Recommendation System

🚀 Project Overview

🎯 Key Objectives

📊 Data Collection & Preprocessing

📈 Exploratory Data Analysis (EDA)

🎬 Building a Movie Recommendation System

📊 Model Evaluation & Performance Metrics

🔮 Future Enhancements

🎯 Why This Project Stands Out for Data Science & AI Roles

🛠 How to Run This Project

📌 Connect with Me

About

Uh oh!

Releases

Packages

Languages

shrunalisalian/Movie-Recommendation-System

Folders and files

Latest commit

History

Repository files navigation

🎬 Streaming Wars: Analyzing OTT Content & Building a Recommendation System

🚀 Project Overview

🎯 Key Objectives

📊 Data Collection & Preprocessing

📈 Exploratory Data Analysis (EDA)

🎬 Building a Movie Recommendation System

📊 Model Evaluation & Performance Metrics

🔮 Future Enhancements

🎯 Why This Project Stands Out for Data Science & AI Roles

🛠 How to Run This Project

📌 Connect with Me

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages