Datasets

All files with same name but number 5 inserted are same datasets but with r/politics dataset added

Raw data: /home/cara/Documents/subreddit_data
Datasets (nothing removed, raw dataset but thedonald combined months): datasets.p
Datasets with certain authors removed as defined in authors_to_remove.csv: cleaned_datasets.p
Same as cleaned_datasets.p but with sentiment cols: sentiment_datasets.p
Preliminary thread data, including unclassified: thread_data.p
Thread data with unclassified threads removed: clean_thread_data.p
Information on thread size, number of participating authors, preliminary levels info: thread_info.p
More in-depth levels info including cumulative sums: thread_lvls_info.p
All, failed and successful posts: thread_posts.p
All, failed and successful posts including EDT timestamp col: thread_posts_EDT.p
Data used for regressions: regression_thread_data.p
Data used for regressions INCLUDING domain pagerank score from https://www.domcop.com/top-10-million-websites: regression_thread_data_april_2024.p
regression outputs: logit_regression_params.xlsx, logit_regression_params_v2.xlsx(includes dataset sizes, skewness, sqrt and without intercept)

Analyses

1. Clean datasets `clean_datasets.ipynb` - DONE

check number of removed rows
combine any data that needs combining
identify most active authors and check whether bots or not
remove spam

Outputs: datasets.p, cleaned_datasets.p

2. Perform sentiment analysis `2_sentiment_analysis.py` - DONE

Outputs: sentiment_datasets.p

3. Big-picture, macroscopic analyses `3_whole_subreddit_analyses.ipynb`

Done so far

sentiment score histograms
check neutral sentiment activity neutral_sentiment_activity dir
activity over time

To do?

change timezone in reddit_dataclass graphs over time
cumulative score histograms
sentiment score over time
post activation time?
score vs sentiment?

4. Microscopic analyses (authors)

check report graphs

Done

To do

Author activity hists
author type (author vs post proportion histogram)
author sentiment score
author activation time

5. Creating threads dataset `5_separate_threads.ipynb` - DONE

separated data out into threads
found unclassified data (missing link in chain)

Outputs:

amendment to sentiment_datasets.p (readable parent col)
thread_data.p (this includes data that has not been assigned a thread level)
clean_thread_data.p, unclassified_thread_data.p

6. Thread characteristics `6_thread_characteristics.ipynb` - DONE

see thread_analysis.ipnb
thread size by activity histogram
thread size by participating users histogram
mean and max thread depth
thread levels, and level cumulative sums

Outputs

thread_info.p
thread_lvls_info.p

Unsuccessful threads `7_unsuccessful_thread_characteristics.ipynb`

see threads_that_die.ipynb
proportion of unsuccessful threads
sentiment distribution of successful vs unsuccessful threads
time of day of successful vs unsuccessful thread activity + 2-sided K-S test
average sentiment over time of s vs uns threads
- hourly

To do:

sentiment per chunk of time & day of week

Outputs

Added to failed_threads sheet of dataset_summaries.ods:

proportion of failed threads
statistical tests on the sentiment of successful vs failed posts
stats on subject sentiment score of failed and successful posts
hourly activity 2-sided K-S test successful vs failed thread results
All, failed and successful posts: thread_posts.p, thread_posts_EDT.p

Authors

see author_stats_tests.ipnb
author probability density vs sentiment score for successful and unsuccessful authors, with different author thresholds
2-sided K-S tests
see thread_authors.ipynb
thread starters vs number of threads started
author prob density vs proportion of alive threads
comparisons between majority successful and majority unsuccessful authors (prob density vs sentiment score, prob density vs thread count, prob dens vs mean thread size)

9. Regressions - `9_regression.ipynb` - DONE

Logistic regression

Models

'success ~ sentiment_sign',
'success ~ sentiment_magnitude',
'success ~ sentiment_sign + sentiment_magnitude',
'success ~ sentiment_sign*sentiment_magnitude',
'success ~ sentiment_sign*sentiment_magnitude + sentiment_sign + sentiment_magnitude',
'success ~ log_sentiment_magnitude_plus_one',
'success ~ sentiment_sign + log_sentiment_magnitude_plus_one',
'success ~ sentiment_sign + sentiment_magnitude + log_sentiment_magnitude_plus_one',
'success ~ sentiment_sign*log_sentiment_magnitude_plus_one',
'success ~ sentiment_sign*log_sentiment_magnitude_plus_one + sentiment_sign + log_sentiment_magnitude_plus_one'

Dataset used

fullvanilla_models = [ "success ~ sentiment_sign - 1", "success ~ sentiment_sign", "success ~ sentiment_magnitude - 1", "success ~ sentiment_magnitude", "success ~ sentiment_sign + sentiment_magnitude - 1", "success ~ sentiment_sign + sentiment_magnitude", "success ~ sentiment_signsentiment_magnitude - 1", "success ~ sentiment_signsentiment_magnitude", "success ~ sentiment_signsentiment_magnitude + sentiment_sign + sentiment_magnitude - 1", "success ~ sentiment_signsentiment_magnitude + sentiment_sign + sentiment_magnitude", ]

log_models = [ "success ~ log_sentiment_magnitude_plus_one - 1", "success ~ sentiment_sign + log_sentiment_magnitude_plus_one - 1", "success ~ sentiment_signlog_sentiment_magnitude_plus_one - 1", "success ~ sentiment_signlog_sentiment_magnitude_plus_one + log_sentiment_magnitude_plus_one + sentiment_sign - 1", "success ~ log_sentiment_magnitude_plus_one", "success ~ sentiment_sign + log_sentiment_magnitude_plus_one", "success ~ sentiment_signlog_sentiment_magnitude_plus_one", "success ~ sentiment_signlog_sentiment_magnitude_plus_one + log_sentiment_magnitude_plus_one + sentiment_sign" , ]

sqrt_models = [ "success ~ sqrt_sentiment_magnitude - 1", "success ~ sentiment_sign + sqrt_sentiment_magnitude - 1", "success ~ sentiment_signsqrt_sentiment_magnitude - 1", "success ~ sentiment_signsqrt_sentiment_magnitude + sqrt_sentiment_magnitude + sentiment_sign - 1", "success ~ sqrt_sentiment_magnitude", "success ~ sentiment_sign + sqrt_sentiment_magnitude", "success ~ sentiment_signsqrt_sentiment_magnitude", "success ~ sentiment_signsqrt_sentiment_magnitude + sqrt_sentiment_magnitude + sentiment_sign", ]

removed neutral sentiment
with author post activity threshold

Linear regressions

Outputs

OLS_regression.txt
GLS_regression.txt
regression_thread_data.p
logit_regression_tables.xlsx

10. Further regressions - `10_logistic_regressions.ipynb`

Models

vanilla_models = [ "success ~ sentiment_sign - 1", "success ~ sentiment_sign", "success ~ sentiment_magnitude - 1", "success ~ sentiment_magnitude", "success ~ sentiment_sign + sentiment_magnitude - 1", "success ~ sentiment_sign + sentiment_magnitude", "success ~ sentiment_signsentiment_magnitude - 1", "success ~ sentiment_signsentiment_magnitude", "success ~ sentiment_signsentiment_magnitude + sentiment_sign + sentiment_magnitude - 1", "success ~ sentiment_signsentiment_magnitude + sentiment_sign + sentiment_magnitude", ]
log_models = [ "success ~ log_sentiment_magnitude_plus_one - 1", "success ~ sentiment_sign + log_sentiment_magnitude_plus_one - 1", "success ~ sentiment_signlog_sentiment_magnitude_plus_one - 1", "success ~ sentiment_signlog_sentiment_magnitude_plus_one + log_sentiment_magnitude_plus_one + sentiment_sign - 1", "success ~ log_sentiment_magnitude_plus_one", "success ~ sentiment_sign + log_sentiment_magnitude_plus_one", "success ~ sentiment_signlog_sentiment_magnitude_plus_one", "success ~ sentiment_signlog_sentiment_magnitude_plus_one + log_sentiment_magnitude_plus_one + sentiment_sign" , ]
sqrt_models = [ "success ~ sqrt_sentiment_magnitude - 1", "success ~ sentiment_sign + sqrt_sentiment_magnitude - 1", "success ~ sentiment_signsqrt_sentiment_magnitude - 1", "success ~ sentiment_signsqrt_sentiment_magnitude + sqrt_sentiment_magnitude + sentiment_sign - 1", "success ~ sqrt_sentiment_magnitude", "success ~ sentiment_sign + sqrt_sentiment_magnitude", "success ~ sentiment_signsqrt_sentiment_magnitude", "success ~ sentiment_signsqrt_sentiment_magnitude + sqrt_sentiment_magnitude + sentiment_sign", ]

Outputs

logit_regression_params.xlsx
logit_regression_params_v2.xlsx: includes dataset sizes, skewness, sqrt and without intercept

Name		Name	Last commit message	Last commit date
Latest commit History 517 Commits
.vscode		.vscode
REGDATA/Notes		REGDATA/Notes
old_model		old_model
.gitignore		.gitignore
2_sentiment_analysis.py		2_sentiment_analysis.py
42_1_extracting_text_features.ipynb		42_1_extracting_text_features.ipynb
42_2_word2vec.ipynb		42_2_word2vec.ipynb
42_3_threadsize_models.ipynb		42_3_threadsize_models.ipynb
42_4_tfidf.ipynb		42_4_tfidf.ipynb
42_5_modelling.ipynb		42_5_modelling.ipynb
42_6_neural_network.ipynb		42_6_neural_network.ipynb
42_6_neural_network.py		42_6_neural_network.py
42_7_random_forest.ipynb		42_7_random_forest.ipynb
43_1_make_dfs.ipynb		43_1_make_dfs.ipynb
43_2_add_collection_data.ipynb		43_2_add_collection_data.ipynb
43_2_add_collection_data.py		43_2_add_collection_data.py
43_3_tfidf_analysis.py		43_3_tfidf_analysis.py
43_3_tfidf_model_test_periods.ipynb		43_3_tfidf_model_test_periods.ipynb
43_4_modelling.ipynb		43_4_modelling.ipynb
43_5_1_LightGBM_Classifier_Tuning.py		43_5_1_LightGBM_Classifier_Tuning.py
43_5_2_LightGBM_Regressor_Tuning.py		43_5_2_LightGBM_Regressor_Tuning.py
43_5_3_LightGBM_Classifier_Tuning.py		43_5_3_LightGBM_Classifier_Tuning.py
43_5_two_stage_model_STAGE_1.ipynb		43_5_two_stage_model_STAGE_1.ipynb
43_5_two_stage_model_STAGE_2.ipynb.ipynb		43_5_two_stage_model_STAGE_2.ipynb.ipynb
44_1_2stagemodel_stage1.py		44_1_2stagemodel_stage1.py
44_2_2stagemodel_stage2.py		44_2_2stagemodel_stage2.py
44_README.md		44_README.md
44_two_stage_model_final_stage1.ipynb		44_two_stage_model_final_stage1.ipynb
44_two_stage_model_final_stage2.ipynb		44_two_stage_model_final_stage2.ipynb
45_0_preprocessing.ipynb		45_0_preprocessing.ipynb
45_1_2_fold_plots.ipynb		45_1_2_fold_plots.ipynb
45_1_STAGE_1_TUNING.py		45_1_STAGE_1_TUNING.py
45_1_STAGE_1_TUNING_GRID.py		45_1_STAGE_1_TUNING_GRID.py
45_2_STAGE_1_HYPERPARAMETER_TUNING.py		45_2_STAGE_1_HYPERPARAMETER_TUNING.py
45_3_STAGE_1_MODEL.py		45_3_STAGE_1_MODEL.py
45_4_STAGE_2_TUNING.py		45_4_STAGE_2_TUNING.py
45_4_STAGE_2_TUNING_GRID.py		45_4_STAGE_2_TUNING_GRID.py
45_5_STAGE_2_HYPERPARAMETER_TUNING.py		45_5_STAGE_2_HYPERPARAMETER_TUNING.py
45_6_STAGE_2_MODEL.py		45_6_STAGE_2_MODEL.py
45_run_stage1_models.sh		45_run_stage1_models.sh
45_run_stage2_models.sh		45_run_stage2_models.sh
46_COMBINED_PIPELINE_EVAL.py		46_COMBINED_PIPELINE_EVAL.py
46_run_evals.sh		46_run_evals.sh
47_0_TFIDF_ANALYSIS.sh		47_0_TFIDF_ANALYSIS.sh
47_1_1_feature_baselines.sh		47_1_1_feature_baselines.sh
47_1_2_pipeline_manual_feats.sh		47_1_2_pipeline_manual_feats.sh
47_1_pipeline.sh		47_1_pipeline.sh
47_2_1_baseline_feats.sh		47_2_1_baseline_feats.sh
47_2_1_pipeline.sh		47_2_1_pipeline.sh
47_2_2_manual_feats.sh		47_2_2_manual_feats.sh
47_2_pipeline.sh		47_2_pipeline.sh
47_STAGE_0_1_make_dfs.py		47_STAGE_0_1_make_dfs.py
47_STAGE_0_2_TFIDF_ANALYSIS.py		47_STAGE_0_2_TFIDF_ANALYSIS.py
47_STAGE_0_4_preprocessing.ipynb		47_STAGE_0_4_preprocessing.ipynb
47_STAGE_1_1_FEATURE_BASELINE.py		47_STAGE_1_1_FEATURE_BASELINE.py
47_STAGE_1_2_0_MODIFY_BASELINE.ipynb		47_STAGE_1_2_0_MODIFY_BASELINE.ipynb
47_STAGE_1_2_TUNING.py		47_STAGE_1_2_TUNING.py
47_STAGE_1_2_TUNING_old.py		47_STAGE_1_2_TUNING_old.py
47_STAGE_1_3_5_CONCAT_PARAMS.ipynb		47_STAGE_1_3_5_CONCAT_PARAMS.ipynb
47_STAGE_1_3_HYPERPARAMETER_TUNING.py		47_STAGE_1_3_HYPERPARAMETER_TUNING.py
47_STAGE_1_4_MODEL.py		47_STAGE_1_4_MODEL.py
47_STAGE_2_1_FEATURE_BASELINE.py		47_STAGE_2_1_FEATURE_BASELINE.py
47_STAGE_2_1_FEATURE_BASELINE_4CLASS.py		47_STAGE_2_1_FEATURE_BASELINE_4CLASS.py
47_STAGE_2_2_TUNING.py		47_STAGE_2_2_TUNING.py
47_STAGE_2_2_TUNING_4CLASS.py		47_STAGE_2_2_TUNING_4CLASS.py
47_STAGE_2_2_TUNING_old.py		47_STAGE_2_2_TUNING_old.py
47_STAGE_2_3_HYPERPARAMETER_TUNING.py		47_STAGE_2_3_HYPERPARAMETER_TUNING.py
47_STAGE_2_3_HYPERPARAMETER_TUNING_4CLASS.py		47_STAGE_2_3_HYPERPARAMETER_TUNING_4CLASS.py
47_STAGE_2_4_MODEL.py		47_STAGE_2_4_MODEL.py
47_STAGE_2_4_MODEL_4CLASS.py		47_STAGE_2_4_MODEL_4CLASS.py
47_STAGE_3_MODEL_EVALUATION.py		47_STAGE_3_MODEL_EVALUATION.py
47_STAGE_3_MODEL_EVALUATION_4CLASS.py		47_STAGE_3_MODEL_EVALUATION_4CLASS.py
47_full_pipeline.sh		47_full_pipeline.sh
48_1_thread_size_distributions.ipynb		48_1_thread_size_distributions.ipynb
48_2_feature_stability.ipynb		48_2_feature_stability.ipynb
48_3_paper_graphs.ipynb		48_3_paper_graphs.ipynb
FETCH_HEAD		FETCH_HEAD
HYPERPARAMETER_CHOICE_README.md		HYPERPARAMETER_CHOICE_README.md
README.MD		README.MD
activation_time.py		activation_time.py
calval_regression_data.p		calval_regression_data.p
combine_w_politics.ipynb		combine_w_politics.ipynb
convert_pkl_to_joblib.py		convert_pkl_to_joblib.py
dataset_summaries.ods		dataset_summaries.ods
dataset_summaries.xlsx		dataset_summaries.xlsx
debug_data.jl		debug_data.jl
environment.yml		environment.yml
function_graveyard.py		function_graveyard.py
main_results.md		main_results.md
pipeline_readme.md		pipeline_readme.md
reddit_dataclass.py		reddit_dataclass.py
reddit_powerlaw.py		reddit_powerlaw.py
redditenv.yml		redditenv.yml
regression_class.py		regression_class.py
regression_thread_data_april_2024.p		regression_thread_data_april_2024.p
requirements.txt		requirements.txt
run_regressions.py		run_regressions.py
run_stage2_pipeline.sh		run_stage2_pipeline.sh
sentiment_analysis.py		sentiment_analysis.py
small_tests_notebook.ipynb		small_tests_notebook.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Datasets

Analyses

1. Clean datasets `clean_datasets.ipynb` - DONE

2. Perform sentiment analysis `2_sentiment_analysis.py` - DONE

3. Big-picture, macroscopic analyses `3_whole_subreddit_analyses.ipynb`

Done so far

To do?

4. Microscopic analyses (authors)

Done

To do

5. Creating threads dataset `5_separate_threads.ipynb` - DONE

Outputs:

6. Thread characteristics `6_thread_characteristics.ipynb` - DONE

Outputs

Unsuccessful threads `7_unsuccessful_thread_characteristics.ipynb`

To do:

Outputs

Authors

9. Regressions - `9_regression.ipynb` - DONE

Logistic regression

Models

Dataset used

Linear regressions

Outputs

10. Further regressions - `10_logistic_regressions.ipynb`

Models

Outputs

About

Uh oh!

Releases

Packages

Languages

caralynch/reddit_analyses

Folders and files

Latest commit

History

Repository files navigation

Datasets

Analyses

1. Clean datasets clean_datasets.ipynb - DONE

2. Perform sentiment analysis 2_sentiment_analysis.py - DONE

3. Big-picture, macroscopic analyses 3_whole_subreddit_analyses.ipynb

Done so far

To do?

4. Microscopic analyses (authors)

Done

To do

5. Creating threads dataset 5_separate_threads.ipynb - DONE

Outputs:

6. Thread characteristics 6_thread_characteristics.ipynb - DONE

Outputs

Unsuccessful threads 7_unsuccessful_thread_characteristics.ipynb

To do:

Outputs

Authors

9. Regressions - 9_regression.ipynb - DONE

Logistic regression

Models

Dataset used

Linear regressions

Outputs

10. Further regressions - 10_logistic_regressions.ipynb

Models

Outputs

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

1. Clean datasets `clean_datasets.ipynb` - DONE

2. Perform sentiment analysis `2_sentiment_analysis.py` - DONE

3. Big-picture, macroscopic analyses `3_whole_subreddit_analyses.ipynb`

5. Creating threads dataset `5_separate_threads.ipynb` - DONE

6. Thread characteristics `6_thread_characteristics.ipynb` - DONE

Unsuccessful threads `7_unsuccessful_thread_characteristics.ipynb`

9. Regressions - `9_regression.ipynb` - DONE

10. Further regressions - `10_logistic_regressions.ipynb`

Packages