Multimodal Deep Learning for movie genre classification (MulT-GMU)

The task is to predict the movie genres from movie trailers (video frames and audio spectrogram), movie plot (text), poster (image) and metadata by using the Moviescope dataset. A new multimodal transformer architecture is proposed (MulT-GMU), which is an extension of MulT model (with dynamic modality fusion).

Publications

This repo contains the code used for the publication of a paper at NAACL 2021 MAI Workshop: Multimodal Weighted Fusion of Transformers for Movie Genre Classification (MulT-GMU)

Usage

Example of comman to run the training script

>> python mmbt/train.py --batch_sz 4 --gradient_accumulation_steps 32 --savedir /home/user/mmbt_experiments/model_save_mmtr --name moviescope_VideoTextPosterGMU_mmtr_model_run --data_path /home/user --task moviescope --task_type multilabel --model mmtrvpp --num_image_embeds 3 --patience 5 --dropout 0.1 --lr 5e-05 --warmup 0.1 --max_epochs 100 --seed 1 --num_heads 6 --orig_d_v 4096 --output_gates

Mult-GMU architecture diagram

Experiments mainly based on:

MulT: Multimodal Transformer for Unaligned Multimodal Language Sequences.
MMBT: "Supervised Multimodal Bitransformers for Classifying Images and Text.
Moviescope Dataset: Moviescope: Large-scale Analysis of Movies using Multiple Modalities.
GMU Gated Multimodal Units for Information Fusion by Arevalo et al.

Versions

python 3.7.6
torch 1.5.1
tokenizers 0.9.4
transformers 4.2.2
Pillow 7.0.0

Name		Name	Last commit message	Last commit date
Latest commit History 89 Commits
mmbt		mmbt
scripts		scripts
.gitignore		.gitignore
Analysis.ipynb		Analysis.ipynb
AnalysisNoEncoders_all.ipynb		AnalysisNoEncoders_all.ipynb
CODE_OF_CONDUCT.md		CODE_OF_CONDUCT.md
CONTRIBUTING.md		CONTRIBUTING.md
LICENSE		LICENSE
Models_comparison.ipynb		Models_comparison.ipynb
README.md		README.md
Visualize_attentions.ipynb		Visualize_attentions.ipynb
conv_feature_extraction.ipynb		conv_feature_extraction.ipynb
gmu.json		gmu.json
list.txt		list.txt
mult-gmu-diagram.png		mult-gmu-diagram.png
test_labels.txt		test_labels.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Multimodal Deep Learning for movie genre classification (MulT-GMU)

Publications

Usage

Mult-GMU architecture diagram

Experiments mainly based on:

Versions

About

Uh oh!

Releases

Packages

Contributors 2

Uh oh!

Languages

License

IsaacRodgz/multimodal-transformers-movies

Folders and files

Latest commit

History

Repository files navigation

Multimodal Deep Learning for movie genre classification (MulT-GMU)

Publications

Usage

Mult-GMU architecture diagram

Experiments mainly based on:

Versions

About

Topics

Resources

License

Code of conduct

Contributing

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Uh oh!

Languages

Packages