multi-modality

Here are 99 public repositories matching this topic...

haotian-liu / LLaVA

[NeurIPS'23 Oral] Visual Instruction Tuning (LLaVA) built towards GPT-4V level capabilities and beyond.

chatbot llama multimodal multi-modality gpt-4 foundation-models visual-language-learning chatgpt instruction-tuning vision-language-model llava llama2 llama-2

Updated Aug 12, 2024
Python

BradyFU / Awesome-Multimodal-Large-Language-Models

Star

✨✨Latest Advances on Multimodal Large Language Models

multi-modality instruction-following in-context-learning large-language-models chain-of-thought instruction-tuning visual-instruction-tuning large-vision-language-model multimodal-instruction-tuning large-vision-language-models multimodal-large-language-models multimodal-in-context-learning multimodal-chain-of-thought

Updated Oct 31, 2025

jina-ai / clip-as-service

Star

🏄 Scalable embedding, reasoning, ranking for images and sentences with CLIP

deep-learning pytorch openai bert sentence2vec onnx cross-modality multi-modality image2vec sentence-encoding bert-as-service cross-modal-retrieval neural-search clip-model clip-as-service

Updated Jan 23, 2024
Python

kyegomez / swarms

Sponsor

Star

The Enterprise-Grade Production-Ready Multi-Agent Orchestration Framework. Website: https://swarms.ai

Updated Oct 31, 2025
Python

lucidrains / deep-daze

Star

Simple command line tool for text to image generation using OpenAI's CLIP and Siren (Implicit neural representation network). Technique was originally created by https://twitter.com/advadnoun

deep-learning transformers artificial-intelligence siren text-to-image multi-modality implicit-neural-representation

Updated Mar 13, 2022
Python

EvolvingLMMs-Lab / Otter

Star

🦦 Otter, a multi-modal model based on OpenFlamingo (open-sourced version of DeepMind's Flamingo), trained on MIMIC-IT and showcasing improved instruction-following and in-context learning ability.

machine-learning deep-learning multi-modality artificial-inteligence embodied-ai gpt-4 foundation-models large-scale-models visual-language-learning chatgpt instruction-tuning

Updated Mar 5, 2024
Python

InternLM / InternLM-XComposer

Star

InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions

foundation gpt language-model multimodal multi-modality vision-transformer gpt-4 visual-language-learning llm chatgpt instruction-tuning large-language-model supervised-finetuning mllm vision-language-model large-vision-language-model

Updated May 26, 2025
Python

DLR-RM / 3DObjectTracking

Star

Algorithms and Publications on 3D Object Tracking

tracking real-time computer-vision paper object-tracking rgbd pose-estimation ijcv multi-modality articulated tpami multi-body accv2020 cvpr2022 iros2023

Updated Aug 25, 2025
C++

OpenBMB / VisRAG

Star

Parsing-free RAG supported by VLMs

retrieval multi-modal document-retrieval rag multi-modality document-understanding vision-language-model retrieval-augmented-generation

Updated Oct 22, 2025
Python

NVlabs / Long-RL

Star

Long-RL: Scaling RL to Long Sequences (NeurIPS 2025)

reinforcement-learning multi-modality long-sequence large-language-models sequence-parallelism efficient-ai

Updated Sep 24, 2025
Python

OpenGVLab / Multi-Modality-Arena

Star

Chatbot Arena meets multi-modality! Multi-Modality Arena allows you to benchmark vision-language models side-by-side while providing images as inputs. Supports MiniGPT-4, LLaMA-Adapter V2, LLaVA, BLIP-2, and many more!

chat chatbot vqa gradio multi-modality large-language-models llms chatgpt vision-language-model