Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Issue with Idefics3 sample code #35369

Open
Debolena7 opened this issue Dec 20, 2024 · 0 comments
Open

Issue with Idefics3 sample code #35369

Debolena7 opened this issue Dec 20, 2024 · 0 comments

Comments

@Debolena7
Copy link

Debolena7 commented Dec 20, 2024

This sample code is given in huggingface idefics3 documentation: here


`import requests
import torch
from PIL import Image
from io import BytesIO

from transformers import AutoProcessor, AutoModelForVision2Seq
from transformers.image_utils import load_image

## Note that passing the image urls (instead of the actual pil images) to the processor is also possible
image1 = load_image("https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg")
image2 = load_image("https://cdn.britannica.com/59/94459-050-DBA42467/Skyline-Chicago.jpg")
image3 = load_image("https://cdn.britannica.com/68/170868-050-8DDE8263/Golden-Gate-Bridge-San-Francisco.jpg")

processor = AutoProcessor.from_pretrained("HuggingFaceM4/Idefics3-8B-Llama3")
model = AutoModelForVision2Seq.from_pretrained("HuggingFaceM4/Idefics3-8B-Llama3", torch_dtype=torch.bfloat16, device_map="auto")

## Create inputs
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image"},
            {"type": "text", "text": "In this image, we can see the city of New York, and more specifically the Statue of Liberty."},
            {"type": "image"},
            {"type": "text", "text": "What can we see in this image?"},
        ]
    },
    {
        "role": "user",
        "content": [
            {"type": "image"},
            {"type": "text", "text": "In which city is that bridge located?"},
        ]
    }
]

prompts = [processor.apply_chat_template([message], add_generation_prompt=True) for message in messages]
images = [[image1, image2], [image3]]
inputs = processor(text=prompts, images=images, padding=True, return_tensors="pt").to(model.device)

## Generate
generated_ids = model.generate(**inputs, max_new_tokens=256)
generated_texts = processor.batch_decode(generated_ids, skip_special_tokens=True)

print(generated_texts[0])

print(generated_texts[1])`

When i use the above code, i get an output like this:
User:In this image, we can see the city of New York, and more specifically the Statue of Liberty.What can we see in this image?
Assistant:orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_
User:In which city is that bridge located?
Assistant: ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

Can anybody please tell me what the issue is? also, for this single inference, it takes several minutes to generate the output.

@Debolena7 Debolena7 changed the title Issue with IDEFICS3 sample code Issue with Idefics3 sample code Dec 20, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant