You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
This sample code is given in huggingface idefics3 documentation: here
`import requests
import torch
from PIL import Image
from io import BytesIO
from transformers import AutoProcessor, AutoModelForVision2Seq
from transformers.image_utils import load_image
## Note that passing the image urls (instead of the actual pil images) to the processor is also possible
image1 = load_image("https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg")
image2 = load_image("https://cdn.britannica.com/59/94459-050-DBA42467/Skyline-Chicago.jpg")
image3 = load_image("https://cdn.britannica.com/68/170868-050-8DDE8263/Golden-Gate-Bridge-San-Francisco.jpg")
processor = AutoProcessor.from_pretrained("HuggingFaceM4/Idefics3-8B-Llama3")
model = AutoModelForVision2Seq.from_pretrained("HuggingFaceM4/Idefics3-8B-Llama3", torch_dtype=torch.bfloat16, device_map="auto")
## Create inputs
messages = [
{
"role": "user",
"content": [
{"type": "image"},
{"type": "text", "text": "In this image, we can see the city of New York, and more specifically the Statue of Liberty."},
{"type": "image"},
{"type": "text", "text": "What can we see in this image?"},
]
},
{
"role": "user",
"content": [
{"type": "image"},
{"type": "text", "text": "In which city is that bridge located?"},
]
}
]
prompts = [processor.apply_chat_template([message], add_generation_prompt=True) for message in messages]
images = [[image1, image2], [image3]]
inputs = processor(text=prompts, images=images, padding=True, return_tensors="pt").to(model.device)
## Generate
generated_ids = model.generate(**inputs, max_new_tokens=256)
generated_texts = processor.batch_decode(generated_ids, skip_special_tokens=True)
print(generated_texts[0])
print(generated_texts[1])`
When i use the above code, i get an output like this:
User:In this image, we can see the city of New York, and more specifically the Statue of Liberty.What can we see in this image?
Assistant:orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_
User:In which city is that bridge located?
Assistant: ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
Can anybody please tell me what the issue is? also, for this single inference, it takes several minutes to generate the output.
The text was updated successfully, but these errors were encountered:
Debolena7
changed the title
Issue with IDEFICS3 sample code
Issue with Idefics3 sample code
Dec 20, 2024
This sample code is given in huggingface idefics3 documentation: here
When i use the above code, i get an output like this:
User:In this image, we can see the city of New York, and more specifically the Statue of Liberty.What can we see in this image?
Assistant:orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_orte_
User:In which city is that bridge located?
Assistant: ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
Can anybody please tell me what the issue is? also, for this single inference, it takes several minutes to generate the output.
The text was updated successfully, but these errors were encountered: