Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

如何使得MiniCPM-Llama3-V-2.5识别图片中是否存在某个图案 #303

Open
2 tasks done
mobguang opened this issue Jun 27, 2024 · 7 comments
Open
2 tasks done

Comments

@mobguang
Copy link

mobguang commented Jun 27, 2024

是否已有关于该错误的issue或讨论? | Is there an existing issue / discussion for this?

  • 我已经搜索过已有的issues和讨论 | I have searched the existing issues / discussions

该问题是否在FAQ中有解答? | Is there an existing answer for this in FAQ?

  • 我已经搜索过FAQ | I have searched FAQ

当前行为 | Current Behavior

目前可以通过微调使得MiniCPM-Llama3-V-2.5可以从特定图片中提取需要的文字。

想知道如何通过使得MiniCPM-Llama3-V-2.5能识别出图片中是否存在某个图案,例如,如何判断下面截图车辆仪表板是否存在红框中的图标。

两个问题:
1. 这类识别,是否有建议的prompt;
2. 如何通过微调来帮助MiniCPM-Llama3-V-2.5提升这类问题的识别率,dataset.json的格式是怎样的;

感谢指导!

dashboard

@zhwuwuwu
Copy link

Similar question, does MiniCPM-V support downstream tasks such as referring expression comprehension (REC)

@LDLINGLINGLING
Copy link

首先,是否存在识别某一类物体,或者ocr,rec等能力,只能在您的业务领域进行尝试。
第二。finetune及其dataset格式参照以下网站:https://github.com/OpenBMB/MiniCPM-V/blob/main/finetune/readme.md

@mobguang
Copy link
Author

mobguang commented Jul 2, 2024

@LDLINGLINGLING

谢谢回复。
https://huggingface.co/spaces/openbmb/MiniCPM-Llama3-V-2_5 的demo上尝试确认图片左边的速度仪表盘下发是否存在红色图标(就是我用红框标识的区域内,这个红框是截图时加上去的),图片中没有任何红色图标,但模型还是反馈存在一个图标。看起来模型没理解我的问题。

所以,能否指导一下,对于这类问题prompt有没有最佳实践,谢谢。

image

@LDLINGLINGLING
Copy link

我的建议是可能需要增加一些负样本训练去增加模型的理解,看上面的回复应该是找到了中间的那个警告符号,这个符号也是在140和0之间,只不过颜色搞错了

@mobguang
Copy link
Author

mobguang commented Jul 4, 2024

@LDLINGLINGLING
后来我接着让模型描述一下它识别出来的这个图标外形,它实际上识别的是屏幕中间那个黄色八边形中间有感叹号的图形,而不是专注在左边速度仪表盘数字0和140之间的区域。

所以我在提问时,要做哪些强化或调整,能否麻烦指导一下,谢谢。

image

@LDLINGLINGLING
Copy link

其实prompt的话我是没有标准答案的

@mobguang
Copy link
Author

mobguang commented Jul 5, 2024

好的,谢谢。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants