手机端有哪些不错的多模态大语言模型?
2024-04-10 阅读 6
手机端比较实用的多模态方案有几类:LLaVA(在LLaMA上做的图文指令模型,经过量化后可配合llama.cpp在高端手机上尝试离线运行)、LLaMA-Adapter / Vision-LLaMA(用轻量视觉适配器把小型LLM变成多模态,适合移动端部署)、BLIP-2(图像理解能力强,配小型LLM推理较轻量)。MiniGPT-4、mPLUG-Owl 等功能更强的模型通常算力需求高,常见做法是服务端推理加移动端前端调用。选型主要看手机算力、能否量化和是否接受云端推理。
更新于 2026年01月03日