LLaMA-VID的输入只有单模态的视觉特征，它是如何说得出电影中人物的姓名的？-有趣的事

LLaMA-VID的输入只有单模态的视觉特征，它是如何说得出电影中人物的姓名的？

2024-02-16 阅读 140

更新于 2024年04月19日