LLaMA-VID的输入只有单模态的视觉特征,它是如何说得出电影中人物的姓名的?

2024-02-16 阅读 22
更新于 2024年04月19日