GPT-4能够理解和分析图片中的内容,背后工作原理是什么?
2023-05-17 阅读 13
GPT-4 能看懂图片,靠的是把视觉和语言联合建模的技术流程:先用视觉编码器(比如卷积网络或 Vision Transformer)把图像切成 patch 或提取特征,映射成一串向量 token,再把这些视觉 token 和文字 token 一起喂进多模态 Transformer,通过自注意力在图像和文本之间建立语义对齐。训练阶段用大规模图文配对、对比学习和掩码预测等任务让模型学会把视觉细节映射到语言描述,推理时则利用学到的对齐关系完成图像描述、视觉问答、目标定位等具体任务,同时通常会有下游微调和内容过滤以提高可靠性和安全性。
更新于 2025年12月10日