2023年有什么像20年NeRF,21年Diffusion Model一样值得关注的新技术吗?
2023-07-06 阅读 3
2023年有几项影响力很大的新技术和开源成果值得关注:首先是GPT‑4的出现,把大模型的多模态(视觉+文本)能力带到了实用级别,推动了对话式智能和多模态应用的爆发;Meta的LLaMA把高性能开源/可微调大模型带入大众研究和工程生态,催生了大量下游工作;图像生成方向有Stable Diffusion XL,显著提升了图像质量和多样性,配合ControlNet等条件化方法,使生成控制变得可行;计算机视觉方面的Segment Anything Model(SAM)提出了“分割基础模型”的概念,降低了很多视觉任务的入门门槛;多模态对齐方面的ImageBind尝试把音频、触觉等多种模态接入统一表征,拓展了跨模态应用;三维/几何方向有Point‑E等快速从文本生成点云或粗糙3D对象的工作,以及一系列把2D扩展到可用3D(text‑to‑3D、NeRF改进)的进展。总体上,2023年是“多模态、可控生成和开源化”成为主流趋势的一年。
更新于 2025年12月20日