将大模型转为ONNX之后，为什么使用onnxruntime推理速度变慢很多？-有趣的事

将大模型转为ONNX之后，为什么使用onnxruntime推理速度变慢很多？

2023-05-10 阅读 47

将大模型转为ONNX文件后，使用onnxruntime进行推理速度变慢可能是由于以下原因：

ONNX模型转换过程中可能会导致一些精度损失，这可能会影响模型的性能。
ONNX模型在转换过程中可能会被优化，但是这些优化可能不利于某些硬件或软件平台的性能。因此，在某些平台上使用onnxruntime可能会导致性能下降。
ONNX模型可能包含一些操作，这些操作在onnxruntime中可能不被支持，因此onnxruntime可能需要将这些操作转换为其他操作，这可能会导致性能下降。
ONNX模型可能包含一些特殊的优化，这些优化在onnxruntime中可能不被支持，因此onnxruntime可能需要使用较慢的通用代码来执行这些操作，这可能会导致性能下降。

总之，使用onnxruntime进行推理速度变慢很多可能是由于模型转换过程中的精度损失、优化问题、不支持的操作或特殊优化等问题导致的。要解决这些问题，可以尝试使用其他框架或工具进行模型转换和推理。

更新于 2023年05月11日

怎么样在Java中运行pt模型，运用在目标检测上？

大模型LLM领域，有哪些可以作为学术研究方向？

深度学习怎么正确进行模型量化后trace？

大规模利用自适应神经模糊推理（ANFIS）系统的瓶颈在什么地方？

为什么大模型输入输出往往只有2K, 4K token?

大模型小型化的混合优化方法有哪些？

各家手机厂商搭载在手机端的大模型有什么特点？分享一下使用感受？

200k输入输出的大模型如何做训练与推理？

国内大模型，成本最低、最有效的应用方式有哪些?

如果想把大模型放在手机里运行，有可能实现吗？

如何基于深度学习大模型开展小模型的研发，如何把大模型和小模型相结合？

大模型缓存有必要吗？

深度学习编译器和推理引擎的区别是什么？

如何在GPT模型中优化kv-cache的使用？

4090不支持nvlink，在训练深度学习模型时具体的表现是什么？

有限资源设备是否可以运行大模型？

成都人形机器人创新中心首发高速推理模型，该模型的反应速度与人类相比如何？

如何把公式结果转为数值后再恢复为公式结果呢?

GPT模型单次inference输入生成下一个token，为什么会产生kv-cache？

在金融销售领域中，如何优化GPT模型的运算速度？

大模型推理加速技术的学习路线是什么?

GPT模型如何有效地进行kv-cache管理？

如何优化GPT模型多次inference所产生的kv-cache对芯片的负担？

实验室一块GPU都没有怎么做深度学习？

如何将大模型轻量的部署到端测设备，如何轻量的微调大模型以服务于下游的小数据领域，这两个问题有论文吗？

大家在工作中都什么时候会用到open ai Triton？

chatgpt反应好慢是什么原因。?

大模型推理prefill阶段和decode阶段的batchsize各自应该如何计算？

大模型成为AI的主流之后，对类似人脸识别以及其他用深度学习做的“小”模型，会产生什么技术影响？

LLM大模型的能做的事，是否都可以分成几个小模型分别做？

Kimi 新一代数学推理模型 k0-math 正式上线，该模型在用户交互体验上有哪些优化？

用什么经济学原理来解释经济高速增长转为低速增长这种换档现象？

杆球模型圆周运动小球到最高点后水平速度为什么先增后减?

哪些原因会导致网络速度变慢？

怎样部署目标跟踪模型到网页？

PTQ量化后模型的推理性能并没有提升，这是什么原因呢？

按现在的科技发展水平，需要多少年才能在个人终端上本地运行 GPT-4 这样的大模型？

大模型是参数量越大越好吗？边界在哪里？

你们有没有觉得特来电开会员后充电速度变慢？

我的手冲咖啡为什么过滤速度很慢？

crh3火车模型在轨道上频闪速度慢是怎么回事？

谷歌新 AI 基础模型 Palm2 上线，该产品有哪些科技亮点？

为什么我的手机充电的速度比不上用电的速度(正常充电器)?

各位佬给个本科毕业论文指路，多模态逻辑推理方向，不知道选什么模型以及改动的方向？

surface运行速度变慢如何变快?

关于深度学习中多卡训练速度疑问，4090多卡pcie通道训练小参数模型是否会比单卡更慢？

怎么用azure创建openAI模型?

Mathematica如何在聊天笔记本中使用本地推理的开源大模型而不是ChatGPT？

马自达转子，二挡红线速度变慢了是怎么回事?