手机端能运行什么样的大语言模型？-有趣的事

首页

手机端能运行什么样的大语言模型？

2024-04-10 阅读 29

能跑什么样的模型主要看手机的内存、算力和是否做量化/优化。体积很小的微型模型（几百万到几亿参数）在普通手机上能实时跑；1B–3B 参数的模型在中高端机、配合 int8/int4 量化和用 GPU/NPU 加速（如通过 ggml/llama.cpp、MLC、CoreML、TFLite/ONNX 等）可以勉强本地推理但延迟和耗电都会高；7B 参数经高度量化和专门框架在旗舰机上也有可能本地运行；13B 及以上通常不适合纯本地运行，常用云端推理或分片混合方案。总体权衡是模型大小、量化精度、响应延迟和电量消耗。

更新于 2026年01月03日

陕ICP备13008705号-1 Chat Gpt Api