手机端能运行什么样的大语言模型?
2024-04-10 阅读 22
能跑什么样的模型主要看手机的内存、算力和是否做量化/优化。体积很小的微型模型(几百万到几亿参数)在普通手机上能实时跑;1B–3B 参数的模型在中高端机、配合 int8/int4 量化和用 GPU/NPU 加速(如通过 ggml/llama.cpp、MLC、CoreML、TFLite/ONNX 等)可以勉强本地推理但延迟和耗电都会高;7B 参数经高度量化和专门框架在旗舰机上也有可能本地运行;13B 及以上通常不适合纯本地运行,常用云端推理或分片混合方案。总体权衡是模型大小、量化精度、响应延迟和电量消耗。
更新于 2026年01月03日