Posts Tagged "端侧推理"

Android 端侧大模型推理全链路:从 LiteRT 到 MediaPipe LLM Inference API 的引擎选型与工程化实践

深入探讨 Android 端侧 LLM 推理的引擎选型(LiteRT、ONNX Runtime、MediaPipe LLM Inference API)、INT4 量化策略、GPU Delegate 调度优化与机型降级方案,提供可落地的工程化实践参考。