ByteNoteByteNote
Google LiteRT-LM Flutter 插件:在手机端跑 LLM 的完整指南

字节笔记本

2026年6月9日

Google LiteRT-LM Flutter 插件:在手机端跑 LLM 的完整指南

API中转
¥120

Google LiteRT-LM 的 Flutter 插件 flutter_litert_lm 已可用,支持在 Android 和 iOS 设备端通过 CPU、GPU (OpenCL) 或 NPU 加速运行 LLM,无需网络连接和 API 费用。本文整理了当前插件状态、平台支持情况和上手方式。

flutter_litert_lm 插件概览

flutter_litert_lm 是 Google LiteRT-LM 的 Flutter 插件,核心能力:

  • 端侧推理:在设备本地运行 LLM,无需网络、无 API 费用
  • 多硬件加速:支持 CPU (XNNPACK)、GPU (OpenCL)、NPU (Qualcomm HTP、MediaTek APU)
  • 多模型支持:兼容 Gemma、Qwen、Phi、DeepSeek 等主流开源模型
  • 最新版本0.3.0,约 10 天前发布
  • 平台支持:Android 和 iOS

平台支持详情

Android 端(Stable)

Android 是目前最成熟的平台,状态为 Stable

特性支持情况
CPU 推理✅ XNNPACK
GPU 推理✅ OpenCL
NPU 推理✅ Qualcomm HTP、MediaTek APU
最低版本Android API 24 (Android 7.0)

iOS 端(Beta)

iOS 目前限制较多,处于 Beta 状态:

特性支持情况
CPU 推理✅ XNNPACK
GPU 推理❌ 暂不支持
NPU 推理❌ 暂不支持
最低版本iOS 13.0
预编译 Runtime❌ 需自行用 Bazel 编译 XCFramework

⚠️ Google 官方没有提供预编译的 iOS runtime,开发者需要在 Mac 上使用 Bazel 自行编译 XCFramework,首次编译耗时约 30-60 分钟。

上游 LiteRT-LM 的 Flutter 支持

LiteRT-LM v0.12 已正式加入对 Flutter 的社区支持,同时还新增了:

  • Swift API 早期预览
  • Web JavaScript API 早期预览

Google 官方文档指向了社区维护的 flutter_gemma 包(即 flutter_litert_lm 的前身/并行方案),并提供了 Google AI Edge Gallery 示例 App,可在 Android 和 iOS 上体验纯离线 LLM 效果。

快速上手

如果你想在 Flutter 项目中跑端侧 LLM,Android 端步骤非常简单:

1. 添加依赖

pubspec.yaml 中添加:

yaml
dependencies:
  flutter_litert_lm: ^0.3.0

2. 下载模型文件

从 HuggingFace 的 litert-community 组织下载对应的模型文件。

3. 加载并运行

模型下载后即可在设备端直接加载运行,无需任何网络连接。

总结

平台成熟度生产可用推荐场景
AndroidStable✅ 可用直接集成,推荐生产使用
iOSBeta❌ 暂不可用仅适合实验探索

结论:Android 端可以直接把包加到 pubspec.yaml,从 HuggingFace 的 litert-community 组织下载对应模型文件就能跑起来。iOS 端需要额外的 Bazel 编译步骤,且只有 CPU 推理,暂时不适合生产上线。

分享: