
字节笔记本
2026年6月9日
Google LiteRT-LM Flutter 插件:在手机端跑 LLM 的完整指南
Google LiteRT-LM 的 Flutter 插件 flutter_litert_lm 已可用,支持在 Android 和 iOS 设备端通过 CPU、GPU (OpenCL) 或 NPU 加速运行 LLM,无需网络连接和 API 费用。本文整理了当前插件状态、平台支持情况和上手方式。
flutter_litert_lm 插件概览
flutter_litert_lm 是 Google LiteRT-LM 的 Flutter 插件,核心能力:
- 端侧推理:在设备本地运行 LLM,无需网络、无 API 费用
- 多硬件加速:支持 CPU (XNNPACK)、GPU (OpenCL)、NPU (Qualcomm HTP、MediaTek APU)
- 多模型支持:兼容 Gemma、Qwen、Phi、DeepSeek 等主流开源模型
- 最新版本:
0.3.0,约 10 天前发布 - 平台支持:Android 和 iOS
平台支持详情
Android 端(Stable)
Android 是目前最成熟的平台,状态为 Stable:
| 特性 | 支持情况 |
|---|---|
| CPU 推理 | ✅ XNNPACK |
| GPU 推理 | ✅ OpenCL |
| NPU 推理 | ✅ Qualcomm HTP、MediaTek APU |
| 最低版本 | Android API 24 (Android 7.0) |
iOS 端(Beta)
iOS 目前限制较多,处于 Beta 状态:
| 特性 | 支持情况 |
|---|---|
| CPU 推理 | ✅ XNNPACK |
| GPU 推理 | ❌ 暂不支持 |
| NPU 推理 | ❌ 暂不支持 |
| 最低版本 | iOS 13.0 |
| 预编译 Runtime | ❌ 需自行用 Bazel 编译 XCFramework |
⚠️ Google 官方没有提供预编译的 iOS runtime,开发者需要在 Mac 上使用 Bazel 自行编译 XCFramework,首次编译耗时约 30-60 分钟。
上游 LiteRT-LM 的 Flutter 支持
LiteRT-LM v0.12 已正式加入对 Flutter 的社区支持,同时还新增了:
- Swift API 早期预览
- Web JavaScript API 早期预览
Google 官方文档指向了社区维护的 flutter_gemma 包(即 flutter_litert_lm 的前身/并行方案),并提供了 Google AI Edge Gallery 示例 App,可在 Android 和 iOS 上体验纯离线 LLM 效果。
快速上手
如果你想在 Flutter 项目中跑端侧 LLM,Android 端步骤非常简单:
1. 添加依赖
在 pubspec.yaml 中添加:
dependencies:
flutter_litert_lm: ^0.3.02. 下载模型文件
从 HuggingFace 的 litert-community 组织下载对应的模型文件。
3. 加载并运行
模型下载后即可在设备端直接加载运行,无需任何网络连接。
总结
| 平台 | 成熟度 | 生产可用 | 推荐场景 |
|---|---|---|---|
| Android | Stable | ✅ 可用 | 直接集成,推荐生产使用 |
| iOS | Beta | ❌ 暂不可用 | 仅适合实验探索 |
结论:Android 端可以直接把包加到 pubspec.yaml,从 HuggingFace 的 litert-community 组织下载对应模型文件就能跑起来。iOS 端需要额外的 Bazel 编译步骤,且只有 CPU 推理,暂时不适合生产上线。