Google LiteRT-LM Flutter 插件：在手机端跑 LLM 的完整指南

Google LiteRT-LM 的 Flutter 插件 flutter_litert_lm 已可用，支持在 Android 和 iOS 设备端通过 CPU、GPU (OpenCL) 或 NPU 加速运行 LLM，无需网络连接和 API 费用。本文整理了当前插件状态、平台支持情况和上手方式。

flutter_litert_lm 插件概览

flutter_litert_lm 是 Google LiteRT-LM 的 Flutter 插件，核心能力：

Android 是目前最成熟的平台，状态为 Stable：

iOS 目前限制较多，处于 Beta 状态：

⚠️ Google 官方没有提供预编译的 iOS runtime，开发者需要在 Mac 上使用 Bazel 自行编译 XCFramework，首次编译耗时约 30-60 分钟。

LiteRT-LM v0.12 已正式加入对 Flutter 的社区支持，同时还新增了：

Google 官方文档指向了社区维护的 flutter_gemma 包（即 flutter_litert_lm 的前身/并行方案），并提供了 Google AI Edge Gallery 示例 App，可在 Android 和 iOS 上体验纯离线 LLM 效果。

如果你想在 Flutter 项目中跑端侧 LLM，Android 端步骤非常简单：

1. 添加依赖

在 pubspec.yaml 中添加：

yaml

dependencies:
  flutter_litert_lm: ^0.3.0

2. 下载模型文件

从 HuggingFace 的 litert-community 组织下载对应的模型文件。

3. 加载并运行

模型下载后即可在设备端直接加载运行，无需任何网络连接。

平台	成熟度	生产可用	推荐场景
Android	Stable	✅ 可用	直接集成，推荐生产使用
iOS	Beta	❌ 暂不可用	仅适合实验探索

结论：Android 端可以直接把包加到 pubspec.yaml，从 HuggingFace 的 litert-community 组织下载对应模型文件就能跑起来。iOS 端需要额外的 Bazel 编译步骤，且只有 CPU 推理，暂时不适合生产上线。