字节笔记本

2026年2月23日

肉包 Roubao:开源 AI Android 自动化助手

本文介绍肉包(Roubao),一款基于视觉语言模型的开源 AI Android 自动化助手。该项目是首款无需电脑即可运行的开源手机自动化工具,采用原生 Kotlin 开发,支持多 Agent 协作架构,让用户通过自然语言指令即可控制手机完成复杂任务。

项目简介

肉包(Roubao) 是一个完全开源的 AI 手机自动化助手,灵感来源于字节跳动与中兴联合发布的「豆包手机助手」。该项目在 GitHub 上已获得 1.7k+ Stars177 Forks,采用 MIT 开源协议

与市面上其他手机自动化方案不同,肉包具有以下独特优势:

  • 无需电脑:完全在 Android 设备上运行,无需连接电脑执行 ADB 命令
  • 无需购买硬件: unlike 豆包手机助手(售价 3499 元),肉包完全免费
  • 原生 Android 实现:使用 Kotlin 重写整个框架,而非 Python 脚本封装
  • 开源可定制:支持自定义 VLM 模型和 API 端点

核心特性

智能 AI Agent

基于先进的视觉语言模型(VLM),肉包能够:

  • "看懂"屏幕内容:通过截图分析当前界面状态
  • 自然语言指令:用户只需说出想做的事,无需学习复杂命令
  • 智能决策:根据屏幕状态自动规划下一步操作

精心设计的 UI

这可能是所有手机自动化开源项目中 UI 做得最好看的:

  • 现代化 Material 3 设计语言
  • 流畅的动画效果
  • 深色/浅色主题自适应
  • 精心设计的首次使用引导
  • 完整的中英文双语支持

高度可定制

  • 支持多种 VLM:阿里云通义千问、OpenAI GPT-4V、Claude 等
  • 预设 API 服务商:阿里云、OpenAI、OpenRouter 一键切换
  • 从 API 动态获取可用模型列表,支持模糊搜索
  • 可配置自定义 API 端点,支持本地模型(Ollama、vLLM 等)

安全保护

  • API Key 使用 AES-256-GCM 加密存储
  • 检测到支付、密码等敏感页面自动停止
  • 任务执行全程可视,悬浮窗显示进度
  • 随时可以手动停止任务
  • 可选的云端崩溃上报(可在设置中关闭)

技术架构

类 Claude Code 的 Tools/Skills 双层架构

受 Claude Code 架构启发,肉包实现了 Tools + Skills 双层 Agent 框架:

text
用户: "帮我点份外卖"
│
▼
┌─────────────┐
│ SkillManager │ ← 意图识别
└─────────────┘
│
┌────┴────┐
│         │
▼         ▼
🚀 快速路径    🤖 标准路径
(Delegation)  (GUI 自动化)
│              │
▼              ▼
直接 DeepLink   Agent 循环
打开小美 AI     操作美团 App

Tools 层(原子能力)

底层工具集,每个 Tool 完成一个独立操作:

Tool功能
search_apps智能搜索已安装应用(支持拼音、语义)
open_app打开应用
deep_link通过 DeepLink 跳转到 App 特定页面
clipboard读写剪贴板
shell执行 Shell 命令
httpHTTP 请求(调用外部 API)

Skills 层(用户意图)

面向用户的任务层,将自然语言映射到具体操作:

Skill类型描述
点外卖(小美)Delegation直接打开小美 AI 让它帮你点
点外卖(美团)GUI 自动化在美团 App 上一步步操作
导航(高德)DelegationDeepLink 直达高德搜索
生成图片(即梦)Delegation打开即梦 AI 生成图片
发微信GUI 自动化自动操作微信发消息

两种执行模式

  • Delegation(委托):高置信度匹配时,直接通过 DeepLink 打开有 AI 能力的 App(如小美、豆包、即梦),让它们完成任务。快速、一步到位。
  • GUI 自动化:没有 AI 能力的 App(如美团、微信),通过传统的截图-分析-操作循环完成。Skill 会提供操作步骤指导,提高成功率。

完整技术栈

text
┌──────────────────────────────────────────────────────────────┐
│ 肉包 App                                                     │
├──────────────────────────────────────────────────────────────┤
│                                                              │
│  ┌─────────────────────────────────────────────────────┐    │
│  │ UI 层 (Compose)                                      │    │
│  │ HomeScreen / Settings / History                      │    │
│  └─────────────────────────────────────────────────────┘    │
│                         │                                    │
│  ┌──────────────────────▼────────────────────────────┐      │
│  │ Skills 层                                           │      │
│  │ SkillManager → 意图识别 → 快速路径/标准路径         │      │
│  └─────────────────────────────────────────────────────┘      │
│                         │                                    │
│  ┌──────────────────────▼────────────────────────────┐      │
│  │ Tools 层                                            │      │
│  │ ToolManager → 原子能力封装                          │      │
│  └─────────────────────────────────────────────────────┘      │
│                         │                                    │
│  ┌──────────────────────▼────────────────────────────┐      │
│  │ Agent 层                                            │      │
│  │ MobileAgent (移植自 MobileAgent-v3)                 │      │
│  │ ┌───────────┬───────────┬───────────┬──────────┐   │      │
│  │ │ Manager   │ Executor  │ Reflector │ Notetaker│   │      │
│  │ │ (规划)    │ (执行)    │ (反思)    │ (记录)   │   │      │
│  │ └───────────┴───────────┴───────────┴──────────┘   │      │
│  └─────────────────────────────────────────────────────┘      │
│                         │                                    │
│  ┌──────────────────────▼────────────────────────────┐      │
│  │ VLM Client                                          │      │
│  │ Qwen-VL / GPT-4V / Claude                           │      │
│  └─────────────────────────────────────────────────────┘      │
│                         │                                    │
├─────────────────────────┼────────────────────────────────────┤
│                         ▼                                    │
│  ┌─────────────────────────────────────────────────────┐    │
│  │ Shizuku                                             │    │
│  │ System-level Control                                │    │
│  │ screencap │ input tap │ input swipe │ am start      │    │
│  └─────────────────────────────────────────────────────┘    │
└──────────────────────────────────────────────────────────────┘

安装指南

前置要求

  • Android 8.0 (API 26) 或更高版本
  • WiFi 网络 - Shizuku 无线调试依赖 WiFi 连接
  • Shizuku - 用于获取系统级控制权限
  • VLM API Key - 视觉语言模型的 API 密钥

安装步骤

1. 安装并启动 Shizuku

Shizuku 是一个开源工具,可以让普通应用获得 ADB 权限,无需 Root。

启动方式(二选一):

无线调试(推荐,需 Android 11+)

  1. 进入 设置 > 开发者选项 > 无线调试
  2. 开启无线调试
  3. 在 Shizuku App 中选择"无线调试"方式启动

电脑 ADB

  1. 手机连接电脑,开启 USB 调试
  2. 执行:adb shell sh /storage/emulated/0/Android/data/moe.shizuku.privileged.api/start.sh

2. 安装肉包

Releases 页面下载最新 APK 安装。

3. 授权与配置

  1. 打开肉包 App
  2. 在 Shizuku 中授权肉包
  3. ⚠️ 重要:进入设置页面,配置你的 API Key

获取 API Key

阿里云通义千问(推荐国内用户)

  1. 访问 阿里云百炼平台
  2. 开通 DashScope 服务
  3. 在 API-KEY 管理中创建密钥

OpenAI(需要代理)

  1. 访问 OpenAI Platform
  2. 创建 API Key

使用示例

安装配置完成后,你可以直接对肉包说出以下指令:

text
帮我点个附近好吃的汉堡
打开网易云音乐播放每日推荐
帮我把最后一张照片发送到微博
帮我在美团点一份猪脚饭
打开B站看热门视频

与同类项目对比

特性肉包豆包手机其他开源方案
需要电脑❌ 不需要❌ 不需要✅ 大多需要
需要购买硬件❌ 不需要✅ 需要 3499+❌ 不需要
原生 Android 实现✅ Kotlin✅ 原生❌ Python
开源✅ MIT❌ 闭源✅ 开源
Skills/Tools 架构✅ 完整❓ 未知❌ 无
UI 设计⭐⭐⭐½⭐⭐⭐⭐⭐⭐
自定义模型✅ 支持❌ 仅豆包✅ 部分支持

项目链接

总结

肉包是一个极具创新性的开源项目,它解决了传统手机自动化方案的痛点:

  1. 无需电脑中转:所有操作在手机上完成,延迟更低
  2. 零技术门槛:普通用户也能轻松使用
  3. 开源可扩展:开发者可以自定义 Skills 和 Tools
  4. 安全可靠:敏感操作自动停止,API Key 加密存储

对于想要体验 AI 手机自动化但又不想购买昂贵硬件的用户来说,肉包是一个绝佳的选择。

分享: