字节笔记本

2026年2月23日

AI Recorder - 基于 AI 的实时语音转录工具

本文介绍 AI Recorder,一个基于 AI 的实时语音转录工具,支持客户端和云端 AI 处理。该项目使用 ONNX Web Runtime 实现浏览器端的实时语音活动检测和语音识别,无需后端服务器即可运行。

项目简介

AI Recorder 是由 vthinkxie 开发的开源语音录制工具,目前在 GitHub 上已获得 60 stars。该项目采用 TypeScript 编写(占比 99.3%),基于 Next.js 框架构建,提供实时语音转文字功能。

项目在线演示地址:https://recorder.yadongxie.com

核心特性

  • 实时语音活动检测 (VAD):使用 ONNX Web Runtime 在浏览器端实现,无需服务器参与
  • 语音识别转录:支持两种方式:
    • 本地模式:通过 ONNX Web Runtime 运行 Whisper tiny 模型
    • 云端模式:通过 Lepton AI Serverless API 调用 Whisper
  • 响应式 UI:提供录制状态和处理指示器的可视化反馈
  • 纯前端实现:核心功能完全在浏览器端运行,保护用户隐私

技术栈

  • 框架:Next.js + React + TypeScript
  • 样式:Tailwind CSS
  • AI 运行时:ONNX Web Runtime
  • 语音识别:OpenAI Whisper (tiny.en)
  • 语音检测:Silero VAD
  • 构建工具:Node.js + npm

安装指南

前置要求

  • Node.js
  • npm

安装步骤

bash
# 克隆仓库
git clone https://github.com/vthinkxie/ai-recorder.git
cd ai-recorder

# 安装依赖
npm install

配置 Lepton Token(云端模式)

如需使用 Lepton AI 的云端 Whisper 服务:

  1. 访问 Lepton Dashboard 获取 workspace token
  2. 在项目根目录创建 .env 文件:
bash
LEPTON_TOKEN=your_workspace_token

注意:Lepton AI Whisper 服务定价为 $0.00007/分钟,详情见 Lepton 定价页

启动开发服务器

bash
npm start

应用将在 http://localhost:3000 启动,本地 Whisper 模式可通过 http://localhost:3000/local 访问。

使用示例

本地模式(浏览器端)

访问 http://localhost:3000/local,授权麦克风权限后即可开始录音。语音活动检测会自动识别说话时段,Whisper 模型实时转录为文字。

云端模式

配置 Lepton Token 后访问主页面,使用云端 Whisper API 获得更准确的识别效果。

技术实现细节

语音活动检测 (VAD)

项目使用 Silero VAD 模型通过 ONNX Web Runtime 在浏览器中运行,实现以下功能:

  • 实时检测语音活动
  • 自动分段处理音频
  • 减少无效音频传输

参考项目:

Whisper 集成

使用 OpenAI 的 whisper-tiny.en 模型,通过 ONNX Web Runtime 在客户端运行:

  • 模型大小约 39MB
  • 支持英文语音识别
  • 完全离线运行,保护隐私

项目链接

分享: