AI Recorder - 基于 AI 的实时语音转录工具

本文介绍 AI Recorder，一个基于 AI 的实时语音转录工具，支持客户端和云端 AI 处理。该项目使用 ONNX Web Runtime 实现浏览器端的实时语音活动检测和语音识别，无需后端服务器即可运行。

项目简介

AI Recorder 是由 vthinkxie 开发的开源语音录制工具，目前在 GitHub 上已获得 60 stars。该项目采用 TypeScript 编写（占比 99.3%），基于 Next.js 框架构建，提供实时语音转文字功能。

项目在线演示地址：https://recorder.yadongxie.com

核心特性

实时语音活动检测 (VAD)：使用 ONNX Web Runtime 在浏览器端实现，无需服务器参与
语音识别转录：支持两种方式：
- 本地模式：通过 ONNX Web Runtime 运行 Whisper tiny 模型
- 云端模式：通过 Lepton AI Serverless API 调用 Whisper
响应式 UI：提供录制状态和处理指示器的可视化反馈
纯前端实现：核心功能完全在浏览器端运行，保护用户隐私

技术栈

框架：Next.js + React + TypeScript
样式：Tailwind CSS
AI 运行时：ONNX Web Runtime
语音识别：OpenAI Whisper (tiny.en)
语音检测：Silero VAD
构建工具：Node.js + npm

安装指南

前置要求

Node.js
npm

安装步骤

bash

# 克隆仓库
git clone https://github.com/vthinkxie/ai-recorder.git
cd ai-recorder

# 安装依赖
npm install

配置 Lepton Token（云端模式）

如需使用 Lepton AI 的云端 Whisper 服务：

访问 Lepton Dashboard 获取 workspace token
在项目根目录创建 .env 文件：

bash

LEPTON_TOKEN=your_workspace_token

注意：Lepton AI Whisper 服务定价为 $0.00007/分钟，详情见 Lepton 定价页

启动开发服务器

bash

npm start

应用将在 http://localhost:3000 启动，本地 Whisper 模式可通过 http://localhost:3000/local 访问。

使用示例

本地模式（浏览器端）

访问 http://localhost:3000/local，授权麦克风权限后即可开始录音。语音活动检测会自动识别说话时段，Whisper 模型实时转录为文字。

云端模式

配置 Lepton Token 后访问主页面，使用云端 Whisper API 获得更准确的识别效果。

技术实现细节

语音活动检测 (VAD)

项目使用 Silero VAD 模型通过 ONNX Web Runtime 在浏览器中运行，实现以下功能：

实时检测语音活动
自动分段处理音频
减少无效音频传输

参考项目：

Whisper 集成

使用 OpenAI 的 whisper-tiny.en 模型，通过 ONNX Web Runtime 在客户端运行：

模型大小约 39MB
支持英文语音识别
完全离线运行，保护隐私

项目链接

GitHub 仓库：https://github.com/vthinkxie/ai-recorder
在线演示：https://recorder.yadongxie.com
许可证：MIT License

字节笔记本

AI Recorder - 基于 AI 的实时语音转录工具

项目简介

核心特性

技术栈

安装指南

前置要求

安装步骤

配置 Lepton Token（云端模式）

启动开发服务器

使用示例

本地模式（浏览器端）

云端模式

技术实现细节

语音活动检测 (VAD)

Whisper 集成

项目链接