字
字节笔记本
2026年2月23日
AI Recorder - 基于 AI 的实时语音转录工具
本文介绍 AI Recorder,一个基于 AI 的实时语音转录工具,支持客户端和云端 AI 处理。该项目使用 ONNX Web Runtime 实现浏览器端的实时语音活动检测和语音识别,无需后端服务器即可运行。
项目简介
AI Recorder 是由 vthinkxie 开发的开源语音录制工具,目前在 GitHub 上已获得 60 stars。该项目采用 TypeScript 编写(占比 99.3%),基于 Next.js 框架构建,提供实时语音转文字功能。
项目在线演示地址:https://recorder.yadongxie.com
核心特性
- 实时语音活动检测 (VAD):使用 ONNX Web Runtime 在浏览器端实现,无需服务器参与
- 语音识别转录:支持两种方式:
- 本地模式:通过 ONNX Web Runtime 运行 Whisper tiny 模型
- 云端模式:通过 Lepton AI Serverless API 调用 Whisper
- 响应式 UI:提供录制状态和处理指示器的可视化反馈
- 纯前端实现:核心功能完全在浏览器端运行,保护用户隐私
技术栈
- 框架:Next.js + React + TypeScript
- 样式:Tailwind CSS
- AI 运行时:ONNX Web Runtime
- 语音识别:OpenAI Whisper (tiny.en)
- 语音检测:Silero VAD
- 构建工具:Node.js + npm
安装指南
前置要求
- Node.js
- npm
安装步骤
bash
# 克隆仓库
git clone https://github.com/vthinkxie/ai-recorder.git
cd ai-recorder
# 安装依赖
npm install配置 Lepton Token(云端模式)
如需使用 Lepton AI 的云端 Whisper 服务:
- 访问 Lepton Dashboard 获取 workspace token
- 在项目根目录创建
.env文件:
bash
LEPTON_TOKEN=your_workspace_token注意:Lepton AI Whisper 服务定价为 $0.00007/分钟,详情见 Lepton 定价页
启动开发服务器
bash
npm start应用将在 http://localhost:3000 启动,本地 Whisper 模式可通过 http://localhost:3000/local 访问。
使用示例
本地模式(浏览器端)
访问 http://localhost:3000/local,授权麦克风权限后即可开始录音。语音活动检测会自动识别说话时段,Whisper 模型实时转录为文字。
云端模式
配置 Lepton Token 后访问主页面,使用云端 Whisper API 获得更准确的识别效果。
技术实现细节
语音活动检测 (VAD)
项目使用 Silero VAD 模型通过 ONNX Web Runtime 在浏览器中运行,实现以下功能:
- 实时检测语音活动
- 自动分段处理音频
- 减少无效音频传输
参考项目:
Whisper 集成
使用 OpenAI 的 whisper-tiny.en 模型,通过 ONNX Web Runtime 在客户端运行:
- 模型大小约 39MB
- 支持英文语音识别
- 完全离线运行,保护隐私
项目链接
- GitHub 仓库:https://github.com/vthinkxie/ai-recorder
- 在线演示:https://recorder.yadongxie.com
- 许可证:MIT License
分享: