字节笔记本
2026年2月22日
MusicLM:Google 的文本到音乐生成模型
MusicLM 是 Google Research 推出的文本到音乐生成模型,能够根据文本描述生成高质量、24kHz 的音乐。该模型将条件音乐生成过程建模为层次化的序列到序列任务,生成的音乐可保持多分钟的连贯性。
核心特性
MusicLM 在音频质量和文本描述契合度方面均优于以往的系统。其主要特点包括:
- 高保真音频生成:生成 24kHz 采样率的高质量音乐
- 长时连贯性:生成的音乐可保持多分钟的连贯性和一致性
- 文本条件生成:根据丰富的文本描述生成对应风格的音乐
- 旋律条件生成:可根据文本和旋律同时进行条件生成,将哼唱或口哨的旋律转换为指定风格的音乐
研究团队
该项目由 Google Research 的 Andrea Agostinelli、Timo I. Denk、Zalán Borsos、Jesse Engel 等研究人员共同开发。
示例展示
丰富描述生成
MusicLM 能够根据详细的文本描述生成音乐,例如:
- "街机游戏的主背景音乐,节奏快速欢快,带有朗朗上口的电吉他即兴重复段"
- "雷鬼顿与电子舞曲的融合,带有太空感、超凡脱俗的音色"
- "上升的合成器演奏带有大量混响的琶音,由铺垫音色、低音贝斯线和柔和的鼓点伴奏"
长时生成
支持根据简短提示生成长时间音乐:
- melodic techno
- swing
- relaxing jazz
故事模式
通过提供一系列文本提示序列,可以生成随时间演变的音乐:
- 冥想时间 (0:00-0:15) → 醒来时间 (0:15-0:30) → 跑步时间 (0:30-0:45) → 全力以赴 (0:45-0:60)
- 电子游戏歌曲 → 河边冥想歌曲 → 火焰 → 烟花
文本与旋律条件生成
通过添加旋律嵌入到条件中,MusicLM 可以生成既符合文本提示又遵循所提供旋律的音乐。支持的旋律包括:
- Bella Ciao(哼唱/口哨)
- Jingle Bells(口哨/马林巴)
- 莫扎特第25号交响曲(口哨)
- 欢乐颂(哼唱)
- 小星星(钢琴)
可转换的风格包括:无伴奏合唱、电子合成器主音、吉他独奏、萨克斯爵士、歌剧演唱、钢琴独奏、弦乐四重奏等。
绘画描述生成
MusicLM 还能根据名画的描述生成音乐:
- 达利《记忆的永恒》:融化时钟的意象嘲讽了计时时间的僵化
- 大卫《拿破仑翻越阿尔卑斯山》:理想化的历史场景描绘
- 马蒂斯《舞蹈》:红色舞者手拉手的集体自由与欢乐时刻
- 蒙克《呐喊》:恐慌的生物形象与血红色天空的漩涡线条
多样化生成能力
MusicLM 支持多种条件下的音乐生成:
乐器类型:原声吉他、大提琴、电吉他、长笛等
音乐风格:8-bit、ambient、柏林90年代浩室、big beat、蓝调、古典、乡村、迪斯科、鼓打贝斯、回响贝斯、电子、民谣、放克、融合、福音、垃圾摇滚、吉他、嘻哈、浩室、独立、爵士、金属、流行、朋克、雷鬼、摇滚、灵魂乐、合成器流行、技术舞曲、陷阱音乐、世界音乐等
演奏水平:初学者、中级、专业、极速演奏的专业钢琴家
场景氛围:加勒比海滩、越狱、健身房、歌剧、太空、水族馆、冥想等
时代风格:20年代、30年代、40年代、50年代、60年代、70年代、80年代、90年代、2000年代、2010年代、2020年代
MusicCaps 数据集
为支持未来研究,Google 公开发布了 MusicCaps 数据集,包含 5.5k 音乐-文本对,由人类专家提供丰富的文本描述。