字节笔记本

2026年2月22日

MusicLM:Google 的文本到音乐生成模型

MusicLM 是 Google Research 推出的文本到音乐生成模型,能够根据文本描述生成高质量、24kHz 的音乐。该模型将条件音乐生成过程建模为层次化的序列到序列任务,生成的音乐可保持多分钟的连贯性。

核心特性

MusicLM 在音频质量和文本描述契合度方面均优于以往的系统。其主要特点包括:

  • 高保真音频生成:生成 24kHz 采样率的高质量音乐
  • 长时连贯性:生成的音乐可保持多分钟的连贯性和一致性
  • 文本条件生成:根据丰富的文本描述生成对应风格的音乐
  • 旋律条件生成:可根据文本和旋律同时进行条件生成,将哼唱或口哨的旋律转换为指定风格的音乐

研究团队

该项目由 Google Research 的 Andrea Agostinelli、Timo I. Denk、Zalán Borsos、Jesse Engel 等研究人员共同开发。

示例展示

丰富描述生成

MusicLM 能够根据详细的文本描述生成音乐,例如:

  • "街机游戏的主背景音乐,节奏快速欢快,带有朗朗上口的电吉他即兴重复段"
  • "雷鬼顿与电子舞曲的融合,带有太空感、超凡脱俗的音色"
  • "上升的合成器演奏带有大量混响的琶音,由铺垫音色、低音贝斯线和柔和的鼓点伴奏"

长时生成

支持根据简短提示生成长时间音乐:

  • melodic techno
  • swing
  • relaxing jazz

故事模式

通过提供一系列文本提示序列,可以生成随时间演变的音乐:

  • 冥想时间 (0:00-0:15) → 醒来时间 (0:15-0:30) → 跑步时间 (0:30-0:45) → 全力以赴 (0:45-0:60)
  • 电子游戏歌曲 → 河边冥想歌曲 → 火焰 → 烟花

文本与旋律条件生成

通过添加旋律嵌入到条件中,MusicLM 可以生成既符合文本提示又遵循所提供旋律的音乐。支持的旋律包括:

  • Bella Ciao(哼唱/口哨)
  • Jingle Bells(口哨/马林巴)
  • 莫扎特第25号交响曲(口哨)
  • 欢乐颂(哼唱)
  • 小星星(钢琴)

可转换的风格包括:无伴奏合唱、电子合成器主音、吉他独奏、萨克斯爵士、歌剧演唱、钢琴独奏、弦乐四重奏等。

绘画描述生成

MusicLM 还能根据名画的描述生成音乐:

  • 达利《记忆的永恒》:融化时钟的意象嘲讽了计时时间的僵化
  • 大卫《拿破仑翻越阿尔卑斯山》:理想化的历史场景描绘
  • 马蒂斯《舞蹈》:红色舞者手拉手的集体自由与欢乐时刻
  • 蒙克《呐喊》:恐慌的生物形象与血红色天空的漩涡线条

多样化生成能力

MusicLM 支持多种条件下的音乐生成:

乐器类型:原声吉他、大提琴、电吉他、长笛等

音乐风格:8-bit、ambient、柏林90年代浩室、big beat、蓝调、古典、乡村、迪斯科、鼓打贝斯、回响贝斯、电子、民谣、放克、融合、福音、垃圾摇滚、吉他、嘻哈、浩室、独立、爵士、金属、流行、朋克、雷鬼、摇滚、灵魂乐、合成器流行、技术舞曲、陷阱音乐、世界音乐等

演奏水平:初学者、中级、专业、极速演奏的专业钢琴家

场景氛围:加勒比海滩、越狱、健身房、歌剧、太空、水族馆、冥想等

时代风格:20年代、30年代、40年代、50年代、60年代、70年代、80年代、90年代、2000年代、2010年代、2020年代

MusicCaps 数据集

为支持未来研究,Google 公开发布了 MusicCaps 数据集,包含 5.5k 音乐-文本对,由人类专家提供丰富的文本描述。

相关资源

分享: