MusicLM：Google 的文本到音乐生成模型

MusicLM 是 Google Research 推出的文本到音乐生成模型，能够根据文本描述生成高质量、24kHz 的音乐。该模型将条件音乐生成过程建模为层次化的序列到序列任务，生成的音乐可保持多分钟的连贯性。

核心特性

MusicLM 在音频质量和文本描述契合度方面均优于以往的系统。其主要特点包括：

该项目由 Google Research 的 Andrea Agostinelli、Timo I. Denk、Zalán Borsos、Jesse Engel 等研究人员共同开发。

MusicLM 能够根据详细的文本描述生成音乐，例如：

支持根据简短提示生成长时间音乐：

通过提供一系列文本提示序列，可以生成随时间演变的音乐：

通过添加旋律嵌入到条件中，MusicLM 可以生成既符合文本提示又遵循所提供旋律的音乐。支持的旋律包括：

可转换的风格包括：无伴奏合唱、电子合成器主音、吉他独奏、萨克斯爵士、歌剧演唱、钢琴独奏、弦乐四重奏等。

MusicLM 还能根据名画的描述生成音乐：

MusicLM 支持多种条件下的音乐生成：

乐器类型：原声吉他、大提琴、电吉他、长笛等

音乐风格：8-bit、ambient、柏林90年代浩室、big beat、蓝调、古典、乡村、迪斯科、鼓打贝斯、回响贝斯、电子、民谣、放克、融合、福音、垃圾摇滚、吉他、嘻哈、浩室、独立、爵士、金属、流行、朋克、雷鬼、摇滚、灵魂乐、合成器流行、技术舞曲、陷阱音乐、世界音乐等

演奏水平：初学者、中级、专业、极速演奏的专业钢琴家

场景氛围：加勒比海滩、越狱、健身房、歌剧、太空、水族馆、冥想等

时代风格：20年代、30年代、40年代、50年代、60年代、70年代、80年代、90年代、2000年代、2010年代、2020年代

为支持未来研究，Google 公开发布了 MusicCaps 数据集，包含 5.5k 音乐-文本对，由人类专家提供丰富的文本描述。