琴乐大模型:腾讯AI音乐创作的新篇章

AI项目4个月前更新 MeoAI
286 0

简介

人工智能技术的飞速发展下,音乐创作领域迎来了革新。腾讯AI Lab与腾讯TME天琴实验室联合研发的「琴乐大模型」,标志着AI音乐创作技术的新里程碑。这一模型不仅能够根据文本描述生成音乐,还能够理解音频内容,实现音乐的自动创作。

功能特色

  1. 音乐生成:模型能够根据用户提供的中英文关键词、描述性语句或音频输入,智能生成音乐。
  2. 乐谱生成:除了生成音频,模型还能生成详细的乐谱,包含旋律、和弦、伴奏和打击乐等多个轨道。
  3. 自动编辑:支持对生成的乐谱进行自动编辑操作,如续写乐谱、重新生成特定的音轨或小节、调整配器等。
  4. 音频文本对齐:通过对比学习技术,模型构建了音频标签或文本描述与音频本身的对齐,增强了音乐生成的相关性和准确性。
  5. 音乐理论遵循:在生成音乐的过程中,模型遵循音乐理论,确保旋律、和弦、节拍等元素符合音乐逻辑和人类审美

如何使用

  1. 访问腾讯音乐启明星平台https://y.qq.com/venus#/并注册账户或使用现有账户登录。
  2. 在体验页面上,输入音乐关键词、语句或描述,这些将作为模型生成音乐的依据。
  3. 选择音乐模型,目前仅有「琴乐大模型」供选择。
  4. 选择音乐时长,可选择10秒至30秒的音乐时长。
  5. 点击开始生成,等待音乐生成,生成后的音乐可以进行播放和下载

技术原理

  1. 音频文本对齐模型:使用对比学习构建音频标签或文本描述与音频之间的共享特征空间。
  2. 乐谱/音频表征提取:模型将乐谱或音频转换为离散的特征序列,为大语言模型的预测提供基础。
  3. 大语言模型预测:使用decoder-only结构,模型通过特征预测训练,实现了从文本到音乐的转换。
  4. 音频恢复:通过流匹配和声码器技术,模型将预测出的音频表征序列恢复成可听音频。
  5. 多模块协同工作:模型包含了多个模块,这些模块协同工作以实现音乐生成的效果。
  6. 端到端的生成流程:实现了从文本输入到音频输出的端到端生成流程,减少了人工干预,提高了音乐创作的效率

技术难点与创新 音频内容的理解和生成相较于文本或图片具有更高的技术难度,主要体现在以下几个方面:

  1. 高采样率带来的序列长度:音频的高采样率导致生成一首标准长度歌曲需要处理数以百万计的采样点。
  2. 时间序列信号的复杂性:音频作为一个时间序列信号,包含了不同声音事件的叠加,需要满足音乐理论与人类听觉偏好。
  3. 缺乏局部性:与图像或文本不同,音频信号不具有明显的局部性特征,这增加了建模的难度。

针对这些难点,「琴乐大模型」采取了一系列创新性技术策略:

技术架构

  1. 音频文本对齐模型:采用对比学习构建音频标签或文本描述与音频之间的共享特征空间,实现条件控制信号的生成。
  2. 乐谱/音频表征提取:将乐谱或音频转换为离散的特征序列,为大语言模型提供输入。
  3. 大语言模型预测:使用decoder-only结构的大语言模型进行特征预测训练,实现音乐元素的连续生成。
  4. 流匹配与声码器技术:在生成音频的过程中,使用流匹配技术和声码器模块,将预测出的音频表征序列转换为可听音频。

模块协同工作机制

  1. 训练与推理解耦:音频文本对齐模型的训练与生成模型的训练可以独立进行,提高训练效率。
  2. 无文本标签音频训练:生成模型可以利用没有文本标签的音频进行训练,扩大了训练数据的来源。
  3. 乐谱渲染与音频重渲染:预测出的MIDI属性序列可以转换为乐谱并生成音频,再通过流匹配与声码器模块进行音频重渲染,增强真实性。

 

© 版权声明

相关文章

暂无评论

Avatar photo
暂无评论...