每个块包含10个残差层
作者:dede58来源:dede58.com时间:2019-08-08

  随后,研究人员评估了不同条件下人类演奏音乐与模型生成音乐间的归一化相关性。

  让音乐转变风格,甚至将口哨变成交响乐的秘密,都藏在一个通用的音乐转换网络里了。

  这个编码器是一个全卷积网络,它由三个块组成,每个块包含10个残差层,可应用到任意序列长度。

  原标题:ICLR19论文:口哨声变交响乐,神经网络一键改变音乐风格,LeCun推荐 已开源

  除了借助了Wavenet的架构,这个通用转换网络还具有一个共享编码器和进行端到端波形训练的解缠潜空间(disentangled latent space)。

  研究人员记录了改编过音频的MOS分数(平均评价计分),结果显示,模型显示的音频质量略低于人类演奏的音频质量。

  其次,每个残差层均包含一个随着核心尺寸增加而增加的扩张卷积、一个非线性单元RELU,还有一个1×1 卷积,固定宽度为128个通道。

  这是一种横跨乐器、流派和风格的音乐转换方法,在多域Wavenet自编码器的基础上改造而来。这是此前谷歌研究出的一种原始音频波形生成模型,波形生成速度快,并且效果逼真。

  它将海顿的弦乐四重奏转换成巴赫的大合唱、贝多芬的钢琴曲。让经典的吉他演奏,摇身一变成了优雅的莫扎特交响乐。

  目前,这个项目的论文已被ICLR19接收,还获得了图灵奖得主、深度学习大牛Yann LeCun的转推,推特上已经近600赞。

  通过部署多样的训练数据集和大型网络的容量,独立域的编码器支持将音乐转换成训练过程中未曾见过的音乐域。这种无监督学习方法,不依赖于域或者是音乐的转录间匹配过样本的监督。

  研究人员用此前DeepMind发布的声音合成器NSynth和从人类专业音乐家演奏的数据集上的数据评估这种方法。

名人养生

饮食养生
  • 我已经找到了最简单的方法
  • 是哪个年代发明的
  • 关于走哪个属强的问题
热点关键词

Copyright © 2002-2017 梦想科技 版权所有   
网站地图