2023年,第二次人工智能浪潮,因为大模型的”涌现”能力不期而至。
事实上,早在2022年年中,Midjourney、Jasper等图片生成、文字生成类AIGC应用就在海外走红。这使得,当全球大佬们还围绕底层大模型进行”军备竞赛”时,建立在模型基础上的AI应用,已在数量和类型上“百花齐放”。
36氪日前接触到的一家公司「音律闪动」,就是一家以AI写歌为主营业务的公司,当前正在打磨一款名为「歌歌AI写歌」的AI歌曲创作类产品。公司高管告诉36氪,其团队成员长期身处音乐领域,早在上一次AI风靡(即Alphago击败人类)时,就开始探索用AI生成音乐。而2022年,出于对AI写歌领域的持续看好,团队成员聚在一起成立了「音律闪动」,希望做出全球领先的AI写歌类产品。
在全球范围内,AI创作音乐并非新鲜事物——Google、OpenAI,和一些国内外创业公司均有涉猎。但在「音律闪动」团队眼中,这些产品的效果均有不足。
公司COO王枢沛告诉36氪,目前全球范围内的AI创作音乐产品可分为三种技术路线。第一种是符号音乐生成路线。这种方式类似NLP模型的训练——人们需要先标注大量乐谱,再训练,最后形成的产品也是乐谱。但这种方式的弊端在于,生成的结果是乐谱而非音乐,”怎么把乐谱直接变成音乐,目前是一个全球范围内的难题。”王枢沛表示。
另一种是大模型思路,即直接用海量音频训练模型,但这种方式不仅需要高昂资金,生成效果也需要提升。王枢沛解释,音乐里包含的信息量很大,不仅包括歌词、人声和旋律,歌词里还分为各种语义信息,人声里还包括口音、感情表现等,旋律则可能由数十种乐器演奏而成,每种乐器都存在自己的演奏方式。”一首歌里有着庞大的信息量,比训练ChatGPT的难度高很多。”王枢沛表示,当前Google和OpenAI的产品采用这类路线,但在音质、音色、歌词等方面还远不及商用标准。
还有一些初创公司走的是”AI剪辑”路线,就是积累庞大的歌曲素材库,再对这些素材打标,接着用AI进行剪辑。”严格来说,这不属于AI的生成。这些素材被提前准备好,再让AI找出来进行拼接。”王枢沛告诉36氪,在体感上这类歌曲并不流畅,再加上维护庞大的素材库需要花费不少成本,整体投入产出比不高。
对比之下,「音律闪动」团队认为自身产品生成的歌曲已达到商用标准。而且,「歌歌AI写歌」”是唯一能做到整曲生成的产品”。对此王枢沛解释,整曲是说,「歌歌写AI歌」目前已可以生成包括歌词、人声、旋律在内的完整音乐。最终,「歌歌AI写歌」的目标是在数秒内根据用户Prompt生成发行级的华语流行音乐,并覆盖全球所有类型音乐。
他进一步告诉36氪,「歌歌AI写歌」采用的并不是大模型路线,而是由多个专业模型和专家系统组成而成的AI产品。”拿旋律举例,我们会有一个专有模型去做旋律的生成。整体我们有多个专有模型。”他介绍,这样做既保证了效果,算力消耗也不大。再加上,公司此前也积累了不少歌曲的版权,所以训练素材较为丰富。另外,公司还积累了把乐谱转换成音乐的音频算法。王枢沛总结,多种模型、歌曲版权以及对音乐的理解是公司的壁垒。
未来,「音律闪动」的目标用户是全球所有喜欢音乐、唱歌的普通人。公司表示,希望达成全球超过二十亿用户在其平台上进行生成、创作、分享和版权变现的目标。
当前「歌歌AI写歌」正在打磨过程中,计划在接下来的几个月内面世。”我们还会在生成的歌曲整体效果、生成风格的广度上持续打磨。”王枢沛说。
团队方面,公司目前员工人数在20左右。据介绍,CEO龙勇拥有20年音乐制作经验,曾是中国好声音、中国有嘻哈、TME官方合作伙伴,参与制作运营音乐版权总播放量在百亿级别,总版税数亿。COO王枢沛是浙江大学工学/ 美国伯克利音乐学院音乐制作和吉他表演双专业学士,曾任网易AI音乐产品负责人。CTO张文铂曾任阿里巴巴技术总监,是「我要写歌」APP创始人。团队核心成员均来自阿里、网易、字节、Google等音乐AI相关项目。
来源/36氪