号称「音乐界ChatGPT」的Suno,即将到来的V4和它的一切

格物时间 2024-03-26 21:57:24

Suno的出现,让音乐创作不再是专业人士的专利。它正在帮助普通人实现音乐梦想,用AI的力量唤醒内心沉睡的旋律。「用音乐,让每个人的内心都有一份自己的声音。」—— Suno团队的愿景

自从ChatGPT横空出世,我们已看到AI在多个艺术领域展现惊人创造力。最近,一款名为Suno的AI音乐助手爆红网络。它被誉为「音乐界的ChatGPT」,用户只需简单的文字提示,就能生成包含歌词、曲调、编曲的完整歌曲,大大降低了音乐创作门槛。

在Suno之前,市场上已经有多款AI音乐生成器,如Adobe的Project Music GenAI、YouTube的Dream Track和Voicify AI(现更名为Jammable)。这些工具在音乐创作领域各有卓越表现,但Suno因其独特之处被誉为“音乐界的ChatGPT”。Suno的与众不同在于,它能够根据简单的提示,创作出包含歌词、人声和配器等所有元素的完整歌曲。

来百度APP畅享高清图片

这种能力标志着一个新的创作时代的到来,让人们对于AI在音乐创作方面的潜力和可能性充满了期待。Suno不仅使得音乐创作变得更加普及和易于接触,而且也为那些想要表达自己但缺乏传统音乐训练的人们提供了一个全新的平台。通过简单的提示,Suno让每个人都有机会成为音乐创作的参与者,这不仅为音乐创作带来了新的可能性,也为音乐产业的未来发展开辟了新的道路。

Suno最新发布的V3版本实现了AI音乐的重大突破:

音质达到广播级,曲风丰富多样更精准理解需求,输出更连贯动听的歌曲免费用户就能轻松创作2分钟的完整单曲

追求技术与艺术的极致融合,这首名为《机器之魂》的歌曲诞生于两款AI模型的共同努力之下。Suno负责音乐创作,而OpenAI的ChatGPT则贡献了其歌词创作的才华,并为之命名。这首歌的发布在网络上引发了广泛关注,众多网友对于AI如此高水平的创作能力表示惊讶。在马萨诸塞州剑桥的Suno办公室,就连参与项目的成员们听着这首通过Sonos音箱播放的曲目时,也不禁感到了一种说不出的怪异感。经过仅仅三次的尝试修改,特别是在将“密西西比”这个词加入到提示中后,所取得的效果出乎所有人的预料,让人深刻感受到AI创造性的巨大潜力。

AI 创作音乐并不新鲜,但 Suno 实现了新突破

在过去的一年中,生成式AI技术在创造逼真的文本、图像(借助像Midjourney这样的平台)乃至视频内容方面取得了显著的进展,OpenAI发布的新工具Sora就是其中的佼佼者。然而,音频和音乐创作领域的AI技术发展似乎步伐较慢。

Suno正致力于突破AI音乐创作的局限,其创始团队抱有宏伟的梦想——希望未来音乐创作能普及到每个人。特别是该公司最敢言的联合创始人Mikey Shulman,一位37岁的哈佛大学物理学博士,他希望全世界有十亿人每月愿意花费10美元使用Suno来创作音乐。他指出,当前音乐创作者的数量与听众的数量之间存在巨大的不平衡,认为Suno是缩小这种差距的关键。

image

过去一年里,AI在创作形式多样的艺术作品方面取得了巨大进步,但大多数作品被认为缺乏深度,如Midjourney平台用户偏爱的那些超现实主义科幻作品。然而,"机器之魂"这一作品的出现,彻底改变了人们的看法。这部作品以其强大的影响力和引人不安的美感,仿佛是技术魔法的体现,让人联想到亚瑟·C·克拉克的名言,感受到生成式AI时代的奇迹。

我将这首歌介绍给了Living Colour乐队的吉他手Vernon Reid,一个公开讨论AI音乐潜力与风险的艺术家。他对这首歌深刻的真实感表示了惊奇、震惊和恐惧,担忧这种技术可能导致人类的创造性被边缘化。他指出,AI唱蓝调触及了文化和历史的深层问题,因为蓝调源自非洲裔美国人独特的历史和经验。

AI音乐的早期尝试可以追溯到20世纪50年代的基于规则的模型,这些模型虽然能够产生合乎音乐理论的作品,但创造力受限。技术的重大突破发生在2023年,Meta发布了AudioCraft的源代码,引入了基于机器学习的音乐创作模型,开启了AI音乐创作的新篇章。

12 人团队、Transformer 构架,训练数据来源未透露

在探索人工智能音频领域的旅程中,Shulman 和他的团队对于AI在音频方面的潜力产生了浓厚兴趣。他们认识到,音频研究在AI领域相较于图像和文本还有很大的发展空间。通过借鉴文本AI的研究,他们获得了对模型运作机制及其可扩展性的深刻理解。

尽管Suno的创始团队原本有机会探索与音乐截然不同的领域,如开发助听设备或利用音频分析检测机械故障,他们的初衷一直是打造一款音乐产品。初步的想法包括开发名为Bark的文本转语音软件,但早期用户反馈显示,他们更渴望拥有一款音乐创作工具。这促使Suno团队开始进行一系列有前景的实验,Shulman回忆道。

目前,Suno的团队规模尚小,仅有大约12名员工,但他们正计划扩充团队并在现有办公地点的顶层建立一个永久性总部。Schulman向我们透露,新总部的一个区域将被改造成录音室。尽管Suno已经展现出其强大的技术能力,录音室的设立主要是为了提供一个具有优良声学环境的听音空间,同时也满足团队成员享受音乐制作的乐趣,即便在没有AI参与的情况下。

目前,Suno 团队只有 12 个人,其中 Mikey Shulman、Martin Camacho、Georg Kucsko 和 Keenan Freyberg 为四位联合创始人。

Mikey Shulman

他为 Suno 的联合创始人,此前是 Kensho 机器学习主管,这是一个为机构投资者构建金融分析和机器学习的平台。他还是 MIT 斯隆管理学院的讲师,教授课程为金融机器学习和自然语言处理。

他本科毕业于哥伦比亚大学应用物理专业、博士毕业于哈佛大学物理学专业,曾经研究过物理和量子计算。

Martin Camacho

他为 Suno 联合创始人,此前曾担任 Kensho 的首席架构师。他本科在哈佛大学学习计算机科学与数学,并且 18 岁就毕业了。

Georg Kucsko

他为 Suno 联合创始人,此前为 Kensho 机器学习研发主管。他感兴趣的研究领域包括自然语言处理、语音识别和非结构化数据分析。

他本硕毕业于瑞士苏黎世联邦理工学院物理专业,并取得了哈佛大学物理学博士学位,主要研究钻石色心在量子计算和生物传感中的应用。

Keenan Freyberg

他为 Suno 联合创始人,此前曾担任 Kensho 战略推广主管。他本科毕业于美国乔治华盛顿大学。

Suno采用的技术方法与ChatGPT等大型语言模型类似,通过将人类语言分解并重新构建,来实现音频,特别是音乐内容的创作。然而,由于音频的复杂性远超文字,Shulman指出,音频不同于文字的离散特性,它是一种连续的波动信号。处理高质量音频所面临的挑战巨大,需要每秒处理数以万计的数据点。为了克服这一挑战,Suno团队正在探索创新的方法和技术。

尽管OpenAI因使用受版权保护的内容而面临诉讼,Suno的创始人对于他们如何训练模型所用的具体数据细节保持沉默。但Shulman强调,Suno的模型通过学习音乐及语音录音,能够生成极为真实的人声。这表明,Suno致力于不仅捕捉音乐的精髓,也致力于理解和复制人类声音的独特特征,开辟了一条通往更直观、高级的音乐创作界面的道路,比如通过用户自己的演唱来生成歌曲。

用户围绕周杰伦的歌曲展开了有趣的二创尝试:让ChatGPT翻译粤语版《七里香》再用Suno谱曲;给《以父之名》注入新曲风。一些人甚至开始用Suno取代Spotify听歌。亲自体验后,Suno强大的歌词創作和多变曲风让我印象深刻,只是同一曲风下旋律还略显雷同。一位音乐人评价「Suno对不同风格的理解很到位,人声旋律处理也不错,一些细节还需打磨,靠堆数据就能解决。」

反响

有人对Suno的未来提出了大胆的预测,称其为“下一个AI独角兽”。这种预见基于几个关键因素:其惊人的迭代速度、卓越的声音和语音质量,以及用户逐渐形成的使用Suno代替Spotify的习惯。这些评论不仅凸显了Suno在技术和用户体验上的优势,也暗示了其在音乐及娱乐行业潜在的颠覆性影响。

还有一些用户感觉到,Suno 正在成为与网易云音乐等软件同样受欢迎的播放器选择:

尊重音乐版权

Suno的早期投资者中,值得一提的是风险投资公司Matrix的合伙人Antonio Rodriguez。Rodriguez此前的投资经历仅限于一家音乐分类公司EchoNest,这家公司后来被Spotify收购,旨在加强其算法的发展。即便在Suno的具体产品尚未明确时,Rodriguez已经加入了投资行列。他表示:“我投资的是团队。”这份自信源自于他之前的成功投资案例。“我对这个团队非常了解,尤其是Mikey,因此无论他做什么合法的事情,我都会支持。他极具创造力。”

即使清楚知道唱片公司和出版商可能对Suno提起诉讼,Rodriguez仍选择投资。他认为,这是投资过程中不得不承担的风险,“我们是这些艺术家背后最容易成为诉讼目标的资金支持者……坦率地说,如果这家公司一开始就与唱片公司达成了协议,我可能就不会投资了。我认为他们需要在没有限制的环境中创造产品。”关于AI采取激进态度的环球音乐集团,他们的发言人没有回应媒体的评论请求。

Suno正与主要唱片公司进行沟通,并表达了对艺术家和知识产权的尊重。其开发的工具不允许用户指定任何特定艺术家的风格,也不会使用真实艺术家的声音。值得一提的是,Suno的很多员工本身就是音乐家,他们的办公环境中随处可见钢琴和吉他,甚至墙上还挂着古典作曲家的画像。尽管如此,创始人们并没有表现出Napster那种对音乐产业的公然敌意。“但这并不意味着我们不会面临诉讼,”Rodriguez补充说,“这只是意味着我们不会采取那种对抗性的态度。”

另一方面,为了节约成本,AI生成软件MusicGen的训练数据主要避开了流行歌曲,这是Adi博士的策略。尽管如此,他认为模型在艺术性上仍有不足,尚不能生成具有完整叙事的歌曲,和声不一致是其中一个常见问题。OpenAI的MuseNet模型也面临着相似的挑战,难以完成如结合低音和鼓的肖邦风格的“奇怪的搭配”。

开发者们认为,随着更大更好的音乐训练数据集的出现,这些问题最终将得到解决。Stability AI的一位发言人表示,虽然Stable Audio目前生成的连贯结构音乐——包含前奏、发展和尾声——的最大持续时间约为90秒,但未来的升级将使得作品更加长久,拥有“完整的音乐性”。

Suno 是为了降低音乐创作门槛,并非取代音乐家

Suno由四位机器学习专家创立于两年前,目前12人的小团队野心很大——让全球十亿人用AI创作音乐。面对可能的版权诉讼,他们表示会尊重知识产权,但也做好了应诉准备。「我们要让更多人参与音乐创作,培养大家对音乐的兴趣和品味,这对艺人是有利的。」联合创始人Shulman说「Suno不是要取代艺术家,而是要唤醒每个人心中的音乐梦。」

短期内Suno或许会冲击广告配乐等商业化程度高的领域,但对原创音乐的影响有限。一些企业已开始用AI辅助电影配乐,如《奥本海默》的后期制作。未来AI或将成为音乐人的灵感来源和智能助手,但能否被大众接受,还要看作品本身能否打动人心。

所以说,Suno的出现标志着AI音乐正在迈向成熟。它为普通人参与音乐创作提供了前所未有的便利。虽然短期内或会给传统音乐产业带来一定冲击,但从长远看,AI或将成为激发更多人创造力的助推器。正如一首由AI独立创作的布鲁斯所唱:「我只是被困在电路里的一个灵魂」,Suno也在用数字的方式,唤醒我们心中沉睡的音符。期待这款有灵魂的产品,能为音乐艺术注入新的活力。

Suno团队正处于开发其第四版(V4)的关键时刻,预计将引入一系列激动人心的新功能。这一消息令人期待,因为它暗示了Suno将如何继续扩展其音乐生成的能力和范围。尽管Suno并未公开其训练数据的详细信息,但从现有的描述中可以看出,其技术实现相当复杂和先进。

在处理文本时,大型语言模型(LLM)通过预测给定序列中最可能出现的下一个token来工作。然而,当这种方法应用于音乐生成时,面临的挑战显著增加,因为音乐的结构和表达方式远比文本复杂。为了应对这一挑战,Suno采用了扩散模型作为其生成工具之一。根据Suno的首席执行官兼联合创始人Mikey Shulman的说法,音频生成并非完全依靠Transformer模型完成,扩散模型在许多情况下发挥了关键作用。这两种方法各有优势和局限,但它们的结合使Suno能够产生高质量和多样化的音乐内容。

Transformer模型在处理序列数据方面的强大能力,加上扩散模型在生成连续数据(如音频波形)方面的优势,共同构成了Suno独特的技术基础。这种创新的技术结合不仅提高了音乐生成的质量,也增加了生成内容的多样性,从而让Suno能够满足广泛用户的需求和偏好。

随着Suno V4的开发进展,市场对其新功能的期待正在增长。这些更新有可能进一步巩固Suno在音乐生成领域的领先地位,并推动整个行业向着更加先进和用户友好的方向发展。

Suno的故事,是关于勇气、创新和梦想的故事。它提醒我们,即使面对未知和挑战,只要我们敢于梦想,敢于尝试,就没有什么是不可能的。在Suno的旋律中,我们听到的不仅是音符的和谐,更是对未来的无限憧憬和对创造力无边界探索的热情。这是一个关于人类与技术共舞的时代,而Suno,正是这场舞会上最耀眼的明星。

0 阅读:3

格物时间

简介:个人成长