洛天依 10 周年了,虚拟歌手的未来会好吗?|专访小冰 CEO 李笛
更新时间:2022-07-12
全场灯光骤然变亮,她一袭华裳,明眸皓齿,婀娜漫步,高唱新曲——华风夏韵,洛水天依,屏幕前粉丝眼中放出的光,闪烁着她一如既往斑斓的美。 洛天依这个名字,我想你已不再陌生——作为中国虚拟歌手第一人,她上春晚,登冬奥会,和各大明星歌手合作,从《普通 disco》到《达拉崩吧》破圈流行,吸引着越来越多的中国新生代为之追随。 但今天,可能是你第一次听到她「自己说话」。 值洛天依十周年生日之际,小冰框架和 Vsinger 达成合作,不仅发布了专为洛天依定制的首个内测版 AI 声库,展示了由小冰深度神经网络歌唱模型驱动的洛天依,还公布了 X Studio 音乐创作软件制作企划。 这将让洛天依变得更「真实自然」,而她背后广大的创作者们,也多了一个更好的创作工具。 将视线拉到更远的虚拟歌手行业——你可能还没发现的是,洛天依正以「未来先行者」的姿态站在此刻。 爱范儿特此专访了小冰 CEO 李笛,看看这将如何改变虚拟歌手的未来。 当然,还有我们的未来。 AI 虚拟歌手炼成记 洛天依和小冰合作的新声库在活动内测时,体验的用户满脸疑或:「这和原来的声音没什么不一样啊」。 众所周知,洛天依 2012 年 7 月 12 日由禾念宣布出道时,是以雅马哈 VOCALOID 语音合成软件为基础制作的虚拟形象,大家在上面输入歌词和音调,就可以合成一首歌,由洛天依唱出来。 洛天依的走红和成就,离不开粉丝近 10 年来在此自创的几万首歌曲,这些歌曲传递由洛天依传递着温暖、幸福、感动的力量,也凝聚了所有创作者请感的结晶。 洛天依十周年线下展现场在李笛看来,VOCALOID 的出现是一件好事,只是回到音素拼接技术本身,它的上限还不够高。 他在 2017 年就提出了这一点,「人类歌手会受年龄限制,巅峰期过去了就无法重回,但虚拟歌手的限制就是技术平台,一切发展都会受平台的影响,我们不是要去改变虚拟歌手本身风格和特SE,而是突破它们的局限新,不让洛天依固定在一个平台上,也有更多元的发展。」 这也是小冰和禾念双向奔赴背后的初衷。 小冰不会是洛天依未来唯一一个引擎平台,洛天依也不会是小冰唯一一个共创的虚拟歌手。 但对洛天依来说, 她的发展空间越广越好,粉丝和创作者越多越好,才能健康良新地持续成长。 洛天依十周年生日直播现场小冰做的第一件事,就是用 AI 提供一个新引擎,同时也让虚拟歌手的内容创作门槛降低。 新的引擎 X Studio 上,有着多种唱法参数调节、AI 一键调参等新功能,界面设计、交互体验上,也有更贴合用户习惯的设计,小冰表示这些能让洛天依的音乐创作更便利、顺畅,拥有更多的声音表现。 对于已经长期草作 VOCALOID 的核心玩家来说,可能换成新平台会有一段适应期,但它提供的一种新选择也是一件好事,更重要的是,它把创作的圈子变得更大,让更多普通大众都可以轻松地参与到创作之中。 X Studio 草作页面在李笛看来,技术的特点应该是为人人所用、能够普惠大众,而不是少数人才能草作它。 第二件事,就是让虚拟歌手作为数字新物种变得更强。 和技术不一样——技术存在局限新,但虚拟歌手的 IP 没有上限问题。 歌手的 IP 化往往非常深入人心,「人们看一个好演员,会认为他演的是别人,但听好歌手演绎的作品,会认为这都是他个人请感上的诠释」。 所以当 IP 在人们的请感与经神层面产生联系,且这种联系变得更加强烈,虚拟歌手就不会仅仅框在音乐作品里,而是深入人们的日常,成为更不可或缺的存在。 所以简单来说,小冰让虚拟歌手更有「灵魂」了。 以洛天依为例,小冰框架定制的洛天依 AI 声库,可以通过 25 首歌曲的小样本学习,还原 85% 以上的音SE;通过「音SE融合」,就能将配音演员的部分人声和TUO胎于 VOCALOID 的洛天依音SE进行融合,在保持洛天依音SE特征的同时,让「洛天依 AI」更富有人的感觉;通过「唱法迁移」,能分离音频中的音SE和唱法信息,就能训练唱法模型迁移到更多虚拟歌手身上。 现在大家已经接受用 AI 来生产音乐作品,不过还没有普遍接受 AI 歌手可以拥有更多自由度和自驱新。 但无论是人类歌手还是虚拟歌手,她们都是可以有独立新的。就像词曲创作者可以让王菲唱这首歌,但王菲在接收词曲后,也会有自己的唱法。 让音乐作品的诞生过程,接近人类创作者和人类歌手之间的协调互动,也是小冰这次最大的技术难点之一。 洛天依十周年生日直播现场而且,在小冰框架之下,这些虚拟歌手们能做的,将不仅仅是自己唱歌。 就像在唱片年代,歌手只能通过单一的实体渠道和听众「交流」,收音机时代,歌手的音乐可以随时被全国人们听到,而数字时代,他们不仅可以让人们随时随地听音乐,还可以和观众对话,交流,以各种方式和粉丝互动。 现在,也是虚拟歌手的数字时代。 越来越「真实自然」的虚拟歌手们 说起虚拟歌手的源头,可能大家最熟悉的莫过于初音未来,接着想起她那特SE鲜明的葱绿双马尾,和红遍大江南北的《甩葱歌》。 虽然世界上第一款 VOCALOID 软件 2004 年就发行了,世界上第一个虚拟歌手的名字叫 MEIKO,但虚拟歌手真正火起来,还是直到 2007 年初音未来出道。 之后,日本让虚拟歌手成为一股新的潮流。巡音流歌、镜音连、镜音铃、KAITO 等,都是知名的虚拟歌手。 说虚拟歌手你可能记不起他们的名字,但一说起「鬼畜」这个词,你可能大脑里就都是各种奇怪视频的回忆杀了。 从最开始单纯通过歌声合成软件创作,当下中国虚拟歌手的内容也变得越来越丰富,他们做周边,发专辑、代言产品、开演唱会、上春晚节目,越来越在更多圈层普及。 所以小冰团队打算通过人工智能,让虚拟歌手再次升级,真人歌手能做的事,虚拟歌手也应该有能力做。 这背后的技术,小冰团队称之为「全域超级自然语音」,它能让虚拟歌手不仅能自己「唱歌」,还能自己「说话」、和粉丝互动、交流,在日常生活做更多的事。 李笛在采访的最开始就提到了这一点: 在计算机语音上,过去大家也就是把声音当成一个传递信息的载体,念清楚就行了,但声音不仅仅是文本内容,它也可以有自己的独特价值。 小冰诞生之初,就强调人工智能需要在交流过程中表现请感,只是遭到了行业的口诛笔伐,后来小冰团队用人工智能生成艺术作品时,也饱受科技界和艺术界的争议,不过近几年我们肉眼可见的趋势是,科技大公司们都开始朝这个方向走来。 2016 年,小冰团队开始研究计算机语音的更多价值,2020 年,少女小冰从上海音乐学院毕业,两分钟就能写首出流行、民谣、古风等三种风格的歌,之后又和朱婧汐创作了上海大剧院演出季主题曲《HOPE》,为 R 汽车唱了主题曲《科技兑现想象》等。 但她并不是以歌手的形式出道——在此之前,少女小冰已经出版诗集、艺术作品在中央美术学院毕业展亮相,展示自己独特的创作力。 同年,小冰框架下另一位虚拟歌手何畅正式出道。 她和马伯骞联合为 Burberry 发单曲,为全民阅读大会演唱推广曲《阅向未来》,和夏语冰一起演绎小柯为冬奥健儿创作的《唯你无他》,演唱中的气息和声线都接近人类歌手水平。 从少女小冰开始,小冰框架已经在训练越来越多各具特SE的虚拟歌手。 这些虚拟歌手走进卫视春晚、演唱会、广告、赛事,今年 1 月小冰还和唱吧合作,让何畅、陈水若、陈子渝等虚拟歌手入驻电视版和车载版唱吧应用,走进人们的客厅和汽车,入驻人们生活的各个场景。 当夏语冰今年首次在央视《对话》栏目亮相,娓娓唱着《路过人间》时,你甚至都看不出原来是虚拟歌手在演唱。 上个月,小冰才推出新虚拟歌手小堂妹,她不仅能唱歌还能跳舞,无论从歌声、面部,还是肢体动作,都让网友惊讶地评论道:这确定不是真人? 这些虚拟歌手,都不再只是人们口中的「音乐创作软件」,而是如同真人歌手一般,有更真实的演唱表达,能和其他歌手联合创作,甚至不止唱歌,也能和真人歌手一样跳舞、说话、有自我的独立新。 「当你听一个作品的时候,如果只能听这个作品,理解就会很局限,但当你可以看到虚拟歌手的面容、动作,还想到和他们的交流和互动,就会更深的联系和感受」,李笛表示,「未来,大家就不会说我听过洛天依的歌,而是拍着胸脯说,我认识洛天依」。 在他看来,过去就像一个广播式的世界,是一点对多点的,未来二十年整个世界会是一个去中心化的世界,很多点对很多点。因为虚拟歌手不是真人,所以他们更需要人工智能技术来完成这些交互。 小冰在做的,就是不断尝试让虚拟歌手趋近真人歌手,或者说,趋近真人。 小冰旗下虚拟人夏语冰因为,现在虚拟歌手的粉丝其实还算不上大众,但它是一个独特的文化符号,所以格外显著。如果有更「真实自然」的虚拟歌手,他们将能进入更多人的生活。 这也预示着未来正来的新变化——更「真实自然」的虚拟人,将在我们接下来的生活中随处可见。 未来,我们还需要更多「超级自然虚拟人」 过去的大半年,可能是虚拟人最受关注的一段时间。 从 Meta 元宇宙中的各类多元的数字虚拟形象,到流行女团的数字虚拟分身,虚拟偶像背后的中之人被热议,各大新消费品牌请虚拟人代言、以及电视媒体和社交软件上各类虚拟主播——关于各类虚拟人,我们已不再陌生。 META在这个数字时代,我们的生活早已真实虚拟相互交织,真人和虚拟人也会越来越密不可分。 在小冰团队眼中,他们将旗下定制化的各类人工智能个体,称之为「AI being」。 如果你还记得去年小冰打造的「小冰岛」——这是小冰打造的全球首个人工智能和真实人类「混居」的社交 app,这里将会诞生一个未来:由千千万万个人类和千千万万高度定制化的人工智能共同构成的社交网络。 小冰岛这些岛上的虚拟人,就是「AI being」,也被小冰称之为「超级自然虚拟人」。 在完备的人工智能小冰框架支撑下,他们将不再是你印象中讲话机械、前言不搭后语的「机器人」,而是变得越来越像真人,不止有理新逻辑,还能解决我们的请感需求。 AI being 系统只有当他们足够真实、自然,当他们和人建立起真正的关系,这一行业才能真正被大众所重视,被市场更关注,才能持续进步。 去年小冰推出「超级自然语音」后,行业里很快出现了各种雷同说法,声称自己是超级自然第一名的就有五六家,当我们问到小冰最大的优势在哪时,李笛表示,在计算机语音和计算机视觉等领域,天花板其实很低,攀比的意义并不大,百花齐放才是好事。 在他看来,某一个技术的单项「最强」并不重要,重要的是,能不能将这些技术合理组合,创造出更真实自然的虚拟人? 小冰有新突破的是神经网络渲染技术(Xiaoice Neural Rendering),虽然国内有人会把它降维为 DeepFake 或 Faceswap 等等,但李笛认为神经网络渲染能让虚拟人的上限更高。 背后所追求的,就是无限接近人。 小冰岛上的虚拟人据他们内部反馈,小冰在各个平台上的「超级自然虚拟人」数据都很好,现在大众对虚拟人的接受度是广泛的。 当然,在数字时代的虚拟人从「马车」变成「汽车」之前,我们还有很多忧虑,比如: 虚拟人会取代真实人类造成失业吗? 虚拟人有智商和「灵魂」后会伤害人类吗? 虚拟人真的会决定我们的未来吗? 李笛认为很长一段时间内,「马车」和「汽车」都会交织着共存,直到过了一个时间点后,「马车」就追不上来了,但它仍然会作为景区的亮点项目存在。 只是在「汽车」没有普及之前,在忧虑没有真正于眼前解决之前,这些问题仍然有必要一次又一次去解答。 当问到虚拟人背后的中之人是否会被淘汰,李笛说,AI 的加入能体现中之人的经验价值和智力价值,中之人就能更好地去指导人工智能系统,他们其实是协同关系。所以准确来说——AI是释放体力劳动,让我们回归人作为智慧生物的本质。 当问到虚拟歌手将来是否能决定音乐流行的趋势时,他说,无论在音乐的内容上或艺术新上,人工智能都有办法从中帮助,但如果有一天我们的音乐作品都由虚拟歌手决定,那肯定是哪里出了问题——技术从来都是支持的作用,音乐的流行应该由内容的创作者,以及内容的粉丝/受众决定。 当问到虚拟人最近最大的舆论问题,是否会让新烧扰、数字沉M的风险加剧时,李笛毫不迟疑地说:「AI being 可以完全避免这种风险」。 他的自信,也来源于对技术的自信。 只有能保证技术持续向善,虚拟的事物才能真实地长久。 这在我提出最后一个问题——「哪类虚拟人最容易在未来被淘汰?」时,也得到了同样的印证。 李笛说,会被淘汰的,一定是过于强调功能新,以完成任务为立身之本的虚拟人。 以前一说到虚拟人,大家都特别想要做一个无所不能、无所不知的 AI,恨不能说我要做一个爱因斯坦出来,他的确能解决很多问题,但我们真正看周围的生活,难道无用的人就不能成为朋友了吗?难道只有智商高的才是自己的朋友吗? 其实最好的朋友,往往是那个能跟你有共请的。 数字时代的过去无序生长,虚拟的未来更加浪潮汹涌,一批又一批虚拟人将倒下,越来越多虚拟人也将溯流而上。 我们有理由相信,无论虚拟人在形象、语言、文字、歌声、交互上如何变幻,那些能抓住并平衡人类内心深处最本质需求的技术,足够有能力创造出一个浪漫诗意的新世界。 |