面对同一个月亮,每一个人会有不同的心境,今年元宵节AI让每一个人都有一个与众不同的“月亮”:用户只需要选定希望赏月的地点,百度飞桨文心大模型就能快速理解并联想创意,运用习得的知名艺术家的技法和画风,创作出符合主题的画作。比如,国际奥委会成员小萨马兰奇想看他家乡西班牙的月,AI就画出一副南欧风景,画风也是西式油画。短道速滑运动员韩天宇想看北京的月,AI画风也切换得更像中式山水。重点是,所有这些画都是AI全新创作的,在网上不会有一模一样的,是每一个用户的“专属”福利。
每个人都可以画出一幅代表自己的独享月景美图,这背后是百度AI。
以前,作画有着很高的门坎,心中有感但无从下笔让很多用户心生遗憾。随着AI能力的提升,AIGC(AI generated content,即通过人工智能技术来自动生成内容的生产方式)让内容生产变得更容易、更个性。你会发现,今天的AI已经可以写诗、作曲、绘画、剪辑、翻译,应用范围不断扩大,逐渐成为内容生产的一支重要力量。
当年UGC、PGC的兴起,使得内容产业的繁荣度迈上一个新的台阶,而今天AIGC的兴起,不仅会将内容产业的繁荣推向新的高度,也将对社会的演进产生更深远的影响。
内容需求引爆AIGC
我们正在走向智能世界,AI的应用将无处不在。内容创作领域,AI也在不断深入。
2016年里约奥运会上,一个可以写稿的机器人记者亮相,它可在赛事结束两秒内出稿,效率大大高于人类。六年后的北京冬奥上,百度智能云联合央视新闻推出了AI手语主播,这个数字人,可以24小时不间断为观众播报奥运赛况,而且不像写作那种单线程作业,她需要根据真人主播语音、实时视频画面,转换成手语手势,是更为复杂的创作。
这其中我们看到一个显著的变化:以前AI只是辅助内容创作的工具,而今天AI已经可以成为创作的主体,能够独立完成写作、设计、绘画等创意性工作。虽然大家普遍认为今天的AIGC还比较初级,但行业正在发生质的变化。
如果说写作、剪视频是某个专业领域的专用人工智能,AIGC更像是通用人工智能的应用。专用人工智能面向特定任务,任务单一、需求明确、应用边界清晰、领域知识丰富、建模相对简单。而通用人工智能,就像人的大脑,能举一反三、融会贯通,可处理视觉、听觉、判断、推理、学习、思考等各类问题,可谓“一脑万用”。
比如这两年大火的数字人就是AIGC的一个典型代表。此前,百度推出了百度智能云曦灵数字人平台——集数字人生产、内容创作、业务配置服务为一体的平台级产品。如今,用户在百度智能云曦灵平台上传一张照片,就能快速生成一个可被AI驱动的2D数字人像,以前需要两三个月时间做出来的3D数字人,现在可以压缩到小时级,同时基于百度多年的AI技术沉淀,一站式实现数字人的“能听、能说、能理解、可互动”,进一步降低数字人的应用门槛。
随着AI技术的成熟,今天数字人已经在互娱、金融、政务、零售等更多行业发挥作用。比如百度最近发布的数字虚拟偶像希加加,它不仅有具有语言、面部表情和肢体动作表达能力,能够像人一样对话、行动,更重要的是可进行自主学习及迭代,还可以基于AI能力进行创作快速生成内容。目前,百度打造的数字人已遍布各行各业,除了前面提到的央视新闻AI手语主播,还有央视网虚拟小编小C、百度App代言人龚俊数字人、交行信用卡客服数字人等,为不同应用场景提供虚拟数字人服务。
从AI写作、AI绘画、AI作曲、AI设计,到数字人,AIGC火爆的背后是用户对于内容的需求得不到满足,迫切需要内容产业升级迭代。
首先,文无第一、文无定形都是自古以来就有的说法,这背后是用户对内容审美的个性化,同一篇文章、同一幅画、同一款设计,每个用户的喜爱程度都不同。特别是当下Z时代年轻人已经成为互联网内容的消费主体,他们的个体意识很强,每一个人都是独立的思维主体,不盲目从众,这对内容的个性化、分众化、丰富化提出更高的要求。
其次,在移动互联网普及下,内容形态也不断丰富,文字、图片、音乐、短视频、直播、游戏,内容需求无处不在,用户每天消费的内容不断增加,但是靠人力创作已经很难满足需求的增长。即使是UGC、PGC普及,但所有的创作对专业性都有一定的要求,创作者的数量和能力成为内容增长的瓶颈。
最后,我们看得更远一些,无论是元宇宙还是Web3.0,下一代互联网的繁荣也需要海量的数字内容,同时对内容的数量、形式和交互性都提出了更高的要求。从这个角度看,AIGC显得尤为必要。如果说,UGC、PGC是Web2.0时代的标志之一,那么AIGC将是Web3.0的重要标志,AIGC的兴起也是通往元宇宙的必经之路。
生产工具的进化,大模型让AIGC成为可能
生产力是推进社会变革的根本动力,生产工具则是生产力发展水平的客观尺度,也是划分经济时代的物质标志。从钻木取火到机器大生产,从电气化到人工智能,生产力的发展带动社会跃迁。相比UGC、PGC,AIGC是生产工具的变革,对于内容产业的影响也更大。
这个生产工具就是AI大模型。所谓大模型,是相对小模型来说的。过去的几年,AI模型基本上是针对特定应用场景需求进行训练的小模型。小模型有几个弊端,一是通用性差,它常常是利用特定领域的数据进行训练,无法适用另一个场景;二是自动性差,需要AI工程人员进行手工调参、调优;三是需要大量数据,如果数据量少,训练出来的模型精度会存在问题。
大模型当然比小模型规模大,它是大数据集和大算力的结合,能够显著克服上述弊端。首先,它的通用性更强,比如百度推出的文心大模型,面向不同的任务、在不同的应用场景里做少量任务数据进行迁移学习,就可以应用于很多场景。其次,它不需要大量标注数据,同一模型利用少量数据进行微调或不进行微调就能完成多个场景的任务。再次,它不像小模型那样需要AI工程人员手工调参,更像是“无人驾驶”。
以往的AI写诗,就是依赖小模型,提前给人工智能输入海量诗句相关数据,就可以做到AI写诗,但这一模型仅适用于写诗,无法用在写新闻、剪视频等场景。但有了大模型,AI不仅可以写诗,还能写新闻、剪视频、播音,甚至作曲。换句话说,大模型之前,AI只能单一实现听、读、写,大模型之后,AI可以同时听说读写,变得更加聪明。
如果说,小模型是“白盒”模式,输入什么数据,在盒子里如何流动如何输出需要AI工程人员操作,也就是说外界可以看得一清二楚。而AIGC则是“黑盒”模式,输入数据后到产出结果之间,外界看不到。它的工作原理更像人类大脑,就像作曲家创作一首传世曲目,人们都觉得好听,但无法知道他的大脑是如何运转、怎么完成创作的。
动画片《海尔兄弟》第一集有这样一个画面,全世界的书籍、电脑、电视里的文字、视频、音频等一起被吸进“海尔兄弟”的身体。当海尔兄弟睁开双眼,他们便具备了全世界最聪明的脑袋,能看、能听、能说。从这一点看,大模型的运作模式跟海尔兄弟有些类似。
文章开头提到的AI手语主播,不仅有“好看的皮囊”,还有“有趣的灵魂”,能“听懂”真人主播的话,并实时转换成手语动作。她就是依赖于百度文心大模型。
百度文心大模型有两大特点,亦是优势:一是文心大模型具备“知识增强”的核心特色,因此学习效率更高、效果更好,具有通用性好、泛化性强的特点。二是可以做到跨模态。什么是模态?文字、声音、图像都是一种模态,跨模态就是人工智能可以做到像人一样同时听懂语音、看懂图像视频、理解语言。
正是基于这样的特点,百度AI可以更好地支撑AIGC落地。比如,知识增强跨模态生成大模型ERNIE-ViLG,具备图文双向生成能力,既可以根据文本自动创作符合文字描述、且效果逼真的图像,也可以理解画面,用简洁的语言描述画面的内容,还够根据图片中的场景回答相关的问题。再比如全球首个知识增强的千亿大模型鹏城-百度·文心,具备零样本生成能力,无需标注任何样本,便可以根据用户指定的体裁、情感、长度、主题、关键词等属性,生成不同类型的文本。
内容创作的一小步,有可能是社会演进的一大步
未来的AI时代到底是什么样的?元宇宙与物理世界会是什么样的关系?未来可能还不清晰,但是人类确实是在不可逆的走向智能时代。未来,AI会改变很多行业。今天我们看到的AIGC是内容创作行业向前迈进了一小步,同时也可能会是社会演进的一大步。
创作似乎一直是人类的专利,从远古时代的岩壁绘画,到后来的诗词歌赋,能歌能舞能写能画能是人类区别于其他动物的重要标志。盛唐时,李太白斗酒诗百篇,酒精激发无限灵感;新时代,AIGC无需创作灵感,更将创作特权赋予机器、虚拟人,让人类不再“孤单”。毫无疑问,AIGC是具有划时代意义的里程碑。
首先,AIGC将为内容生产领域带来巨大变革。一方面,它可以激发创意认知,丰富内容生产的多样性以及提供更加动态且可交互的内容,创造的内容高度定制化、个性化;另一方面,它也将提升内容生产效率,降低创作门槛,进而实现大规模应用,快速“补位”数字世界内容供给缺口,助力内容生产实现跨越式发展。
从长远看,AIGC将对人类产生诸多深远影响。
比如,AIGC还将影响其他产业领域的发展。AIGC作为新的生产力,其“听说读写”能力还可以应用到更多领域。比如文娱产业,最近两年很火的虚拟偶像,就需要AIGC的支撑,AIGC可以帮助其像真人一样思考、说话、唱歌、跳舞,并沿着固定的风格,构建稳定“人设”。再比如,费时费力的客服行业,中国联通与百度,基于文心大模型,建立了面向对话理解问题的专用预训练模型,在保持优异应用效果的同时,降低了45%以上的数据标注量,显著提升了智能客服业务开展效率。
从更长远的角度看,AIGC也将逐步影响人们的思考和生活方式。传播学中有“守门人”理论、“议题设置”理论等等,来反映信息传播过程中人为控制的部分,在跨地域、跨民族传播中,还有刻板印象、有色眼镜等标签。传统的PGC、UGC、OGC内容生产,不可避免的带有上述痕迹,也无法摆脱上述困境。但依靠仅需少量数据输入,便可“无人驾驶”的AIGC就有望摆脱这些困境,真正产出客观、公正的内容。
当然,这些都只是AIGC发展初期的想象。目前,AIGC还处于发展初级阶段,但假以时日,它将成为“全才”进而帮人们实现创作。AI或许会打开内容创作的潘多拉魔盒,会有更多的意想不到在未来发生。就好比《三体》中三体人思维是透明的,且不会隐藏。也许,数百年后,在AIGC的影响下,人类也会如此。那将会是一个什么样的世界?