这两年AI领域最热的一个词就是大模型,全球的科技巨头纷纷落子。为什么大模型这么热?
我们正在经历第四次工业革命,核心的驱动力就是人工智能。但是在产业初期,不同行业、不同场景对AI的需求既复杂且碎片,同时AI人才也相对稀缺,所以很多企业靠人工去开发AI应用,成本高、效率低、落地慢。AI成为真正的驱动力,就需要很强的通用性,这就是大模型的价值所在——大模型已成为AI领域军备竞赛的关键。
今天,百度联合鹏城实验室重磅发布双方共同研发的全球首个知识增强千亿大模型——鹏城-百度·文心(模型版本号:ERNIE 3.0 Titan),该模型参数规模达到2600亿,相比GPT-3的参数量提升50%,在60多项任务中取得最好效果。
鹏城-百度·文心模型结构图
鹏城-百度·文心大模型的落地,让中国在AI军备赛中又增加一枚重要筹码。
多方优势打造“核武器”
我们知道,AI取决于算力、算法、数据三个要素,而鹏城-百度·文心大模型在这三要素上都有着不可替代的领先性。
- 先看算力优势。
鹏城-百度·文心由鹏城实验室提供算力。我们知道,AI对于算力的要求非常高,并不是每个企业都有能力搭建如此强大的算力中心,鹏城实验室就是在这样的背景下成立的、为行业提供强大算力的一个平台。“鹏城云脑Ⅱ”主要提供人工智能研究必须的计算力资源、存储资源、网络资源、数据资源和研究环境,覆盖人工智能基础研究、重大应用、操作系统、数据资源共享、产业服务等专门研究实验领域。鹏城云脑Ⅱ算力集群是我国首个国产E级AI算力平台,吞吐性能国际领先,蝉联全系统输入输出和10节点规模系统两项世界冠军。如此强大的“鹏城云脑II”成为大模型研发的肥沃土地,文心大模型因为数据量大,对算力要求极高,所以选择与鹏城实验室合作。
飞桨超大模型训练与推理
- 再看架构与算法优势。
大模型的训练和推理对深度学习框架带来很大的挑战,而百度自研的飞桨是国内首个自主研发、功能丰富、开源开放的产业级深度学习平台,在深度学习模型开发、训练、推理和部署等方面,飞桨已可比肩TensorFlow、PyTorch等国际主流框架。飞桨具备开发便捷的深度学习框架、超大规模深度学习模型训练技术、多端多平台部署的高性能推理引擎、产业级开源模型库四大领先技术。
据最新调研报告显示,在IDC 2021年上半年深度学习框架平台市场份额调研中,百度位列中国深度学习平台市场综合份额第一。百度飞桨、Google、Facebook形成鼎立格局,其中飞桨是市场三强中唯一国产品牌,并持续稳步增长。市场数据显示,飞桨企业版EasyDL连续两年保持市场排名首位,BML百度全功能AI开发平台显现强劲增速。
飞桨的端到端自适应分布式框架,实现了数据并行、模型并行、流水线并行、分组参数切片等等,使得超大规模的训练能够得以有效实现,鹏城-百度·文心模型并行效率高达90%。
在算法上,为提升模型语言理解和生成能力,百度提出了可控学习与可信学习算法。在可控学习方面,通过将模型预测出的文本属性和原始文本进行拼接,构造从指定属性生成对应文本的预训练数据,模型通过对该数据的学习,实现不同类型的零样本生成能力。在可信学习方面,针对模型生成结果与真实世界的事实一致性问题,通过自监督的对抗训练,让模型学习区分数据是真实的还是模型伪造的,使得模型对生成结果真实性具备判断能力,从而让模型可以从多个候选中选择最可靠的生成结果,显著提升了生成结果的可信度。
- 最后再看数据优势。
AI训练取决于数据量,数据越多训练出来的AI越聪明。文心大模型与众不同之处在于除了在海量无结构数据学习以外,还融合了大规模的知识,所以文心被称为知识增强大模型。我们知道,知识是做搜索起家的百度的天然优势。该千亿大模型学习了多源异构的大规模数据与知识。百度知识增强大模型能够从大规模知识和海量无结构数据中融合学习,学习效率更高、效果更好,具有良好的可解释性。
由此可见,鹏城-百度·文心大模型集合了最强算力----鹏城云脑II、最强AI架构——百度飞桨、再结合知识增强这样的核心特色,三方面的优势相结合,形成了一个重磅“核武器”,为中国AI产业军备又填了一枚筹码。
百度知识基因成就“与众不同”
其实,这两年在大模型热下,全球几大科技巨头不断刷新大模型的数据量上线。2017年Transformer结构的提出,使得深度学习模型参数突破了1亿,随后模型参数一个比一个大,到了BERT网络模型的提出,使得参数量首次超过3亿规模,GPT-3模型超过百亿,鹏城盘古实现千亿稠密的规模,而此次百度文心参数规模达到2600亿,相信这个记录很快也会再次刷新。
大模型似乎没有最大、只有更大。事实上,“大”只是一个相对值。AI的价值除了数据量大,还由很多方面的因素构成,不同大模型需要有自己的特色。
在懂懂看来,鹏城-百度·文心大模型众不同之处就在于数据与知识的结合,这也是百度的独特优势所在,所以文心定位是知识增强大模型。
众所周知,知识是人类智慧的结晶,是人类进步的重要推动力。想让计算机像人一样理解和认知世界,也需要让计算机具备获取、运用知识的能力。百度提出了知识增强大模型“文心”,突破了多源异构数据难以统一表示与学习的瓶颈。文心如同站在巨人的肩膀上,训练效率和理解准确率大幅提升,并具备更好的可解释性。据悉,随着模型不断进展,现在不仅能做理解,还能做生成,比如说要做知识推理、小说续写、歌词创作、作诗,这些都可以做得很好。
- 首先看跨语言。
人类历史长河中曾经有几万种语言。从纵向看,一个国家、地区在不同时代有不同的语言。从横向看,同一时代不同国家甚至不同地区都有不同的官方语言。所以同一语义可能会有很多种不同的表达。为此,百度研制了知识增强跨语言大模型ERNIE-M,可同时从多种语言中学习,提升跨语言理解能力,让机器有了同时学习和理解多种语言的能力。
比如,做机器翻译的时候,以前是需要双语对照的,一句中文对应一句英文的译文,现在基于文心大模型不必再死板的一一对照,而是非平行语料。
- 其次是跨模态。
人类是通过语言、语音、视觉等多种模态获得对真实世界的统一认知。AI如果像人一样理解真实世界,不仅需要听懂语音、看懂图像视频、理解语言,这就需要突破不同模态、异构信息的语义融合统一难题。百度提出知识增强跨模态大模型,包括理解大模型ERNIE-ViL、生成大模型ERNIE-ViLG,实现了复杂场景的多层次、高精度语义理解。其中,理解大模型ERNIE-ViL在视觉常识推理任务榜单获得第一名;生成大模型ERNIE-ViLG实现文图双向生成,是全球规模最大中文跨模态生成模型。
AI的“轮子”驶向千行百业
我们在文章的开篇就讲过,千行百业对于AI的期待都很高,但AI面临落地难的问题。大模型堪称AI的“轮子”,轮子造好了,行业应用也就会越跑越快,加速AI的落地。正如高文院士所说,“预训练模型对整个科学的发展、社会的发展、创新的发展都是非常重要的工具。运用这个工具,可以帮助做很多人工智能的赋能,不局限于某个领域,这对人工智能的发展都是一个福音。”
文心大模型是百度大脑最新的核心技术突破,能够做到效果提升、带来成本降低、实现应用便捷,大幅降低AI应用门槛,满足各种场景需求,加速产业的智能化升级。
这一次文心大模型不是一个泛泛的模型,而是带来了“全景图”,其中既包含基础通用的大模型,也包含面向重点领域和重点任务的大模型,比如NLP(自然语言理解)大模型、CV(计算机视觉)大模型和跨模态大模型。同时,还有丰富工具与平台支撑高效便捷的应用开发,包括EasyDL-大模型零门槛AI开发平台和BML-大模型全功能AI开发平台,以及大模型开发工具、大模型轻量化工具和大模型部署工具。这就相当于不仅铺好了公路,还造好了汽车,具体往哪开就看不同客户的不同需求了。
保险公司合同业务处理是一大难点,任务繁重、人员紧张、工作强度大、准确性和及时性要求高。一份合同需要完成近40个类目的条款解析分类,人工处理一份合同大概需要小半天时间,无论是人力成本、处理效率还是及时性都是行业业务环节中如何提高产能与效率的巨大挑战。通过百度文心大模型赋能,国内一家大型保险公司定制了保险合同条款智能解析模型,业务员处理单份合同文本的时长缩短到1分钟,速度是之前的几十倍,大大提升了工作效率。
中国联通作为国内领先的运营商,服务上亿用户,一方面要更好的客户体验,另一方面也要不断降低成本,传统的服务模式已经不能满足需求。中国联通与百度合作,联手打造了集约化智慧客服,面向场景可定制的对话技术。该技术以文心大模型强大的语义表示能力为基础,建立了面向对话理解问题的专用预训练模型。在保持优异应用效果的同时,该模型对数据标注量的需求降低45%以上,显著提升了智能客服业务铺开的效率。
鹏城-百度·文心大模型是融合了自然语言理解和自然语言生成的全能模型,致力于解决传统AI模型泛化性差、强依赖昂贵人工标注数据、落地成本高等应用问题,满足真实场景中的应用需求,在各类AI应用场景都具备了极强的泛化能力。也就是说,有了鹏城-百度·文心大模型这个基础,在面向不同的任务、在不同的应用场景里做少量任务数据进行迁移学习,就可以应用于很多场景。
经过这几年发展,百度文心大模型已经应用于很多行业,比如说通信、金融、医疗、保险、证券、办公、互联网、医疗等等行业。随着这次文心大模型全景图的发布,百度AI也将加快渗透,在更多行业中开花结果。