【烽巢网】
语言生成是目前人工智能领域最热门的东西,从改进谷歌的搜索引擎到创建基于文本的幻想游戏,有一类系统被称为“大型语言模型”(LLMs)。但这些项目也存在严重的问题,包括重复使用性别歧视和种族主义语言,以及未能通过逻辑推理测试。一个很大的问题是:这些弱点可以通过简单地增加更多的数据和计算能力来改善吗?或者我们已经达到了这种技术范式的极限?
这是Alphabet的人工智能实验室DeepMind在今天发表的三篇研究论文中要解决的问题之一。该公司的结论是,进一步扩大这些系统应该会带来大量的改进。“这篇论文的一个关键发现是,大型语言模型的进展和能力仍在增加。这一领域并没有停滞不前,”DeepMind研究科学家杰克·雷在一次新闻发布会上告诉记者。
DeepMind定期将其工作输入到谷歌产品中,并通过建立一个名为Gopher的具有2800亿个参数的语言模型来探索这种llm的功能。参数可以快速衡量一种语言模型的大小和复杂性,这意味着Gopher比OpenAI的GPT-3(1750亿个参数)大,但没有一些更具实验性的系统大,比如微软和英伟达的威斯特天模型(5300亿个参数)。
在人工智能领域,越大越好通常是事实,更大的模型通常提供更高的性能。DeepMind的研究证实了这一趋势,并表明,在情感分析和总结等最常见的基准测试中,扩展llm确实可以提高性能。然而,研究人员也警告说,语言模型的一些固有问题需要的不仅仅是数据和计算来解决。
他说:“我认为目前看来,这种模式确实可能以各种方式失败。“这些方法中的一部分是因为模型对它所读取的内容没有足够好的理解,我觉得,对于这类问题,我们将通过更多的数据和规模看到性能的提高。”
但是,他补充说,还有“其他类别的问题,比如长期存在刻板偏见的模型,或者被哄骗给出谬误的模型……DeepMind没有人认为规模化将是解决方案。”他指出,在这些情况下,语言模型将需要“额外的训练程序”,比如来自人类用户的反馈。
为了得出这些结论,DeepMind的研究人员根据152个语言任务或基准评估了一系列不同大小的语言模型。他们发现,较大的模型通常能提供更好的结果,而Gopher本身在科学家选择的大约80%的测试中提供了最先进的性能。
在另一篇论文中,该公司还调查了部署llm所涉及的各种潜在危害。这些问题包括这些系统使用有毒语言、共享错误信息的能力,以及它们可能被用于恶意目的,比如共享垃圾邮件或宣传。随着人工智能语言模型(比如聊天机器人和销售代理)得到更广泛的应用,所有这些问题将变得越来越重要。
然而,值得记住的是,在基准测试中的表现并不是评估机器学习系统的全部和最终目标。在最近的一篇论文中,许多人工智能研究人员(包括来自谷歌的两名研究人员)探索了基准测试的局限性,指出这些数据集的范围总是有限的,无法与现实世界的复杂性相匹配。与新技术的情况一样,测试这些系统的唯一可靠方法是查看它们在实际中的执行情况。有了大型语言模型,我们很快就会看到更多这样的应用。