三十五年前,拥有计算机视觉博士学位的人一点都不酷,因为人工智能那时还在幻灭的低谷中徘徊不前。那个时候,计算机视觉算法可能需要一天的时间来处理一个单一的图像。但是,时代变了。
安德鲁-布莱克教授于1983年获得计算机视觉博士学位,除此之外,他现在还是FiveAI的科学顾问,他说:“目前公司争夺人才的竞争非常激烈。”FiveAI是英国一家自动驾驶汽车软件初创公司,它的目标是在2019年在伦敦的街道上测试无人驾驶汽车。
布莱克创立了微软的计算机视觉小组,并在剑桥大学微软研究院任董事总经理,其中他参与了Kinect传感器的开发。Kinect传感器可以说预示了计算机视觉将会冉冉升起(尽管Kinect本身并没有实现微软的希望,在消费市场上成功)。
布莱克现在还是英国阿兰·图灵研究所(Alan Turing Institute)的研究主管,该研究所旨在支持数据科学研究,包括机器学习和人工智能,还包括探索人工智能和大数据的伦理和社会影响。
Uber和谷歌也在研发无人驾驶汽车。在这场争夺人工智能技术的激烈竞争中,像FiveAI 这样的初创公司如何能与优步和谷歌这样的科技巨头较量呢?另外,从整个人类社会的角度看,这些强大的科技巨头们正在竭尽所能地试图突破人工智能技术,这究竟是一种风险,还是一种机遇?人工智能技术可以说已被几家科技巨头所垄断了,而且为此设计出了一套非常具体的商业议程,人工智能技术是否会因此而受限,它能在这种情况下继续取得进步吗?
布莱克说:“我觉得人工智能的生态系统实际上相当有活力。”不过,他作为一名先驱研究员在科技巨头公司旗下已工作多年,这个身份使得他的观点说服力不大。“在大学里有很多有才华的人,而且他们都是以一种开放的方式在工作——因为学者们都是有原则的,他们甚至可以说是一群固执的家伙。”
布莱克表示,他曾考虑在1999年创办一家初创公司。但后来他决定在微软工作,因为那样他可以专注于发明创造,而不必担心业务方面的事情,这对他来说是一个更好的选择。在加入微软之前,他的研究工作包括研发能够作出实时反应的视觉系统,应用于机器人中,这在90年代中期是一件新鲜事。
“不同的人想要用不同的方式来做这件事。有些人想去大公司,有些人想要创业,有些人想留在大学,因为教授能带领一群学生和博士后,这样工作效率高。”布莱克说,“这些选择都很好。在大学里工作很自由,这一点依然十分吸引人。因此,我不认为人工智能生态系统的活力正在消失。”
不过,他承认对人工智能人才的争夺现在正处于白热化阶段。他指出,例如,一群学者创立了Geometric Intelligence公司,仅运营了一年左右,在2016年年底就被Uber收购了。“收购的金额没有对外透露,但我认为这是一笔金额巨大的收购。”谈到这家初创公司的收购价格时,布莱克说道,“这就说明了人工智能这个领域有多热门。这些学者聚在一起,他们有一些很棒的想法。这一次,他们没有选择去写一篇研究论文,而是决定把它变成知识产权。我猜他们肯定是申请了专利,诸如此类的。然后Uber看到了,觉得他们确实需要这个技术,接着Geometric Intelligence就变成了Uber的人工智能部门。”
人工智能技术在学术上取得的成就很快就被传送到巨大的商业母舰中,布莱克没有轻易断言他认为这对社会来说是件好事还是坏事。但他讲了一件轶事来说明这一领域的竞争有多么激烈,因为一些科技巨头正竞相争夺市场的主导地位。他对美国科技类博客TechCrunch说:“我最近想找个人来做一家大公司的顾问,这个大公司想要了解人工智能,需要一个顾问。他们想要一个非常资深的业内人士……我想找一个跟竞争对手公司没有什么联系的人。但你知道吗,真的没有人——我就是找不到一个跟竞争对手完全无关的人。他们可能仍是一所大学的教授,但他们要不就是在为这家公司做咨询,要不他们就是这家公司的兼职员工。每个人都参与其中。人工智能这一领域令人非常兴奋,但竞争也非常激烈。”
“政府目前也十分关注人工智能和其产业战略的内容,并认同人工智能是国家生产力的关键技术。因此,教育和培训是其中非常重要的部分。我们如何才能创造出更多的杰出技术呢?”他补充道。2015年,阿兰·图灵研究所由英国五所大学设立,通过培训博士生,加上调来的一批研究人员,希望能培养出新一代学者,推动人工智能取得新的突破。
“过去十年我们在深度学习上取得了重大突破,但我认为不只是突破而已,我们已经做到了。”布莱克说,“人们写的论文数量比以往任何时候都多。人工智能正在进入一个更加成熟的阶段,至少在使用深度学习方面是如此。我相信我们绝对可以做到。但论对深度学习的理解,其基础数学这就是另一回事了。”他补充说:“在教育和专业技能方面,公司和大学对人才的需求绝对是惊人的。而且我相信我们还需要培养更多的人才。”
回到科技巨头主导人工智能研究的问题上,布莱克指出,这其中的许多公司正在开发公共工具包以帮助推动更广泛的人工智能生态系统的活动,比如谷歌、亚马逊和微软就这么做了。与此同时,学术方面取得的成就公开透明,也在帮助增加人工智能生态系统的活力,比如加州大学伯克利分校研究的深度学习框架Caffe。因此,布莱克的观点是,尽管没有使用谷歌、Uber或Facebook这样的庞大资源,少数有才华的人仍然可以掀起波澜。
他说:“通常情况下,只有一两个人——当几个人一起在做正确的事情时,这是非常灵活的。计算机科学的一些伟大进步就是这样产生的。并不一定需要上百人一起工作,哪怕只有几个人,只要方向方法正确,都有机会成功。我们都看过很多这样的情况。”“管理一个大团队是很复杂的。”他补充道,“有时候,真正开辟道路并取得突破的,往往都是一小群人。”
也就是说,他同意获取数据,或者更确切地说,“与你的问题相关的数据”,是建立人工智能算法的关键所在。他说:“当然,过去十年取得的巨大进步依赖于数据的可获得性。所以,我们已经学会了,或者我们已经明白了,如何建立能够学习大数据的算法。”
而且,科技巨头们自然也能从自己的用户生成的数据引擎中获取信息,为他们提供一个训练和打磨人工智能模型的内置存储库——尽管有争议,但这就是那些小公司没有的优势,比如,Facebook数十亿用户每天都在生成数据集。
尽管谷歌拥有旗下的人工智能部门DeepMind,但它仍然需要通过与第三方机构建立伙伴关系来获取某些高价值的数据集。比如与英国国家医疗服务体系的合作,自2015年末以来,DeepMind健康一直在获取数百万人的医疗数据,而这些医疗数据的保管人正是由公共资金支持的英国国家医疗服务体系,目的是打造出具有诊断医疗效益的人工智能。
不过,不得不说,谷歌庞大的资源和公众形象确实是一大优势。如果一个小公司向英国国家医疗服务体系请求获得宝贵的(和高度敏感的)公共部门医疗数据,很可能会遭到拒绝。而且,正如DeepMind所说的那样,小公司肯定不太可能被邀请参与进来。因此,如果是谷歌DeepMind提出“免费”帮助并共同设计一款医疗保健应用,或者提出用其程序资源和专业技术来换取数据时,这显然是另一种结局。
当被问及他是否认为DeepMind应该公布其人工智能道德委员会的成员名单时,布莱克拒绝回答。(“下一个问题!”)如果他是这一匿名委员会的成员之一,他也不会承认(也不会否认)。(想了解更多布莱克教授对人工智能和伦理的思考,请看本文末尾的采访内容。)
但他并没有立即认同人工智能创新必然是以个人隐私为代价这一观点。例如,有些人认为,苹果在人工智能竞争中处于不利地位,因为它不会像谷歌或Facebook那样,在不受限制的情况下对用户进行数据挖掘和配置(苹果公司更倾向于选择进行本地数据处理,并应用模糊保密技术,比如差异化隐私,只用提供用户人工智能,不需要提交所有信息)。
布莱克也不认为人工智能的黑盒子是完全不可接受的。”这是一个关键点,因为人工智能技术非常强大,要确保人们能正确理解人工智能的社会的影响,在必要的情况下,为避免出现偏见,必须合理监管。“
另外他表示,人工智能道德领域的研究还处于较早的阶段。“在过去的一两年中,人工智能道德方面的算法大量涌现,比如实验算法,以及关于算法的论文。这些算法研究如何将透明、公平、尊重隐私的道德原则纳入机器学习算法中,目前还没有定论。我认为人们才刚刚开始思考这个问题,因为人们最近才意识到这将是一个关键的问题。因此,这项工作正在进行中。但人们有一种强烈的紧迫感,因为大家意识到这一点至关重要。所以让我们一起来看这将如何演变吧。”
在苹果的问题上,他认为人工智能创新和隐私不一定是相互排斥的。“未来将会有好的技术解决方案。”他接着说,“我们必须努力工作,认真思考。广泛的人工智能包括机器学习和其他计算机科学领域如差异化隐私,我对此有信心,大家都知道这个话题热度很高,而人们真的在努力工作解决这个问题。我们还没有找到所有的答案,但我很有信心,我们会找到很好的办法。”
当然,在人工智能方面,并非所有的数据获得都是平等的。布莱克说,他的学术兴趣来源于构建一个机器学习系统的主意,他想造一个机器学习系统,在它学习的过程中它不需要太多外界帮助就从数据中提取有用的理解,而不是必须在有人监督的情况下才能进行学习。
“让我着迷的一件事是,人类都是在没有大数据的情况下进行学习的。这件事并不是那么简单。”他指出,蹒跚学步的孩子们了解周围世界的情况,并不需要知道他们看到的每一样事物的名称。孩子们可能会被数次告知杯子是“杯子”,但并不是每一个他们遇到的杯子都是“杯子”。如果机器能够以同样的精益方式从原始数据中学习,那么这将给人工智能领域带来变革。布莱克认为,破解无人监督学习将是人工智能研究人员面临的下一个重大挑战。
“我们现在必须区分两种数据——原始数据和标签数据。标签数据的价格很高。而那些没有标签的数据,只是你在浏览世界的过程中得到的体验,但你还是会从中受益。所以标签数据之间有一种非常有趣的合作关系,标签数据并不多,而且很难获得。但没有标签的数据很多,并且无时无刻不在流动。”
“因此,我认为这将是未来10年人工智能和机器学习面临的巨大挑战,我们如何才能最大限度地利用有限且昂贵的标签数据?我认为,未来5到10年,大家最关注的将是找到获取无标签数据最有效的方法并从中受益,并认识到标签数据非常短缺。”
“我们要怎么做呢?我们如何才能获得它呢?自动驾驶汽车将是一项很有前途的技术,它显然将受益于这一领域的突破。因为人类驾驶的汽车已经配备了摄像头,而且如果这些机器能够从无标签的数据中学习,来自汽车的数据流也可以用于训练车辆自动驾驶。”
FiveAI的网站表示这也是它的目标,它正在用“更强的人工智能”来解决自动驾驶汽车在复杂的城市环境中安全航行的挑战,而不需要“高度精确的3D地图和本地化”。这个挑战被标榜为“自主的最高级别L5”。
布莱克补充说:“我个人很感兴趣人类是如何用不同方式学习的。目前,我们的机器正在学习这个。人类并不是一直都在从大数据中学习。人能够从少得可怜的数据中学习。”他引用了麻省理工学院的Josh Tenenbaum的研究,来展示人类是如何在接触一到两种东西后学习新事物的。“我们在做什么?”他想知道。“这是一个令人着迷的挑战。我认为,这是一个非常重要的问题。目前,我们真的不知道答案。我认为,世界各地的研究机构将会有一场大竞赛,来看看并了解人类是如何学习的。”
他推测,推动前进的答案可能在于回顾人工智能的历史,比如用概率或逻辑推理之类的方法,但之前没有成功,因为它们并没有带来深度学习所代表的突破,但这或许值得我们重新思考下一篇章的内容。他说:“早期的先驱们试图用逻辑来做人工智能,但出于种种原因,这绝对行不通。但逻辑似乎有一种属性,或许我们可以从这一点上进行研究,那就是通过逻辑我们能够高效并令人尊重地获取数据,但是获得数据的成本很高。所以,即使是一份数据,也要穷尽它。用逻辑学习的一个特性是,可以非常快速地进行学习,只需要一个或两个例子就行。”
人工智能研究走在时尚最前沿,现在有那么多未来的赌注压在人工智能上,它可能需要回顾一下,才能实现下一个重大突破,这是一个不错的想法。不过,鉴于布莱克将深度网络的成功描述为“整个人工智能领域的一个意外惊喜”(即该技术“已经有了很好的效果”),很明显,我们很难去预测人工智能的未来发展,并且不能用直觉预测。
随着我们采访的结束,最后我有一个想法,在经过30多年的人工智能研究之后,布莱克能提出他自己对人类智力的定义吗?“哦!采访的最后一个问题,很难回答。”布莱克用笑声来结束这个问答。
为什么深度学习那么像黑匣子?“我想这有点像实证研究。联想实验物理学和理论物理学,很多时候,我们在实验物理学中找到一些新发现,接着理论物理学就会花很多时间试图弄明白到底发生了什么。但是第一次找到这个发现是在实验观察的时候。这或许有些出人意料。我认为深度网络也是这样的。整个领域,它的运作效果和它运作过程本身都令人惊讶。这都是实验得到的发现。而实际的物体本身,如果你想知道的话,是相当复杂的。因为我们已经知道深度网络所有的这些层。处理输入的过程,可能会变成十倍多。当你把数据通过所有这些层进行转换时,你很难知道复合效应是什么,还要对所有这些操作序列进行数学运算。我觉得这有点像烹饪。”
在设计专用的硬件设备的问题上,布莱克说:“英特尔会建造整个处理器,同时他们还会为整个数据中心建造所需的设备,包括处理器和电子板,以及所有连接这些处理器的连接数据中心的线路。这种布线实际上不仅仅是连一根电线——他们称其为互联。它本身就是一款智能电子产品。因此,英特尔已经掌握了整个系统。在图灵研究所,我们与英特尔合作。我们想问这个问题:如果你真的能自由设计数据中心的全部内容,你怎么能建立对数据科学最好的数据中心?在很大程度上,这意味着对机器学习最好……支持机器学习的硬件肯定是关键。”
被问到自动驾驶汽车面临什么挑战,布莱克说:“自动驾驶汽车面临的一大挑战是,它是建立在机器学习技术的基础上的。我们可以说,这是相当可靠的。如果你读过机器学习的论文,单一的技术通常是能达到99%正确。这对大多数机器学习技术来说是相当惊人的。但是99%的可靠性对于自动驾驶汽车这样的安全关键技术来说还是远远不够的。所以我认为最有趣的事情之一是,你如何结合技术使自动驾驶技术拥有非常高的可靠性,这是从总体来说,在辅助水平上,而不是单个算法的水平,当然这是自动驾驶系统中的必要需求。当然,安全是一个关键考虑因素。我们所做的所有工程和我们所做的研究都将围绕安全原则——而不是事后的安全考虑,或附加条件,它必须在一开始就考虑到。”
在伦理道德与人工智能工程的关系问题上,布莱克说:“这是人工智能领域在过去几年中非常关注的一件事,而且有很多研究……在图灵研究所,我们有一个很重要的道德项目,一方面我们有哲学和法律相关学科的顾问,思考算法的道德如何在实践中发挥作用,然后我们也让科学家们去阅读这些信息,并问自己,如果我们想让人工智能体现道德准则,我们该如何设计算法。所以我认为,自动驾驶涉及的一项重要道德原则,很可能是透明度——当出现问题时,你想知道它为什么会出错。这不仅仅是为了问责制,也是出于实用的工程目的,如果你在设计一个工程系统,而且它没有达到你的目的,你需要了解其中的哪些部分没有发挥作用,我们需要把注意力集中在哪里。从工程的角度来看,这是好事,从公共责任和理解的角度来看,这也是好事。“
”当然,我们希望公众尽可能地对这些技术感到满意。公众信任将是一个关键因素。过去就有过这样的例子,科学家们认为这些技术并没有立即得到公众的认可,比如转基因作物。早期与公众的沟通不足以让他们信任技术,因此我们要从这些案例中吸取教训。我想很多人都在关注道德问题,人工智能的道德问题将会变得非常重要。”