以现在图像采集设备的配置,让机器“看清”这个世界已经不在话下。但是,从“看清” 到“看懂”,我们还有很长的路要走。
“我们的目标是利用人工智能技术,让机器能够真正'看懂'这个世界。”华为诺亚方舟实验室计算视觉首席科学家田奇博士这样阐述华为计算机视觉的研究目标。计算机视觉是机器的感知入口,是数据载体,是物与物的联接器,是行业数字化抓手。华为计算机视觉的目标,就是成为智能世界的眼睛。
在华为开发者大会2020(Cloud)上,华为宣布“沃土计划2.0”的进一步举措。华为将在2020年投入2亿美元推动鲲鹏计算产业发展,并公布面向高校、初创企业、开发人员及合作伙伴的扶持细则。作为沃土计划的一部分,今天田奇博士向开发者发布了“华为视觉计划”,旨在助力AI开发者,让计算机视觉技术在更多的应用领域落地,产生真正的商业价值。
计算机视觉技术,迎来了最好的时代
人的智能来自于人对外界的感知,包括视觉、听觉、触觉、嗅觉、味觉等。其中,视觉占到所有感知的87%,是人类感知外界信息的最重要的途径。视觉还是打开心灵的最有力的手段:一瞬间的影像信息,甚至在几十年后还能被准确地回忆起来。
从人类的智能到人工智能,需要跨越很大的技术壁垒。AI的实现,依赖于机器对于世界的感知:计算机视觉是机器感知最重要的入口,也可以说是智能世界的眼睛。智慧城市、机器人、自动驾驶、智慧医疗、工业视觉、AR等等这些我们经常听到的AI应用,都是要建立在“看懂世界”的基础上。
显然,今天计算机视觉已经无处不在,那么我们怎么理解计算机视觉的重要性呢?可以说,计算机视觉是万物感知的入口、行业数字化的抓手,在AI+云+5G的数字化底座基础上,激发智能世界新物种的爆发。所有前面提到的无人驾驶、安防、智慧金融、智慧商超等应用,都取决于计算机视觉技术的能力——娱乐与通信、生产与安全、智慧生活等,这将是一个千亿美元的巨型市场。
可以说,计算机视觉技术迎来了最好的时代。
技术要上天:一年80多篇世界顶级论文
目前,计算机视觉面临三大挑战:第一是如何从数据中挖掘有效信息,第二怎么设计高效的视觉识别模型,第三是如何表达并存储知识。田奇博士带领的团队的主要研究重心聚焦在数据高效和能耗高效的计算机视觉基础研究上。
我们知道,为了从海量无标签数据中挖掘有用的知识,就需要数据高效的学习算法;而为了让动辄上千万参数量的网络模型在各种终端设备中顺畅运行,能耗高效的模型适配也是他们的研究重点之一——华为的计算机视觉研究,就是在攻克这些技术难关。
落实到具体业务,计算机视觉研究主要针对六大方向:底层视觉、语义理解、3D视觉、数据生成、视觉计算、视觉+X模态。应用场景包括自动驾驶、平安城市、终端视觉等。正是得益于爆发式的应用场景以及AI人才红利,中国的计算机视觉研究也开启了加速模式,华为的计算机视觉也屡有突破。
例如,在业界公认最为重要的图像分类数据集ImageNet上,田奇博士的团队利用高效的数据扩增算法,在不使用额外训练数据的情况下,达到了85.8%的分类准确率,打破了谷歌多年来对这一赛道的垄断。
同时,利用在自动网络架构搜索方面取得的持续性突破(代表性工作包括P-DARTS、PC-DARTS、Stabilizing DARTS、Latency-Aware DARTS等),团队也能够完成从云侧大模型到端侧小模型的适配,在受限算力下依然保持业界领先水平。
从顶级会议论文来看,显然华为视觉的创新能力已经进入世界第一梯队,正所谓“技术要上天”。华为一向在研发上的投入都是大手笔,研发的成果也是不断挑战行业的上线,以创新引领行业突破。
华为全面赋能开发者,填补技术与应用之间的鸿沟
在技术研究与应用落地之间,还有一个条很难逾越的鸿沟。研究通常更注重理论化、通用性,并且要不断探索未知领域,而应用则是将技术落地,带来社会价值和商业价值。
正所谓“技术要上天,产业要落地”,华为计算机视觉处于全球领先的技术要在各行各业中产生价值,还是要依靠生态的力量,依靠更多的AI开发者将技术在产业中落地。作为黑土地赋能生态中的每一个企业、每一个开发者,这也恰恰是华为一贯以来的战略。
“开发者是改变世界的重要力量,也是企业创新的引擎和产业生态的灵魂。我们将携手全球开发者和产业伙伴,基于鲲鹏处理器多核、高并发的优势,为世界提供充裕且经济的算力,开拓万亿级的计算产业大蓝海,共享数字经济的红利。” 华为云与计算BG总裁侯金龙透露,目前华为云开发者已经增长到160万,通过沃土计划2.0,计划5年内发展500万开发者。
“华为将继续加大投入计算机视觉的基础研究,不断挑战计算机视觉领域三大问题,包括如何从海量数据中高效挖掘有用的信息、设计高效的万物识别视觉模型,以及表达并存储知识以迈向通用智能。”田奇博士透露华为视觉计划围绕三大方向,共有六大子计划,包括:
- 数据冰山计划:以极少量标注数据撬动海量无标注数据,支撑小样本场景下模型训练
- 数据魔方计划:利用多种模态相互辅助、增强模型在实际场景的学习能力
- 模型摸高计划:构建云侧大模型,刷新各类视觉任务性能上限
- 模型瘦身计划:打造端侧高效的计算模型,助力各种芯片完成复杂推理
- 万物预视计划:设计视觉预训练任务,打造视觉通用模型
- 虚实合一计划:在虚拟与现实的结合中,将计算机视觉引向真正的人工智能
“提供端到端的产品与方案,用‘5G+AI+云+计算机视觉’加速智能世界到来和行业数字化转型。构建良好的产业生态,打造开放、共赢、健康的产业链,我们要让所有人从中受益。” 田奇博士这样总结华为视觉要承担的责任。
【结束语】
AI这个词在我们耳边萦绕多年,如今开始逐渐全面落地。作为最重要的机器感知入口,视觉是AI的核心技术和应用,迎来最好的时代。
怀揣“做智能世界的眼睛”的愿景,凭借80多篇世界顶级论文,华为计算机视觉在技术研发上已经走在了业界最前沿。随着华为视觉计划的发布,华为将通过使能AI开发者加速视觉技术的落地,也将加速AI的普惠。