人脸识别已经被广泛应用在各个领域,但当新冠肺炎来袭的时候,戴着口罩的你如何证明你是你?
发现一个犯罪嫌疑人,但是视频没有捕捉到他的脸。能不能通过衣服的颜色、布料的纹理,查找相似的ID?
有违章或是犯罪行为的车辆,往往会遮挡号牌或是使用套牌,那么用车牌号就不能正确辨识车辆的身份,能不能通过更细致的外观把它找出来?
视频识别在我们现实中的应用越来越广泛,很多我们想得到的、想不到的,AI已经带给我们越来越多的惊喜与惊叹。但,这也都是在进程当中,现实的应用场景对AI不断提出更高的挑战:以前只要能识别人脸就可以了,现在你要能识别戴口罩的人;以前通过人脸照片追查罪犯,现在看不到脸也能把他找出来;以前通过车牌号码辨别车辆身份,现在则要通过车身细节去追踪……
“人们往往高估一项技术的短期表现,而低估一项技术的长期表现。” 已经从事17年计算机视觉研究的格灵深瞳信息技术有限公司CTO邓亚峰深有体会,AI是一个长跑,自己的实力很重要,陪伴的伙伴也很重要。
从看见到看懂,AI在各行各业中落地才有价值
关于AI,我们常常听到智慧城市、机器人、自动驾驶、智慧医疗、工业视觉、AR等,这些都是AI的应用场景。如果说到AI的核心技术,主要是三个方向:计算机视觉、语音识别、自然语言理解。也就是说,在三个技术方向上的深入,可以应用到各种场景当中去发挥价值。
在我们人类物理世界来看,视觉可以占到人体各种感觉器官接受信息的80%。所以,视觉是人与外界沟通最重要的途径。同样,在数字世界里,计算机视觉的发展也决定着AI的走向与能力。“计算机视觉是智慧物联网时代最大的数据入口,拥有广阔的应用场景。” 格灵深瞳信息技术有限公司CTO邓亚峰表示,无论智慧城市、机器人、自动驾驶、智慧医疗、智能制造,所有这些应都离不开计算机视觉这一项AI基础技术。
在智慧城市的应用中,可以通过人的行为轨迹分析找线索、发现规律,甚至提前预知异常。比如某个人白天不出门,经常是后半夜出门,而且行为轨迹也不是去某个固定的工作场所,那么这个人就有可能是犯罪嫌疑人。
再比如在智能商业应用中,通过人脸识别将同一个人多次到店关联起来,利用人脸将商品购买记录关联起来,并形成动线和热力图。有时候,通过海量数据汇集后,AI真的可以“比你更了解你”。
“看见”这个世界并不能,但“看懂”这个世界却非常难。在中国现在有近2亿的安防摄像头,但其产生的视频数据有80%是冗余信息。AI如何通过深度学习、高性能运算及大数据技术,在这些数据中筛出有用的价值。
格灵深瞳就是一家以“让计算机看懂世界”为愿景的公司。他们与华为联合打造的全目标结构化系统,集结构化分析、数据存储、数据应用于一体的高性能、高密度计算系统,以解决对人体、机动车、非机动车、人脸等全目标的特征识别和快速检索。其主要功能包括目标检测、跟踪、分类、全目标特征识别、以图搜图、轨迹分析、综合布控、违法分析等应用。这个系统能够有效处理大规模视频数据,将广泛具备并发能力强、分析识别准、运算速度快、检索效率高等优势,可实现预警、布控、研判等多种应用,提高办案效率。应用于包括智慧城市、公共安全领域各类场景。
没必要重复造轮子,让算法工程师的工作变得简单而极致
单机实现384路极致高密视频实时分析,支持图片分析(检测、结构化、特征提取)不低于1200张/秒——这些听起来不明觉厉的技术,是如何在高效的机器视觉系统上实现的呢?
一般来讲,高效的机器视觉系统取决于四个关键因素:一是核心算法,二是自动化大规模训练模式,三是智能数据挖掘和标注,四是基于硬件平台的计算优化。
如上图,在传统的算法开发模式中,工程师把大量的时间都放在处理参数等这些基础工作上,而真正能发挥其价值的时间占比很少。同时,机器的GPU利用率低,硬件无法充分发挥其效能。形成了对人才价值和机器价值的双重浪费。
再看改进后的开发模式,通过设计与开发工具,帮助更好的收集和处理数据,工程师把数据、框架、计算资源都管理起来,使得训练的效率、资源的使用效率都非常高,工程师的时间都用要高价值的工作内容上。
“通过虚拟化的环境,系统把运算资源、存储资源运用得更为高效,让算法工程师的工作变得简单而极致。” 邓亚峰总结到。
从前后两种开发模式对比来看,差别就在于一套大规模训练平台。“大部分公司没必要重新造轮子。”在邓亚峰看来,打造一个高效的大规模训练平台就相当于那个“轮子”,把算法工程师从大量的低端重复性工作中拯救出来。
那么又如构建一个通用又高效的轮子呢?格灵深瞳用了“数据并行+模型并行”的方式。简单来讲就是把数据和模型分配到不同的机器上去运行,通过巧妙的分割、设计,使得不同机器间数据交换量比较少,平行拓展计算资源,从而实现非常高的训练效率。
这恰好就是深瞳大脑的设计思路:构建从“数据->标注->算法->训练->产品->数据”的一个正循环,在这个训练框架里可以支持上百卡的集群训练、支持上亿类别任务训练、支持多达上百层以及数十亿参数的深度学习模型。“终极目标是工程师做完这个框架,标注好数据,系统就会算出一个完美的结果。”邓亚峰表示。
找对那个“关键先生”
前面讲过,高效的机器视觉系统有四个关键因素,其中前三个都是与框架相关的,是靠内部工程师的智慧来解决,而第四个则是如何借助外力,选择最好的“伙伴”,邓亚峰认为这一点极其重要:“如何选择平台,把计算做到极到,这跟效率和成本都是密切相关的。”
华为Atlas、海思NNIE、Movidius、TPU、NPU……对于工程师而言,当前市场上的选择比较多。邓亚峰给出几个重要的考量标准:性价比如何?开发成本如何?能否提供一整套完整的接口和框架?生态的持续性如何?
在他看来,平台的完整性和生态的可持续性非常重要。首先,多平台开发和维护成本很高。如果一个平台不具备云、端、侧完整的能力,那么工程师就需要开发多平台、维护多平台。增加一个新平台,不仅资金成本增加,关键是时间成本可能是企业不能承受的。所以,选择具备云、端、侧完整能力的平台可以减少很多不必要的重复工作。其次,要选择一个立足于长远发展的生态。如果生态没有保障,那么可能很多前期的投入就会全部作废,这是更可怕的事情。
正是基于这样的思考,格灵深瞳选择了鲲鹏处理器+Atlas 300加速卡,结合自创的业界领先的全目标(人脸、人体、车辆、非机动车)结构化算法,搭建了自己的平台,通过系统调度、推理流水线优化、内存优化,最终实现单卡支持48路视频结构化,64路人脸识别。单机可以提供实现384路极致高密视频实时分析。这其中Atlas 300 AI加速卡是一个“关键先生”,基于昇腾310和910 AI处理器的Atlas 300 AI加速卡提供多种数据精度,适用于人工智能训练和推理场景。
“我们业务的特点是模型非常多,各种各样的处理需求复杂。Atlas 300有非常多的资源。” 邓亚峰对双方联合打造的解决方案非常满意,“这已经是行业内非常领先的一个结果。”
华为人工智能计算平台以强大的算力,有云、边、端丰富的产品,使得综合成本更低。邓亚峰认为更为重要的原因是,华为在生态上有非常大的决心去投入,“我们开发中间也遇到一些困难,华为非常积极地支持我们,跟我们一起联调。
格灵深瞳去年参加了行业最具挑战的“非约束性自然环境人脸照片”测试项目,根据全球最权威的人脸识别算法测试(FRVT)公布的结果来看,格灵深瞳获得了全球第一名的成绩。此外,在2019年北京市交管局组织的第一届交通行为图像智能识别技术竞赛中,格灵深瞳的行为识别算法也获得了全国总排名第一的佳绩。
在懂懂看来,让格灵深瞳之所以选择华为,主要是两个原因:
第一,华为Atlas智能计算平台的强算力和完整性。这是基于华为昇腾系列AI处理器和业界主层异构计算部件,通过模块、板卡、小站、服务器、集群丰富的产品形态,打造面向“端、边、云”的全场景AI基础设施方案,可广泛用于平安城市、智能交通、智慧医疗、AI推理等领域。
第二,是华为开放的生态以及对生态伙伴不遗余力的支持。华为Atlas智能计算平台支持业界主流框架,方便易用的代码迁移和模型转换工具,通过灵活的合作方式与业界ISV共建、共赢。也就是说,选择了华为Atlas智能计算平台,就是选择了一个开放的标准,选择了更多的合作伙伴,选择了更多的机会。
如果人工智能是一场长跑,那么选择一个最好的合作伙伴才是跑到终点的必要条件。对于格灵深瞳而言,华为Atlas人工智能计算平台就是那个陪伴的“关键先生”。