在计算机能力、算法以及大数据的加持下,这些运用到机器学习、语音识别、语义分析的产品,已经开始让人工智能逐步走进人们的生活,让人与机器的对话越来越自然,机器能够听懂和理解人的程度也越来越高。在经历过最初的探索之后,这一领域商业化的应用和落地步伐也越来越快。
文/熊熊(熊出墨请注意)
巨头的进阶
距离1956年人工智能之父马文·明斯基提出“人工智能”的概念已整整过去了60年,但商业化的浪潮却迟迟未来。尽管之前有google、facebook、微软等大公司不断投资AI领域,但大多把研究成果用于自身业务的优化和效率提升,距离人工智能技术的民用普及还相当远。直到去年,AlphaGo人机大战重新夺回大众的关注点,人们还意识到,其实人工智能的商业化已悄然开始布局。
在人工智能的分支中,语音识别是发展最早、且率先实现商业化的技术,从科大讯飞到思必驰,从云知声到出门问问,其商业化应用的领域也从教育、客服、电信等进一步扩展到车载、家居、医疗、智能硬件等行业。与此同时,自然语言处理(NLP)作为人机交互技术的重要一环,也为此提供了助力。
苹果Siri的推出打开了语音交互的先河,不仅催生了一批语音语义创业公司,还激发了百度、阿里等大型互联网公司在语音语义技术上的投入。但真正的爆发还是来自亚马逊的Alexa+Echo。
由于自然语言处理是搜索引擎的关键技术之一,因此百度、搜狗自然而然地成为头号玩家。过去几年中,两家公司依托其强大的搜索引擎和输入法应用,不仅将语音技术用于自身产品,还通过与行业其他技术和产品提供方合作,推出面向C端的产品和应用。比如,搜狗联合四维图新、飞歌等,推出全语音交互的车载导航产品,百度度秘携手小鱼在家,推出Duer OS以及家用视频对讲机器人。
来自国际市场研究公司RAM(Research and Markets)发布的《全球智能语音产业报告2015——2020》认为,未来三年,全球智能语音市场规模将达到191.7亿美元。而中国的市场,将保持每年60%的增速增长。
NLP技术商业化的痛点
自然语言交互是未来人机交互的趋势,在大多数智能产品中,NLP技术都是不可或缺的,但目前比较突出的问题是,受限于降噪、语音识别和语义理解等技术,交互体验始终无法达到畅快淋漓。随着深度学习的出现,NLP技术开始取得突破。但总体来说,NLP对于浅层次的特征提取、分类等问题已经比较成熟,而深层次的语义理解则成了如今的研究热点。目前,NLP技术在文本处理方面的主要应用有智能搜索引擎、机器翻译、文献摘要自动生成、文本分类等;在语音方面主要有智能客服、多媒体信息提取与文本转化等。
同时,国内NLP领域的创业公司不断进行其商业化探索。“这一领域的应用和需求都相当大。”为软银、Intel、海尔等提供商用NLP技术支持的灵聚智能创始人张胜私下对笔者表示,银行、税务、教育、安保、旅游等行业,智能家居、智能安防等领域乃至无人便利店等都需要用到此技术,因此,他们即将推出开发者平台和用户自定义平台来适应不同的客户多样化的业务或个性化需要。
据笔者的了解和总结,目前检验NLP技术商业化是否好用主要有三个维度:
首先是准确度,一个含义是语义分析是否准确,是否能准确理解用户的意图,以及上下文的准确理解;另一个是应答是否准确,是否按照用户的意图精确应对,而不是用似是而非或包罗万象的答案来应付。关于这一点,灵聚智能创始人张胜在接受笔者采访时表示,从NLP到NLU,只做语义分析或仅依赖神经网络+大数据是不行的,例如语义只是其灵聚人工大脑核心技术的一个重要组成部分,而不是全部。在他看来,“自然语言处理所需要的技术和数据都是多维度的,语义分析只是其中一部分,基于大量语料的学习也需要适度人工干预,人类语言尤其是中文的表达方式实在是太丰富了。”
其次是速度,从学术角度来说,聊天机器人回答一个问题是1秒还是10秒都没关系,但是要实现商业化,应答的时间不能超出用户的心理承受极限,否则将严重影响用户体验。所以一般工业上要求NLP技术的响应时间不超过500毫秒,加上网络延迟等因素,实际应答往往会超过1秒,再加上数据量越来越大,这个响应时间还会增加。这一点成为自然语言交互产品商用化非常影响用户体验的因素之一。有测试过多家技术的某上市公司一位智能家居产品经理向笔者介绍,目前即便有企业做到200毫秒响应,但实际上联网跑起来的体验依然不佳,有的干脆直接在每一次应答前固定插入一段声音来缓解用户等候的焦虑,但这并非长久之道,只有想办法进一步压缩响应时间,这一点灵聚智能的应答速度令他印象深刻。经笔者求证,灵聚智能目前能够将智能云的绝大大部分场景如知识性和功能性场景的平均响应时间控制在20毫秒左右,把更多时间留给不确定的网络延迟上;
第三个是灵活度,面向商业化的产品,用户的需求总是个性和多样性的,这对于NLP技术服务商提出了更高的要求,是否能够有足够的灵活度,允许用户便捷的自定义手段达到自己的使用目的。在这一点上,灵聚旗下的核心产品灵聚人工大脑架构是不限定场景的,从数据层、算法层、会话层到应用层,从一开始构建就是为了不限领域的应用开发的。通过灵聚智能云和开发者平台,具有研发能力的第三方企业和开发者可以很便捷的使用到灵聚提供的核心技术服务开发出自己的产品,而不懂得代码的用户也可以使用自然语言交互的调教模式或用户自定义管理平台通过可视化工具进行内容和场景的自定义。
向BAT说不的理由
前有BAT巨头的追逐,后有商业化的痛,留给这一领域创业企业的时间并不特别多。
以语音交互技术应用最为广泛的智能音箱市场为例,目前整个智能音箱市场已呈现以亚马逊Echo为排头兵,国外有Google、微软、苹果,国内有腾讯、阿里、京东相互追随的态势。
阵营越发强大,竞争也日渐白热化。那么,作为夹在巨头和C端产品公司中间提供技术服务的中小型公司,还有多少机会?
在语音识别领域,“云知声”也是一个颇有名气的玩家,商业化落地也做的不错。2015年底“云知声”完成了B+轮数千万美金的融资,并开始了对公司品牌的升级——从智能语音公司,到物联网人工智能服务商。云知声布局人工智能,首先推出的是一个“云端芯”的概念。这个概念简单解释就是通过芯片将终端和云端连接起来。基于这个概念该公司开始实践人工智能。云知声要做的,是将AI芯放进从家电到汽车的各种产品里,让它们都能连网并通过语音交互连接至云端服务。目前云知声主要瞄准家居、车载、教育、医疗四块市场,其中前两块是重中之重。
成立于2007年的苏州思必驰信息科技有限公司,则主要聚焦在智能硬件领域的智能人机交互平台,主要为智能车载、智能家居、智能机器人三大垂直领域打造人性化的自然语言交互方案,并专注原始技术创新及技术落地的商业化应用。在资本市场炙手可热,在行业中也备受关注。
在笔者看来,这个市场足够大,大到充满想象。但也存在着一些问题,美国克瑞顿大学袁劲梅在写给其被开除的学生的信中所述的问题也存在于许多方面,例如:弄虚作假甚至以偏概全的进行浮华宣传,“炫技”多于实际能力。这样实际上可能会导致用户和投资人对真实技术水平和产品功能的误判。做研发型企业也需要做学问的态度和坚持,因为商业而没有底线终究是无法长久的。
此外,行业内很多拥有技术实力的公司,还没有建立起成熟可靠的商业模式,而是通过一些上下游的延伸来创造价值,比如上游连接语音和搜索引擎,为垂直行业提供内容和服务,下游把语音和硬件产品结合,依靠销售来实现营收。
尤其是在金融、教育、客服等需要与行业高度定制、服务和售后的公司,巨头更不会轻易涉足,这也将成为技术类创业公司的机会。
不过,在一些智能家居、智能车载等to C领域,技术类创业公司可能要面临着与巨头直面竞争的局面,毕竟,这也是互联网企业天然的C端优势,包括庞大的用户基数、数据积累以及好的产品体验等。
尽管如此,在与巨头的关系上,中小型技术创业公司也拥有相当大的机会。拿此前被吐槽具有“复制”基因的腾讯来说,在移动互联网最初发展的几年中,很多合作伙伴并不愿意太早纳入到巨头身后站队的行列。
AI领域更是,一些产品型公司加入这个市场,可能会陷入某些互联网巨头之间的竞争,不想太早站队的公司反而会选择类似灵聚科技这样的服务商,这也是目前有实力的创业团队所具备的优势所在。
事实也是如此。拿灵聚举例,其在“默默无闻”中,合作伙伴已包括日本软银、IBM、Intel、海尔、康力优蓝、瑞芯微、中兴通讯、神州云海等几十家企业或机构。
最后
在宇宙大爆炸理论中,“奇点”是指由爆炸而形成宇宙的那一点,即宇宙从无到有的起点。而在美国著名科学家、奇点大学校长雷·库兹韦尔撰写的《奇点临近》一书中,他认为“奇点”是指电脑智能与人脑智能相互融合的那个美妙时刻。没错,这个美妙时刻正在到来。
据统计,2020年全球人工智能市场规模将突破万亿元大关。尤其是随着人工智能首次写进《政府工作报告》成为舆论焦点,人工智能也成为今年炙手可热的科技关键词。
在未来通用智能时代,除了自然语言处理、计算机视觉等AI技术在某些领域的直接应用,人工智能更大的影响在于将重塑生活服务、医疗、零售、数字营销、农业、工业、商业等各行各业,并将引发新一轮IT设备投资周期。智能化的大潮即将来袭,万亿元的市场规模值得期待。
文/熊熊(熊出墨请注意)