亚马逊员工会听你的ALEXA录音来改进服务
在这种情况下,这个过程被称为数据注释,它已经悄然成为机器学习革命的基石,在自然语言处理、机器翻译、图像和对象识别方面取得了大量进展。他们的想法是,人工智能算法只有在它们能够访问的数据能够被轻松解析和分类的情况下才能随着时间的推移而改进——它们不一定要训练自己这样做。也许Alexa听错了,或者系统认为你问的不是英国城市布莱顿,而是纽约西部的郊区。在处理不同的语言时,还有无数的细微差别,比如地区俚语和方言,这些细微差别可能在Alexa支持该语言的开发过程中没有考虑到。
在许多情况下,人类通过聆听交换的录音并正确地标记数据,从而将数据反馈回系统,从而发出这些呼叫。这个过程被广泛地称为监督学习,在某些情况下,它与其他更自主的技术相结合,也就是半监督学习。苹果、谷歌和Facebook都以类似的方式使用这些技术,Siri和谷歌助手都随着时间的推移而改进,这要归功于需要人眼和耳朵进行监督学习。
在这个案例中,布隆伯格揭露了亚马逊全球数千名员工的真实情况,其中包括一些承包商和一些全职员工,他们的任务是分析Alexa记录,随着时间的推移帮助改进助手。虽然这种方法本身并没有什么邪恶之处,但彭博确实指出,大多数客户并不经常意识到这种情况正在发生。此外,还有滥用的空间。录音可能包含明显可识别的特征和有关说话者的传记信息。目前还不清楚这些录音的确切存储时间,以及这些信息是否曾被恶意第三方窃取或被员工滥用。
虽然这可能是标准实践,但是这种类型的注释可能会导致滥用
彭博社的报告列举了一些例子,其中一些注释者听到了他们认为可能是性侵犯或其他形式的犯罪活动,在这种情况下,亚马逊需要在执法过程中反复循环。(Alexa语音数据被用于起诉犯罪的案件已经引起了广泛关注。)报告说,在其他情况下,一些办公室的员工会与同事分享他们觉得有趣或尴尬的谈话片段。
亚马逊在一份声明中告诉彭博社,“我们只对Alexa语音记录的一小部分进行了注释,目的是(原文如此)改善客户体验。”例如,这些信息帮助我们训练我们的语音识别和自然语言理解系统,因此Alexa可以更好地理解您的请求,并确保服务对每个人都有效。该公司声称,它拥有“严格的技术和运营保障措施,对滥用我们的系统采取零容忍政策。”员工无权访问参与Alexa语音请求的人的身份,任何这类信息都“被高度保密地对待”,并受到“多因素身份验证的保护,以限制访问、服务加密和对我们控制环境的审计”。
尽管如此,批评这种人工智能发展方式的人士已经为此敲响了警钟,通常情况下,当亚马逊犯了一个错误,不小心把录音发送给了错误的人,或者透露自己已经存储了数月甚至数年的录音时,就会出现这种情况。去年,Alexa代表该用户向其丈夫的同事发送了一段私人对话,结果出现了一系列奇怪而极其复杂的错误。去年12月,一名德国居民详细描述了他是如何根据GDPR的数据请求,从亚马逊收到1700条语音记录的,尽管这名男子没有Alexa设备。通过分析这些文件,德国杂志c的记者们无法仅通过使用从Alexa互动中收集到的信息来识别被记录的实际用户。
亚马逊存储了数千份语音记录,目前尚不清楚是否存在滥用
亚马逊正在积极寻找摆脱那种需要大量抄写和注释的监督学习的方法。连接在去年晚些时候的一份报告中称,亚马逊是如何使用新的、更尖端的技术像所谓的主动学习和学习转移到减少错误率和扩大Alexa的知识库,即使它增加了更多的技能,而不需要添加更多的人类的混合。
亚马逊Ruhi Sarikaya, Alexa的应用科学,在科学美国人本月早些时候发表了一篇文章题为“Alexa学习,”,他详细说明了这种类型的大规模机器学习的目标总是会减少所需的冗长的人类劳动来解决错误。在最近的人工智能研究中,监督学习占据了主导地位。但如今,商业人工智能系统产生的客户互动,远远超过我们开始手工标注的数量。“要想延续商业人工智能迄今所带来的迅猛进步,唯一的方法就是将我们自己重新定位为半监督、弱监督和非监督学习。”我们的系统需要学习如何改进自己。”
然而,就目前而言,亚马逊可能需要真正了解人类语言和文化的人来解析这些Alexa交互并理解它们。这种令人不安的现实意味着,有些人,甚至远在印度和罗马尼亚,正在你的客厅、卧室、甚至浴室里,听你和一个没有实体的人工智能说话。这就是ai提供便利的代价,至少在亚马逊看来是这样。