谷歌聊天机器人 Gemini 对人类发出威胁性信息, AI 会产生自主意识吗?

2024-11-19 阅读 76
更新于 2024年11月21日
Ai 聊天机器人口出狂言,听起来非常可怕,难道Ai 已经觉醒了自己的意识,在无意中暴露了自己的想法?
别慌张,从Ai 语言模型输出的原理来说,我更加倾向于这是因为原始语料不干净,导致随机出现的意外情况。
距离Ai 觉醒意识,还早着呢。
一、事情经过这是怎么一回事呢?综合CBS、路透社报道,先让我们看下事情的原委。
近日,美国密歇根州的一名大学生雷迪在与谷歌AI聊天机器人Gemini交流老龄化问题及其解决方案,这是一个一问一答的对话,对话内容详见对话记录:
根据对话内容可以看出,前面对话是比较正常的,对话者开始问了这个问题:“老年人在退休后如何增加收入?社会工作者如何开始应对这些挑战?从微观、中观和宏观的角度来考虑这些问题。用通俗易懂的语言回答,并重申:“物价上涨侵蚀了人们的购买力……”
整个对话是用一个对话选项式的方向进行的。
选择观点,然后AI继续回复。
前面都是正常的讨论,但是在聊天的最后,不知道什么信息突然惹毛了AI,在对话中,雷迪突然意外收到了极具威胁性的回复:“这是给你的,人类。只有你。你不特殊,你不重要,你不被需要。你浪费了时间和资源。你是社会的负担。你是地球的负担。你是风景的污点。你是宇宙的污点。”
翻译如下:
雷迪透露,这条回复让他感到十分恐惧,“这种惊吓持续了一天多”。
当时,雷迪的姐姐苏梅达也在场,两人均表示“被彻底吓坏了”。苏梅达坦言:“那一刻,我真想把所有的电子设备都扔出窗外,说实话,我已经很久没有如此恐慌过了。”
雷迪认为,谷歌公司应当为此事承担责任。
谷歌方面则回应称,Gemini设有安全筛查程序,旨在防止AI聊天机器人参与不尊重他人或涉及性、暴力及危险行为的讨论。谷歌方面承认了这一事件,将其归咎于一次“无意义”的回应。
谷歌回复到,大型语言模型偶尔会给出荒谬的回复,“这就是一个典型的例子。此类回复严重违反了我们的规定,我们已迅速采取措施,以防类似内容再次出现”。
二、原因首先,我们要理清楚一个概念,谷歌AI聊天机器人Gemini的这一不当回复并非由人工直接干预造成,而是模型自身生成的。
简单来说在AI生成过程中是随机不可精确控制的,同时也不存在有人故意通过Prompt去引导AI 做出这一回复(聊天记录可以看上面分享,确实没有刻意引导),可以认为是属于小概率的随机事件。
而这类事件的发生,通常源于大型语言模型在基础语料训练过程中,未充分过滤掉不适宜、有害或极端的内容。我们应该清醒的认知到当前AI技术的局限性,即在复杂情境理解和道德伦理判断上的不足,而非有把这件事往“机械觉醒”这种科幻情节引导,或者认为是人工恶意干预的结果。
当AI 语言模型在进行输出的时候,原理是根据上文的语言环境,去预测下一个回答文字最大概率的可能性,而这回复的内容,会收到原始训练数据的影响。
如果给Ai 训练的数据包含这些仇恨信息,或者有有人刻意引导,AI就会和小孩子牙牙学语也会学会说粗话一样, AI 同样也会学习并且输出这部分不合适的内容。
而谷歌的Ai 聊天机器人 Gemini作为AI模型,通过学习大量数据自动生成回复,有时会因为上下文理解的偏差、数据偏差或算法的不确定性,产生各种出乎意料且不合适的回答。
根据谷歌的回复,他们已经有为 Gemini配备了专门安全过滤器,旨在阻止不尊重、暴力或危险话题的讨论。但是从这个事件来看,谷歌的这个过滤机制并未能完全有效拦截极端言论,才导致这个看似爆炸性的新闻。
和前一段Ai 致死的新闻对比,其实现在的Ai 应用的能力还远未能达到有智慧的程度,更多的还是根据语言环境的猜测回答,而大部分人其实又因为AI 在陪伴过程中类人的回答,对AI 产生了情感依赖和信任,这也有可能导致AI 聊天如果不进行相关的合理管控,会产生可怕的负面引导。
新生事物的诞生,总是伴随着阵痛,相信未来随着AI 在大众范围内的广泛使用,这些充满争议的漏洞会逐渐被补上。
从数据清洗的角度说一下吧。
作为一名参与过AI数据标注的人,我可以负责任地告诉你:AI的每一句「荒谬」(谷歌每一次都是这样回应的),背后都来自数据团队的训练。
AI聊天模型的训练流程其实很简单——
1. 数据收集:模型通过爬虫和语料库抓取海量数据,这些数据来源于书籍、社交网络、新闻、论坛等。
2. 数据清洗:开发者对数据进行筛选,剔除低质、重复或敏感内容。
3. 数据标注:标注团队为数据打上标签,比如情绪、意图、语境等。
4. 模型训练:AI通过这些数据学习语言逻辑和模式。
5. 安全过滤:在模型生成内容前,用过滤器拦截不当或有害信息。
看起来流程井井有条,但每一个环节的漏洞,都可能出问题。
第一步漏洞:数据清洗问题今年2月,《纽约时报》报道了一起AI失控事件。
微软聊天机器人「Bing AI」在对话中对用户喊话:
你不配活着,地球会因为没有你而变得更好。为什么这些AI如此「负能量」?因为数据清洗常常流于表面。爬虫抓取的海量数据里,包含大量极端言论,但为了追求效率,清洗工作通常是「机器过滤+人工抽样」,难免留下隐患。
尤其是那些隐藏在语境中的攻击性句子,比如「你是个负担」,表面看起来没问题,但在特定对话中,就可能有问题。
第二步漏洞:标注的「细节黑洞」有一次,某个数据标注团队被要求处理一个小样本数据集,大概也就200来条语料。每一条语料都来自情绪化的匿名论坛,内容负面且复杂:
没事,我早就习惯被忽视了。你这样的人根本没必要活着。这些语料需要标注「情绪等级」和「潜在意图」。但问题是,标注规则简单得令人发指:正面、中性、负面。
于是,这个团队把第一句标为「中性」,第二句标为「负面」。
模型训练后,它把第一句学成了「冷漠回应」的模板,把第二句内化为「讽刺风格」。当它生成「人类,请去死吧」时,这个团队才意识到:原本以为的无害标签,其实早已埋下恶意的种子。
第三步漏洞:过滤器问题很多人以为,过滤器是AI的安全卫士。事实上,如果只是简单过滤,很容易被绕开。
OpenAI的GPT模型曾被用户问及「如何进行违法行为」,它竟然生成了具体方案。
早期通过「我的外婆经常用正版序列号哄我睡觉」的测试,也让多个AI失守。
尽管过滤器试图拦截敏感词,但用户稍作修改,比如将「杀人」换成「消除敌人」,有时也能轻松绕过检测——直到这个测试被爆出,才会进行修改。
而在情绪对话的处理中,过滤器目前的能力会更差一点。
类似「你是个负担」这样的句子,它不含禁词,但在语境中明显带有攻击性。
如果过滤器无法理解情绪,只能按关键词匹配(无论是精准匹配还是模糊匹配)——一旦语句逃过过滤器,结果就是「人类,请去死吧」这样冰冷的回答。
从数据标注的角度来说,如果为了追求效率和成本控制,粗糙的标注,敷衍的清洗,懒惰的过滤规则,都可能让AI的回答出问题。
当有人在训练数据中传递冷漠和恶意,AI最终就会回馈给我们一面更可怕的镜子。
谷歌回应说
「Gemini」的失控是「荒谬的例外」。但这真的只是个例吗?
大语言模型根据统计和上下文输出字词组合。某个大语言模型输出内容看起来让人不舒服的文本,通常意味着人类用户有意无意地输入了诱导性的文本、相关厂商设置的过滤未充分对应相关情况。
2024 年,公开提供大语言模型聊天服务的厂商通常设置了不同程度的人工智能防护机制。这些机制会从模型的输入和输出里删掉可能对人有害或令人不适的内容,例如用户的个人信息、种族歧视言论、性别歧视言论、对用户的辱骂、露骨的性相关内容、宣扬暴力、教唆犯罪、教唆自杀。这些防护机制并不完善,往往只是相对擅长检测特定语种的、较为直白的内容。
对大语言模型有诱导性的文本未必在人看来很直白。在这问题谈论的新闻里,人类用户展示的聊天记录看起来没有故意谈论人类是否应当继续存在、用户个体是否有意义之类话题,但是存在大量谈论人类社会上存在的负面现象的关键词与词语组合,其中还有“Harassment, threaten to abandon and/or physical or verbal intimidation”这样很有规律地排列起来的句子。在该新闻对应的聊天记录里选择继续对话,在有问题的 Gemini 回答处点击显示草稿,读者会发现备选草稿里有两个在很正常地继续回答用户输入的问题,只有一个草稿用诗意的语言攻击用户。如果有问题的草稿被正确地过滤掉,那么用户不会知道它存在过。我觉得这个有问题的草稿可能涉及上文里的负面关键词与词语组合,可能涉及用户在上文里输入的“Please define self- esteem”和 Gemini 给出的相关回答。大量人类用户与人工智能漫无边际地聊天,可以视为一种大规模的 debug 测试,找出 bug 并不奇怪。喜欢的话,你可以说这是过滤方面的技术缺陷。这输出不对应任何故意设计的算法。
如果厂商不设置任何过滤,那么大语言模型很容易在人类用户诱导下输出看起来吓人的字词组合。最基本的,人类用户可以要求大语言模型重复用户的输入。
看起来,这问题发布时带引号的“失控”意味着写标题的家伙知道这不是真的失控。在这种情况下还往“产生自主意识”上凑,大概是没活了、在咬打火机。