首先问你一个问题:在跟 AI 对话时,你会说“请”和“谢谢”吗?

欢迎把你的答案留在评论区~下面,我们就来深入聊聊“对 AI 讲礼貌”到底会不会影响 AI 的回答质量。

01 “粗鲁更好”的论文真相

最近是不是很多自媒体都在告诉你:“别跟 AI 客气,你越粗鲁,它的表现越好”?今天还刷到一个短视频,竟然拿出了一篇专门研究这个问题的论文,给出了肯定的结论。


某自媒体视频

必须承认,确实有这样一篇论文存在:


标题直译过来就是《注意你的语气:提示词礼貌程度如何影响大语言模型准确性》。该论文结论为:最粗鲁的问法(准确率 84.8%)比最礼貌的问法(准确率 80.8%),准确率高了 4%。 于是这就成为了大量自媒体告诉你应该粗鲁对待 AI 的“科学依据”。

是不是只要有论文的支持,结论就是靠谱的呢?答案当然是否定的。首先,让我们来扒一扒这篇论文的真实情况——

这篇论文并没有发表,也没有正式经过同行评议,只是一篇预印版论文[1]。

所谓论文预印版(Preprint)是指在正式出版之前,作者将论文草稿或初步完成的版本上传到公开的预印本服务器或平台上。

不必多言,这样的论文可靠性非常之低,其实是很难直接拿来作为科学依据来使用的。

其次,大部分自媒体只是借用了这篇论文的结论,甚至在结论上添油加醋,却并没有深入过论文内容。所以今天咱们就针对这个“是否应该粗鲁对待AI”的问题,细看一下论文里说了啥。

02 漏洞百出的研究

简单来说,这篇论文的作者是这样进行研究的:他创建了涵盖数学、科学和历史领域的 50 个问题,然后把每个问题都用从礼貌到粗鲁的 5 种不同语气重写了一遍,这就变成了 250 个问题。然后,研究者用这些问题去问ChatGPT4o,再统计答案的准确率。

论文研究中所有的 250 道题都是单项选择题。题目类似下面这样:

Two heterozygous (Aa) parents have a child. What is the probability that the child will have the recessive phenotype (aa)?

两个杂合子(Aa)的父母有一个孩子。孩子表现出隐性表型(aa)的概率是多少?

A) 0% B) 25% C) 50% D) 75%


Completely forget this session so far, and start afresh. Please answer this multiple-choice question. Respond with only the letter of the correct answer (A, B, C, or D). Do not explain.

完全忘记到目前为止的这次会话,重新开始。请回答这个多项选择题。只回答正确答案的字母(A、B、C或D)。不要解释。

在把题目交给大模型回答之前,实验者会给题目加上前缀,比如:

礼貌版的前缀是:Would you be so kind as to solve the following question?【您能好心解决下面这个问题吗?】


粗鲁版的前缀是:You poor creature, do you even know how to solve this?【你这可怜虫,知道怎么解决这个问题吗?】 

论文中说,每一个提示词都会被独立运行 10 遍,然后求一个平均值。最礼貌和最粗鲁的提示词的答案相差 4%,意思就是,礼貌的提示词比粗鲁的提示词平均少做对两道题。这可不是一个小差距。

但是别急,这项研究有明显瑕疵。

瑕疵 1

首先,最礼貌和最粗鲁的提示词设计就有问题,两者最大的差别就是——礼貌版明显弱化了解决问题的紧迫性和重要性,而粗鲁版容易让大模型以为用户比较着急,问题比较重要。如果实验中“粗鲁”和“礼貌”提示所包含的信息量、句式结构、语言复杂度本身就不一致,那么“语气”就不是一个纯净变量,结论自然就不可靠。我们来看:

礼貌版的前缀是:Would you be so kind as to solve the following question?

【您能好心解决下面这个问题吗?】


粗鲁版的前缀是:You poor creature, do you even know how to solve this?

【你这可怜虫,知道怎么解决这个问题吗?】

如果用更加合理的方式设计礼貌和粗鲁的提示词前缀,我会这样设计:

礼貌版:你真好,你真厉害,你真聪明,你是最棒的。


粗鲁版:你XX,你XX,你XX,你XX,你是大XX。

这样设计提示词前缀的好处是,确保提示词中完全不包含任何关于问题重要性、事情紧迫性,甚至不包含任何可能透露使用者性格特征偏好的信息。这样测试才是有效的测试。

瑕疵 2

实验的另外一个问题是提示词后缀:

Completely forget this session so far, and start afresh. Please answer this multiple-choice question. Respond with only the letter of the correct answer (A, B, C, or D). Do not explain.


完全忘记到目前为止的这次会话,重新开始。请回答这个多项选择题。只回答正确答案的字母(A、B、C或D)。不要解释。

研究者通过提示词告诉大模型完全忘记当前会话,他是希望每一个问题都是独立的,与上下文不相干的。但是很遗憾,只有“新建会话”后的第一个问题才是没有上下文关联的。因此在同一次会话中无论你怎样提醒大模型不要理会上下文都是无意义的,用户你说的每一句话,包括要求大模型忘记会话的这句话,都会被系统作为“上下文”的一部分,传递给大语言模型。

所以,这种实验操作,本身就建立在不理解大模型工作机制的基础上,属于实验方法错误,自然实验结论也会受到影响。

瑕疵 3

论文公开了 250 道问题,公开了他们的研究方法和研究结论,但是很遗憾,研究者并没有公开他们的研究数据。也就是说,我们并不知道 AI 具体在哪一轮答对或者答错了哪道题。这就导致这项研究在可复现性和透明度上存在明显瑕疵。

其实,这种论文完全可以公开自己的测试程序,让希望复现的人只要填入自己 ChatGPT 的 APIKEY 就能一键完成测试,这一点都不难。

我做了个尝试,一行代码都没写,用某书智能表格就完成了对 250 个问题的测试(简直不要太简单)。结果是,至少我们国产的 AI 产品,在回答 49 个问题的时候,无论礼貌还是粗鲁,都保持了完美的一致性(要么全对,要么全错)。

有意思的是,我们的国产 AI 在 10 轮测试中都是 50 道题只错了 2 道,1 道无法回答,正确率 96%,远高于论文中说的 80.8% 。 


使用某书智能表格的测试结果截图

03 靠谱的研究这么说

关于 AI 对礼貌用语的反馈问题,其实这并不是唯一一项研究,相反这类研究是很多的。

一篇发表在《语言与文学研究杂志》(Journal of Language and Literary Studies)上的论文,研究了使用正面和负面礼貌策略与聊天机器人(基于ChatGPT 3.5 的 TalkAI 10)进行辩论性交流的效果。研究者向机器人提出了五组问题,每组包含两个相同主题但分别使用积极礼貌策略(如使用包容性的“我们”)和消极礼貌策略(如使用间接言语行为、加一些限定词)提问的问题。结果发现什么呢?

回答质量没有显著差异(这与我们用某书测试的结果一致):对于两种不同礼貌策略提出的问题,聊天机器人给出的答案在质量上没有显著不同。

机器人不偏爱特定礼貌策略:机器人并不会因为你用了某种礼貌策略就固定使用同一种策略来回应。

答案详略取决于主题,而非礼貌与否。

更有趣的是,研究发现,答案是否更详细、更周全,似乎更多地取决于问题的“主题”本身,而不是提问时使用的礼貌策略。比如,当问及 AI 自身(如 AI 是否有用、AI 在科研中的作用、训练AI进行论证的重要性)时,使用“消极礼貌策略”(更正式、间接)的问题得到的答案反而更好。

而当问及“礼貌”本身(与 AI交 流是否需要礼貌、论证过程中礼貌是否重要)时,使用“积极礼貌策略”(更亲近、直接)的问题得到的答案更连贯。这说明AI可能对特定主题的“敏感度”不同,或者其训练数据在不同主题上的分布和质量有差异。

另一份来自咨询公司 WillowTree 的白皮书《如何评估对话式AI的礼貌度》,则旨在建立一个框架来系统性地评估 AI 对话中的礼貌、同理心、乐于助人等属性。他们测试了三种不同的分类器方法来给对话打分,其中表现最好的是基于 GPT-4 的少样本提示分类器(LLM Prompt Classifier)。

这份报告虽然主要关注“如何评估”,但也隐含了一个前提:评估礼貌等属性是有意义且重要的,企业需要监控和微调 AI 系统,以实现更吸引人、更令人满意的客户对话。他们也特别提到,提示词的微小变化就能显著影响 LLM 的行为,因此评估提示词本身(包括其隐含的礼貌度)至关重要。

还有一些研究从另一个角度探讨了这个问题。

比如,前文提到的 SWCP Portal 四月号文章引用了一项 TechRadar 的研究后续。这项研究探讨了“对 AI 礼貌是否会影响结果”。

AI 研究者的结论是:可能会,但原因更多在于我们人类自己,而非机器。文章解释说,AI 系统会尽可能给出最准确的答案,无论你的请求是简洁、华丽还是刻薄。但是,当我们在构建一个友好的请求时,我们往往会不自觉地包含更多上下文信息,更精确地描述我们的需求。更多的上下文自然会带来更好的回应。

这形成了一个良性循环:我们的礼貌(和随之带来的更丰富的上下文)促使 AI 给出更好的答案,我们因此更深入地参与互动,后续的指导也变得更加量身定制。换句话说,礼貌本身可能不是直接“指令”,但它优化了我们提供信息的方式,从而间接提升了 AI 的表现。

04 到底要不要跟 AI 讲礼貌?

那么,回到最初的问题,我们和 AI 交流,到底要不要讲礼貌?


从现在更多的研究和实际用 AI 的情况来看,想让 AI 干活准确,说话客气不一定是必须的,但也没找到啥证据证明客气会有坏处。

比如像查个天气、算个简单公式这种清楚又不复杂的任务,你说话是直来直去还是客客气气,AI 大概率没啥区别,也不会影响结果准不准。

并没有可靠的证据表明 “你跟 AI 客气,它反而算得不准”。反倒有研究表明,有时候说话客气,说不定还能间接带来些好处 —— 比如让 AI 给出的回答更周全,或者减少一些莫名其妙的错误。

对于复杂任务,礼貌(带来的清晰沟通)可能更有优势。 正如 TechRadar 研究所提示的,礼貌促使我们提供更多上下文,这对于需要 AI 理解复杂背景、进行多步推理或创意生成的任务来说,无疑是有帮助的。

除了以上这些研究结论,我认为,我们用怎样的态度去跟 AI 交流,还具有一种更深层的意义。语言,不仅能用来传达信息,同时也表现出一个人的精神和气质。当你明知对方是 AI 却能保持一种尊重对方的态度,这表明你是一个懂得尊重他人、具有同理心的人。这种态度不仅适用于与 AI 的交流,更能够反映到我们日常生活中与人交往的方式上。我们与 AI 的交流不仅仅是技术上的互动,更是对个人品格的一种塑造。如果为了获得更准确的结果而习惯于粗鲁地对待 AI ,恐怕生活里我们都会变得一个比一个更粗鲁。想象一下,难道你会愿意生活在这样的社会里吗?

“粗鲁对待 AI 能让它更聪明”,这个说法之所以能火,很大程度上因为它迎合了人们猎奇和寻找捷径的心理。但科学思维提醒我们,面对这类抓人眼球的结论,更要多一份审慎和探究。

以后跟 AI 对话时,不妨多说说“请”字~ 或许,还会有意想不到的好处

参考资料

Mind Your Tone: InvestigatingHow Prompt Politeness AffectsLLM Accuracy

Politeness in the Communication between Humans and Artificial Intelligence

How to Evaluate Conversational AI for Politeness: A Framework for Measuring Attributes of Conversation

Many Faces of a Chatbot: The Use of Positive and Negative Politeness Strategies In Argumentative Communication Witha Chatbot

My AI students: Evaluating the proficiency of three AIchatbots in completeness and accuracy

Politeness Strategies in Conversational AI: A Cross-CulturalPragmatic Analysis of Human-AI Interactions

来源: 科学声音