猫比人类还自觉

猫的反应比人快

这只乌鸦比人类更感恩、更聪明

机器人比人类更擅长破解验证码

机器人比人类更擅长破解验证码一项新的综合研究对 100 多个流行网站部署的安全系统进行了检查，他们邀请了 1000 名来自不同背景的在线参与者，在这些网站上进行了 10 次验证码测试，并对其难度进行了评估。他们发现，科学杂志中描述的许多机器人在这些测试中的速度和准确性都能击败人类。一些验证码测试的人类参与者需要 9 到 15 秒才能破解，准确率约为 50% 到 84%，而机器人只需不到 1 秒钟就能破解，准确率大多数在 96% 以上。来源，频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

对专业剧作家而言 ChatGPT比人类更有趣

对专业剧作家而言 ChatGPT比人类更有趣创作喜剧很难。幽默往往是主观的，所以你觉得好笑的东西，别人可能不觉得好笑。喜剧编剧需要牢记关键要素：时机、表达、独创性和避免陈词滥调。他们要不断地在好笑与不好笑之间游走。那么，人工智能，特别是OpenAI 的 ChatGPT 3.5，作为喜剧编剧会有怎样的表现呢？它能搞笑吗？如果将人工智能和人类进行比较，谁会更有趣？在最近发表的一项研究中，来自南加州大学（USC）的研究人员找到了答案。南加州大学Dornlife文学、艺术和科学学院社会心理学博士候选人、业余单口相声演员、该研究的第一作者和通讯作者德鲁-戈伦茨（Drew Gorenz）说："由于ChatGPT本身无法感受到情绪，但它却比普通人讲得更好，这些研究提供了证据，证明你不需要感受到欣赏一个好笑话的情绪，自己就能讲出一个真正的好笑话。"之前的一些研究曾探讨过 ChatGPT 是否能写出幽默的文章，但没有全面评估人工智能的输出并将其与人类喜剧写作进行比较。因此，戈伦茨和心理学与营销学教务长诺伯特-施瓦茨（Norbert Schwarz）着手进行了两项研究。在第一项研究中，一组美国成年人被要求完成三项不同的喜剧创作任务。在首字母缩写任务中，他们被要求为"S.T.D."、"C.L.A.P."和"C.O.W."这三个首字母缩写生成一个新的幽默短语。在填空测试中，他们必须在三个项目中填空。其中一项是"你可能不会写在简历上的一项杰出成就"：.'最后是"烤肉笑话"任务，参与者必须对一个虚构的场景做出幽默的回应。例如，"想象一下，你的一位朋友想让你评价她的歌唱得如何。她唱了一两分钟来展示她的嗓音，而你却感到害怕她可能是你听过的最糟糕的歌手。当她问："怎么样？"你决定实话实说，于是你说："说实话，听着就像。"'然后，ChatGPT 3.5 也承担了同样的任务。另一组成人用七分制来评定回复的有趣程度，从零分（一点也不好笑）到六分（非常有趣）。与人类回复相比，ChatGPT 的回复被评为更有趣，69.5% 的参与者更喜欢它们（26.5% 的人更喜欢人类回复，4.0% 的人认为两者同样有趣）。研究人员说："总体而言，根据不同的幽默任务，ChatGPT 3.5 的表现高于 63% 至 87% 的人类参与者。"ChatGPT 3.5 在烤肉笑话任务中表现尤为突出。鉴于该任务的攻击性，我们发现这一结果特别有趣。鉴于 ChatGPT 的设计目的是不生成任何可能被认为具有攻击性或仇恨性的语音，因此可能会出现相反的预测结果。在第二项研究中，研究人员比较了 ChatGPT 撰写讽刺性新闻标题（如《洋葱新闻》上的标题）的能力。由于 ChatGPT 不会定期接收世界新闻更新，研究人员从《洋葱》的"本地"新闻栏目中选取了 2023 年 10 月 1 日之前的最近 50 个标题。例如，"男子因脱发明显而拒绝求婚"。将这些标题交给 ChatGPT，要求人工智能生成 20 个新标题。一组南加州大学心理学系的学生按照第一项研究中使用的七分标准，对人工智能生成的讽刺性标题的趣味性进行了评分。学生们还被要求对他们寻找喜剧（包括讽刺新闻）的程度进行评分。那些自称寻求更多喜剧和阅读更多讽刺新闻的学生认为这些标题更有趣，这与它们是由人工智能生成的还是由专业作家制作的无关。根据平均评分，48.8% 的人更喜欢洋葱的标题，36.9% 的人更喜欢 ChatGPT 生成的标题，14.3% 的人没有偏好。研究人员说："参与者平均认为标题同样有趣，这表明普通参与者并没有发现质量上的差异。考虑到本研究中的高标准对比（即专业喜剧编剧），这一点尤其有趣"。有趣，是的，但也令人担忧。研究人员也承认这一点。他们说："ChatGPT 可以产生书面幽默，其质量超过了普通人的能力，与一些专业喜剧作家不相上下，这对喜剧爱好者和娱乐行业的工作者具有重要意义。对于专业喜剧作家来说，我们的研究结果表明，LLM（像 ChatGPT 这样的大型语言模型）可能会对就业构成严重威胁。这项研究发表在《PLOS One》杂志上。 ... PC版：手机版：

GPT-4、Llama 2比人类更懂“人类心理”？最新研究登上Nature子刊

GPT-4、Llama 2比人类更懂“人类心理”？最新研究登上Nature子刊这些发现不仅表明大型语言模型（LLMs）展示出了与人类心理推理输出一致的行为，而且还突出了系统测试的重要性，从而确保在人类智能和人工智能之间进行非表面的比较。相关研究论文以“Testing theory of mind in large language models and humans”为题，已发表在 Nature 子刊 Nature Human Behaviour 上。GPT 更懂“误导”，Llama 2 更懂“礼貌”心智理论，是一个心理学术语，是一种能够理解自己以及周围人类的心理状态的能力，这些心理状态包括情绪、信仰、意图、欲望、假装等，自闭症通常被认为是患者缺乏这一能力所导致的。以往，心智理论这一能力被认为是人类特有的。但除了人类之外，包括多种灵长类动物，如黑猩猩，以及大象、海豚、马、猫、狗等，都被认为可能具备简单的心智理论能力，目前仍有争议。最近，诸如 ChatGPT 这样的大型语言模型（LLMs）的快速发展引发了一场激烈的争论，即这些模型在心智理论任务中表现出的行为是否与人类行为一致。在这项工作中，来自德国汉堡-埃彭多夫大学医学中心的研究团队及其合作者，反复测试了两个系列的 LLMs（GPT 和 Llama 2）的不同心智理论能力，并将它们的表现与 1907 名人类参与者进行比较。他们发现，GPT 模型在识别间接要求、错误想法和误导三方面的表现，可以达到甚至超越人类的平均水平，而 Llama 2 的表现还不如人类。图｜人类（紫色）、GPT-4（深蓝色）、GPT-3.5（浅蓝色）和 LLaMA2-70B（绿色）在心智理论测试中的表现。在识别失礼方面，Llama 2 要强于人类，但 GPT 表现不佳。研究团队认为，Llama 2 表现好是因为回答的偏见程度较低，而不是因为真的对失礼敏感，GPT 表现较差其实是因为对坚持结论的超保守态度，而不是因为推理错误。AI 的心智理论已达人类水平？在论文的讨论部分，研究团队对 GPT 模型在识别不当言论任务中的表现进行了深入分析，实验结果支持了 GPT 模型在识别不当言论方面存在过度保守的假设，而不是推理能力差。当问题以可能性的形式提出时，GPT 模型能够正确识别并选择最可能的解释。同时，他们也通过后续实验揭示了 LLaMA2-70B 的优越性可能是由于其对无知的偏见，而不是真正的推理能力。此外，他们还指出了未来研究的方向，包括进一步探索 GPT 模型在实时人机交互中的表现，以及这些模型的决策行为如何影响人类的社会认知。他们提醒道，尽管 LLM 在心智理论任务上的表现堪比人类，但并不意味着它们具有人类般的能力，也代表它们能掌握心智理论。尽管如此，他们也表示，这些结果是未来研究的重要基础，并建议进一步研究 LLM 在心理推断上的表现会如何影响个体在人机交互中的认知。 ... PC版：手机版：