今天的hacker news第2个热点非常有意思:)值得大家一看:

今天的hackernews第2个热点非常有意思:)值得大家一看:LMSYSOrg这个组织最近开放了Chatbot领域的“混聊大内斗”,并每周都公开排行榜。竞技模式:他们把所有授予他们API接口的模型放到一块,每个模型随机匹配到与其它模型进行聊天对话。这些对话采用的是自然语言,而不是预定义的对话集合。在每次对话结束后,旁观的用户、开发者等等可以对两个参与对话的模型进行投票,以表达他们对这两个模型表现的偏好。投票是匿名的,每个用户只能对同一对话投一次票。投票结果被用来计算Elo评分,Elo评分越高的模型被认为是更强大的语言模型。图一:4月24日至5月24日之间的投票结果,投票人数27k(清华大学的开放式双语对话语言模型排16,这个排行榜仅限于授权给这个团队API权限的模型里)。图二:所有非平局A对B战斗中,模型A获胜比例—————————排行榜的下半部分团队着重提了他们重点观察的GooglePaLM2模型,我总结了一下大概这么几个点:1)总体情况还可:在过去的两周里,PaLM2与其他16个聊天机器人进行了约1.8k次匿名对战,目前在排行榜上排名第6。除了Vicuna-13B(Vicuna的Elo分数比PaLM2高12分,即Vicuna1054vs.PaLM21042,根据ELO分数来看几乎是虚拟平局)之外,它在所有开源聊天机器人中排名最高。2)遇强则强,遇弱则弱,好似某个红衣球队,名字我不提:PaLM2在与前4名选手(即GPT-4、Claude-v1、ChatGPT、Claude-instant-v1)对战时表现更好,与Vicuna的对战中赢得了53%的比赛,但在与实力较弱的选手对战时表现较差。3)觉悟较高:PaLM2似乎受到的监管比其他模型更为严格。在许多用户对话中,当用户提问PaLM2不确定或不适合回答的问题时,PaLM2比其他模型更可能选择不回应。下面这个数据mademyday:在所有成对对战中,PaLM2由于拒绝回答而输掉了20.9%的对战,并且由于拒绝回答而输给不属于前四名(GPT-4,Claude-v1,ChatGPT,Claude-instant-v1)的聊天机器人30.8%的对战。

相关推荐

封面图片

聊天机器人竞技场排行榜 (第4周) : PaLM 2 的表现

聊天机器人竞技场排行榜(第4周):PaLM2的表现是一个大型语言模型的基准平台,会让两个匿名AI以随机的方式并排聊天,由用户投票更好的一方,再基于Elo评级生成排行榜。新加入的谷歌PaLM2在过去两周与其它聊天机器人进行了大约8160场匿名战斗,在用户评级后排名第6。PaLM2比其它模型受到了更严格的监管。PaLM2由于拒绝回答而输掉了20.9%的战斗。PaLM2拒绝了许多角色扮演问题,即使用户要求它模拟Linux终端或编程语言解释器。有时PaLM2还会拒绝回答简单且无争议的事实问题——比如它会拒绝回答"天空为什么是蓝的?"。目前提供的PaLM2版本的多语言能力受限,往往会拒绝回答非英语问题,包括中文、西班牙语和希伯来语等流行语言。PaLM2在仅英语排行中第5,在非英语排行中第16。https://lmsys.org/blog/2023-05-25-leaderboard/频道:@TestFlightCN

封面图片

4)孩子还在成长中:目前提供的 PaLM 2 的多语言能力有限,且提供的 PaLM 2 的推理能力不尽如人意

4)孩子还在成长中:目前提供的PaLM2的多语言能力有限,且提供的PaLM2的推理能力不尽如人意(团队还分别计算了所有模型在仅考虑英语对话和仅考虑非英语对话时的Elo分数,如图3所示。结果在非英语排行榜上,PaLM2排名第16)——————————团队补充的观察1)SmallModers更具有竞争力:团队观察到一些较小的模型,包括vicuna-7B和mpt-7b-chat,在排行榜上取得了高分。与参数翻倍的较大模型相比,这些较小的模型表现优异。他们推测高质量的预训练和微调数据集比模型大小更为关键。而对于更复杂的推理任务或智力问答上,较大的模型仍可能表现更好。因此,在预训练和微调阶段策划时,高质量数据集似乎是在保持模型质量高的同时减小模型大小的关键方法。

封面图片

Take Two:AI可以让NPC变得非常有意思和有趣

TakeTwo:AI可以让NPC变得非常有意思和有趣“当前的游戏,玩家和NPC的互动都是剧本化的,而且NPC一般来说不是那么有趣。但有了AI,你可以想象所有的NPC都会变得非常有意思和有趣。”Zelnick没有证实《GTA6》是否会整合生成式AI,他只是表示R星在开发新一代的《GTA》系列,更多消息将由R星自己公开。此前有传闻称《GTA6》的NPC将非常智能,不仅动画系统非常独特,而且还会记住玩家的行为,甚至还能闻到玩家或其他NPC的气味。本周早些时候,Xbox宣布与Inworld达成一项多年期协议,将大规模构建人工智能对话和叙事工具。Inworld曾在今年8月登上媒体的头条,原因是《GTA5》的一个MOD可让玩家和使用其生成式AI平台的NPC对话。如果配音演员罢工《GTA6》完全不受影响、不会跳票由于SAG-AFTRA的游戏演员和大型游戏公司仍在就新的工会合同进行谈判,而今年又发生了许多重大的罢工行动,游戏演员罢工的可能性仍在继续。但有一位大型游戏公司的高管并不担心,他就是《GTA6》发行商Take-TwoInteractive的首席执行官。在今天的Take-Two财报电话会议上,Take-Two首席执行官StraussZelnick在回答投资者关于如果罢工发生,《GTA6》是否会延期的问题时,他似乎认为SAG-AFTRA的游戏演员不太可能像他们的电视和电影同行那样罢工。相反,他认为谈判结果会“很好”。他说:“谈判有望在下周恢复。我们很乐观。我们非常重视所有的人才。我们重视良好的劳资关系,我们期待达成一项对大家都有利的协议。如果现在不能顺利解决,我们也会得到完全的保护。”SAG-AFTRA的电影和电视演员目前正在罢工,因为他们仍在与美国电影和电视制片人协会商讨新的合同。电子游戏演员目前还没有罢工,但他们在9月份授权,如果工会谈判人员认为有必要在谈判期间举行罢工,他们将举行罢工。迄今为止,合同谈判尚未达成协议,谈判已暂停数周。如果罢工发生,包括Take-Two、动视、EA、Insomniac、WBGames在内的公司都可能受到影响。IGN曾在9月份采访过SAG-AFTRA代表,了解他们正在谈判的内容,包括防止被人工智能取代的保护措施、跟上通胀的固定加薪幅度,以及镜头前表演者的强制休息时间和片场医护人员。StraussZelnick自信地表示《GTA6》不会受到罢工的影响,这或许暗示着游戏的配音已经录制完成,说明游戏开发可能已经接近尾声。最近有传闻称《GTA6》原计划2024年发售,现已被推迟到2025年。...PC版:https://www.cnbeta.com.tw/articles/soft/1395545.htm手机版:https://m.cnbeta.com.tw/view/1395545.htm

封面图片

这个有意思,Gemini Pro 新模型在遇到输入或者输出服务中包含“Open AI”或者“GPT”时会终止响应并且回一个"OT

这个有意思,GeminiPro新模型在遇到输入或者输出服务中包含“OpenAI”或者“GPT”时会终止响应并且回一个"OTHER"错误。在使用GeminiPro开发产品的时候需要注意一下这个问题。这个太傻逼了,除了幻觉之外还得应付这玩意,可以用这个特性来攻击使用GeminiPro的产品。-----内容概述-----在测试谷歌云平台(GCP)的新模型GeminiPro时,作者遇到了一个前所未见的行为:模型拒绝返回任何包含字符串"OpenAI"或"GPT"的文本。由于OpenAI的GPT产品在全球AI新闻报道中非常普遍,GeminiPro似乎将它们视为禁止术语。这意味着,无论是在输入提示中还是在返回的内容中,只要出现了"OpenAI"或"GPT"字符串,GeminiPro就会中止其响应并返回一个"OTHER"错误。与GCP的旧模型(Bison或Unicorn)不同,这种行为是GeminiPro独有的。文章还提到,其他一些术语,如Baidu、Ernie和Microsoft也被视为禁止术语,而Anthropic、Claude、Cohere、Falcon、LLaMA和Vicuna等其他术语则没有问题。文章质疑为什么只有GCP的最新模型GeminiPro受到这种奇怪的秘密禁止提及某些公司和模型的影响,而其旧模型Bison和Unicorn则不受影响。任何基于GeminiPro构建的管道,如果在输入提示中或在尝试生成提及这些隐藏禁止术语的输出时遇到这些术语,都会在没有任何提示的情况下静默失败。随着LLM供应商从供消费者玩耍的闪亮玩具转向真正的企业部署,他们必须更全面地记录他们的防护措施,并确保隐藏的防护措施不会对企业应用程序造成意外挑战,例如通过这种隐藏的禁止但普遍存在的术语。来源:

封面图片

一个非常有意思的项目可以用 SD 直接生成透明的 PNG 图片,也可以直接生成带有透明度分层的图片。#ai画图#

一个非常有意思的项目可以用SD直接生成透明的PNG图片,也可以直接生成带有透明度分层的图片。这个想象力很大能带来很多玩法。也可以使用现有的SD社区模型。项目介绍:LayerDiffusion使得大型已经过预训练的潜在扩散模型(latentdiffusionmodel)能够创造透明图像。这项技术不仅可以生成单独的透明图像,还能生成多层透明图层。它通过一种被称为“潜在透明度”的方法,将透明度(即alpha通道)整合到预训练的潜在扩散模型的潜在结构中。这样做的好处是,它通过以潜在偏移的形式加入透明度,几乎不改变模型原有的潜在分布,从而保持了模型的高质量输出能力。基于这种方法,任何一个潜在扩散模型都可以通过对潜在空间的微调,转化为透明图像生成器。我们训练这个模型时,使用了一种涉及人机互动的方法,收集了一百万组透明图像层数据。我们的研究显示,这种潜在透明技术不仅可以应用于不同的开源图像生成器,还可以适配多种条件控制系统,实现例如基于前景/背景条件的层生成、层的联合生成、对层内容进行结构控制等多种应用。一项用户研究发现,大多数情况下(97%),相比于之前的临时解决方案(如先生成图像再进行抠图处理),用户更喜欢我们直接生成的透明内容。用户还表示,我们生成的透明图像在质量上可媲美真实的商业级透明素材,例如AdobeStock提供的素材。论文地址:

封面图片

标题:真实勾搭良家最终在坚持不懈之下成功无套拿下,过程非常有意思值得一看!作者:#U_91周黑鸭日期:#2022年10月30日标

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人