今天的hacker news第2个热点非常有意思：）值得大家一看：

今天的hacker news第2个热点非常有意思：）值得大家一看： LMSYS Org这个组织最近开放了Chatbot 领域的“混聊大内斗”，并每周都公开排行榜。竞技模式：他们把所有授予他们API接口的模型放到一块，每个模型随机匹配到与其它模型进行聊天对话。这些对话采用的是自然语言，而不是预定义的对话集合。在每次对话结束后，旁观的用户、开发者等等可以对两个参与对话的模型进行投票，以表达他们对这两个模型表现的偏好。投票是匿名的，每个用户只能对同一对话投一次票。投票结果被用来计算 Elo 评分，Elo 评分越高的模型被认为是更强大的语言模型。图一：4月24日至5月24日之间的投票结果，投票人数27k（清华大学的开放式双语对话语言模型排16，这个排行榜仅限于授权给这个团队API权限的模型里）。图二：所有非平局 A 对 B 战斗中，模型 A 获胜比例排行榜的下半部分团队着重提了他们重点观察的Google PaLM 2模型，我总结了一下大概这么几个点： 1）总体情况还可：在过去的两周里，PaLM 2 与其他 16 个聊天机器人进行了约 1.8k 次匿名对战，目前在排行榜上排名第 6。除了 Vicuna-13B（Vicuna 的 Elo 分数比 PaLM 2 高 12 分，即 Vicuna 1054 vs. PaLM 2 1042，根据 ELO 分数来看几乎是虚拟平局）之外，它在所有开源聊天机器人中排名最高。 2）遇强则强，遇弱则弱，好似某个红衣球队，名字我不提：PaLM 2 在与前 4 名选手（即 GPT-4、Claude-v1、ChatGPT、Claude-instant-v1）对战时表现更好，与 Vicuna 的对战中赢得了 53% 的比赛，但在与实力较弱的选手对战时表现较差。 3）觉悟较高：PaLM 2 似乎受到的监管比其他模型更为严格。在许多用户对话中，当用户提问 PaLM 2 不确定或不适合回答的问题时，PaLM 2 比其他模型更可能选择不回应。下面这个数据made my day：在所有成对对战中，PaLM 2 由于拒绝回答而输掉了 20.9% 的对战，并且由于拒绝回答而输给不属于前四名（GPT-4，Claude-v1，ChatGPT，Claude-instant-v1）的聊天机器人 30.8% 的对战。

在Telegram中查看

相关推荐

4）孩子还在成长中：目前提供的 PaLM 2 的多语言能力有限，且提供的 PaLM 2 的推理能力不尽如人意

4）孩子还在成长中：目前提供的 PaLM 2 的多语言能力有限，且提供的 PaLM 2 的推理能力不尽如人意（团队还分别计算了所有模型在仅考虑英语对话和仅考虑非英语对话时的 Elo 分数，如图 3 所示。结果在非英语排行榜上，PaLM 2 排名第 16）团队补充的观察 1）Small Moders更具有竞争力：团队观察到一些较小的模型，包括 vicuna-7B 和 mpt-7b-chat，在排行榜上取得了高分。与参数翻倍的较大模型相比，这些较小的模型表现优异。他们推测高质量的预训练和微调数据集比模型大小更为关键。而对于更复杂的推理任务或智力问答上，较大的模型仍可能表现更好。因此，在预训练和微调阶段策划时，高质量数据集似乎是在保持模型质量高的同时减小模型大小的关键方法。

我今天看到一个非常有意思的ai赚钱案例。

#内幕消息我今天看到一个非常有意思的ai赚钱案例。有一个加拿大的ai艺术家和作家，已经用ai写作和做图并出版了97本书。 9个月的时间赚了2000美元。他的写书过程也很简单。就是用gpt和claude来写故事，然后用midjourney为故事配图。 gpt和claude都是目前比较牛逼的ai聊天对话机器人。而midjourney则是目前非常实用的艺术感超强的绘画工具，十分适合用来制作插图。看了一下他的几个采访，写的都是短篇小说。大多在2000-80000字之间。书卖的售价也不贵，标的价格在1.99-5.99美元之间。虽然这些书的评价都不高，但是我觉得这个人还是蛮牛逼的。这个人牛逼在哪里呢？ 1、信息差把握的很好。他从去年8月份就开始做了，比大部分人做的都早，在ai时代，早就是最大的优势。早一步能让你成为行业的案例，成为别人争相报道的标杆。 2、学习能力很强。国内现在很多人虽然已经知道ai很牛逼，但是不想学，别说claude了，很多人连套壳的gpt都没玩过。这个人很快就把ai对话机器人和绘图工具学完并应用起来了。 3、执行力。还是那句话，执行力决定了结果，他要花3-8个小时写一本书。从去年到现在，写了79本书，有多少人有这个耐心呢？

这个有意思，Gemini Pro 新模型在遇到输入或者输出服务中包含“Open AI”或者“GPT”时会终止响应并且回一个"OT

这个有意思，Gemini Pro 新模型在遇到输入或者输出服务中包含“Open AI”或者“GPT”时会终止响应并且回一个"OTHER"错误。在使用Gemini Pro开发产品的时候需要注意一下这个问题。这个太傻逼了，除了幻觉之外还得应付这玩意，可以用这个特性来攻击使用Gemini Pro的产品。 -内容概述- 在测试谷歌云平台（GCP）的新模型Gemini Pro时，作者遇到了一个前所未见的行为：模型拒绝返回任何包含字符串"OpenAI"或"GPT"的文本。由于OpenAI的GPT产品在全球AI新闻报道中非常普遍，Gemini Pro似乎将它们视为禁止术语。这意味着，无论是在输入提示中还是在返回的内容中，只要出现了"OpenAI"或"GPT"字符串，Gemini Pro就会中止其响应并返回一个"OTHER"错误。与GCP的旧模型（Bison或Unicorn）不同，这种行为是Gemini Pro独有的。文章还提到，其他一些术语，如Baidu、Ernie和Microsoft也被视为禁止术语，而Anthropic、Claude、Cohere、Falcon、LLaMA和Vicuna等其他术语则没有问题。文章质疑为什么只有GCP的最新模型Gemini Pro受到这种奇怪的秘密禁止提及某些公司和模型的影响，而其旧模型Bison和Unicorn则不受影响。任何基于Gemini Pro构建的管道，如果在输入提示中或在尝试生成提及这些隐藏禁止术语的输出时遇到这些术语，都会在没有任何提示的情况下静默失败。随着LLM供应商从供消费者玩耍的闪亮玩具转向真正的企业部署，他们必须更全面地记录他们的防护措施，并确保隐藏的防护措施不会对企业应用程序造成意外挑战，例如通过这种隐藏的禁止但普遍存在的术语。来源：

一个非常有意思的项目可以用 SD 直接生成透明的 PNG 图片，也可以直接生成带有透明度分层的图片。

一个非常有意思的项目可以用 SD 直接生成透明的 PNG 图片，也可以直接生成带有透明度分层的图片。这个想象力很大能带来很多玩法。也可以使用现有的 SD 社区模型。项目介绍： LayerDiffusion使得大型已经过预训练的潜在扩散模型（latent diffusion model）能够创造透明图像。这项技术不仅可以生成单独的透明图像，还能生成多层透明图层。它通过一种被称为“潜在透明度”的方法，将透明度（即 alpha 通道）整合到预训练的潜在扩散模型的潜在结构中。这样做的好处是，它通过以潜在偏移的形式加入透明度，几乎不改变模型原有的潜在分布，从而保持了模型的高质量输出能力。基于这种方法，任何一个潜在扩散模型都可以通过对潜在空间的微调，转化为透明图像生成器。我们训练这个模型时，使用了一种涉及人机互动的方法，收集了一百万组透明图像层数据。我们的研究显示，这种潜在透明技术不仅可以应用于不同的开源图像生成器，还可以适配多种条件控制系统，实现例如基于前景/背景条件的层生成、层的联合生成、对层内容进行结构控制等多种应用。一项用户研究发现，大多数情况下（97%），相比于之前的临时解决方案（如先生成图像再进行抠图处理），用户更喜欢我们直接生成的透明内容。用户还表示，我们生成的透明图像在质量上可媲美真实的商业级透明素材，例如 Adobe Stock 提供的素材。论文地址：

超越GPT-4 Claude 3超大杯成新王

超越GPT-4 Claude 3超大杯成新王而且不仅仅是Claude 3的超大杯Opus成功登顶，藐视众生，Claude 3家族的整体表现都非常亮眼。大杯Claude 3 Sonnet排到了第4，就连最小的Claude 3 HaiKu都达到了GPT-4水平！那么相比于基准测试跑分，这个榜单的权威性如何？Chatbot Arena（聊天机器人竞技场），由伯克利团队开发，每个模型在榜单上的得分，完全取决于真实人类用户的使用体验。我们来看一下打分规则：用户同时向两个匿名模型（比如ChatGPT、Claude、Llama）提出任何相同的问题，然后根据回答投票给表现更好的模型；如果一次回答不能确定，用户可以继续聊天，直到确定获胜者；如果在对话中透露了模型的身份，则不会计算投票。Chatbot Arena平台收集了超过40万人的投票，来计算出这个大模型的等级分排行榜，最终找出谁是冠军。显然，这回Claude 3赢麻了。我们来看一下真实的战况：在所有非平局对战中， A对B获胜的比例：模型之间的对战次数（无平局）：GPT-4终于被干掉了，对此，有网友开始恶搞：刚在当地超市看到Sam Altman，他一脸震惊地看着手机。几秒钟后，他真的倒下了，开始剧烈颤抖。经过2分钟的摇晃和尖叫，一群人围绕着他试图帮助他。但令人惊讶的是，他在2分钟后停止了颤抖和尖叫，站起来，拿起手机开始拨打一个号码。“准备释放......”咱也不知道Altman要放的是不是GPT-5。网友表示，Claude确实要比GPT勤奋得多：GPT-4-Turbo非常懒惰。在任何编码任务中，它都会跳过部分代码，并表示“你自己知道要放什么”，而Opus可以毫无遗漏地输出整个代码。就连Claude-2也通过自己的勤奋和耐心感动了这位网友。更有比较务实的网友指出，Haiku的排名更为重要，因为它是第一个可以以极低成本即时运行的LLM，并且具有足够高的智能来提供实时客户服务。盲生你发现了华点！Claude 3 Haiku不仅与原始版本的GPT-4表现一样好，关键是相当便宜，在一些平台你甚至可以免费使用。大家于是纷纷夸起了Claude 3 Haiku：智能相当于GPT-4，价格比GPT-3.5便宜，而且据说模型可能只有20B大小。有网友表示，OpenAI不行啦，现在Anthropic才是老大，一时间，平台内外充满了快活的空气。ChatGPT 一年零增长回过头来再看ChatGPT这边，从最初的高光、王者，到现在不能说泯然众人吧，反正多少有点寒酸了。最近，有关统计平台曝出：ChatGPT在过去一年中居然零增长！最近一段时间，ChatGPT一直被指责懒惰、系统提示臃肿，而另一方面竞争也愈演愈烈Claude 3和Gemini Pro 1.5现在都提供了比GPT-4多8倍的上下文长度和更好的recall能力。对于几乎每个ChatGPT用例，现在都有大量垂直化的AI初创公司，致力于满足用户的需求，而不是满足于现有的ChatGPT界面和捆绑工具它们有更好的UI选项（例如IDE和图像/文档编辑器）、更好的原生集成（例如用于cron重复操作）、更好的隐私/企业保护（例如用于医疗保健和金融），更细粒度的控制（GPT的默认RAG是幼稚且不可配置的）。以下是一些网友列举了相关垂直领域的产品，以及公司的融资情况：从某种意义上说，OpenAI的B2B和B2C部分相互竞争，这在某种程度上是良性竞争OpenAI可以使用来自ChatGPT的RLHF数据进行训练。而新的GPT商店可以看作是，OpenAI为了抓住这些垂直化需求的尝试。与其离开平台，到处支付20美元/月，为什么不留在ChatGPT内部而只需要支付一次，让OpenAI将理论上的收入分配给GPT创作者？对此，大部分创作者也很明智，一般只向ChatGPT发布精简版的应用，作为自己主要平台的一个渠道。在游戏机业务中，众所周知，购买决策往往是由平台独占游戏驱动的。从某种意义上说，ChatGPT的未来会以平台专属模型为特色。所以，当Sora甚至是GPT-5公开发布时，一定会率先登陆自家的平台，也许那将是下一轮ChatGPT的增长点。 ... PC版：手机版：

LLM排行榜更新：谷歌Bard超过GPT-4 中国玩家未进前十

LLM排行榜更新：谷歌Bard超过GPT-4 中国玩家未进前十排行榜介绍这个LLMs 排行榜（Chatbot Arena基准平台）是由 UC伯克利研究人员主导的LMSYS (Large Model Systems Organization)组织发起的。通过在LLMs 间进行随机匿名的 1V1 battle 方式，并基于 Elo 评级系统得出排名。如下图所示，你可以随便问一个问题，左侧是模型A的回答，右侧是模型B的回答。然后你可以给这两个模型的回答打分，一共有四个选项“A更好；B更好；A和B一样好；A和B一样差”，如果一轮聊天判断不出来，你可以继续聊天，直到选出你认为更好的，但如果在聊天过程中暴露了大模型的身份，则投票将不被计算在内。下图显示了模型A在对战模型B时获胜几率（不包含平局）的比例分布图：下图显示了每种模型组合的battle次数（无平局））下图显示了单个模型相对于所有其他模型的平均胜率：OpenAI霸榜，中国玩家未进前十下图是该榜单目前排名的 Top 10，可以看出GPT-系列模型还是占据绝对优势的（前四名中占据了其三），而 Anthropic旗下的 Claude 系列模型则是在前十中占据了三席。号称是欧洲版OpenAI的 Mistral公司，这次也有两个模型进入前十。另外请看上图最右侧一列，排名 Top 10的模型中，有9家都是闭源的私有模型，这说明开源模型还是有一段路要走。遗憾的是中国玩家的大语言模型没有进入前十。其中排名最高的是李开复创业公司零一万物旗下的 Yi-34B-Chat模型，位居13名。其次是阿里旗下的通义千问 Qwen-14B-chat模型，排名36:再之后是清华教授唐杰创业公司智谱AI旗下的ChatGLM系列模型：需要说明三点：1、有很多中国大厂研发的模型可能没有参与到该榜单排名；2、该榜单是面向全球公众的，所以选择用英文来聊天的用户要远比中文多，这可能对中国玩家研发的大语言模型不利；3、该榜单仅仅统计了20w用户的随机提问和聊天，代表了用户和LLMs聊天的真实评价，但由于用户的提问和专业程度参差不齐，所以评价具有一定的主观性。最后我们说回Google，在裁员和科学家离职创业的内忧外患之际（详情请移步Google危机大爆发！科学家纷纷离职创业、员工裁员不断...），Google24年究竟能不能完成“帝国反击战”呢？让我们拭目以待吧！ ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人