相关推荐

OpenCat 这次更新太质变了！

OpenCat 这次更新太质变了！ ChatGPT3.5换成claude 1.3，速度起飞效果更好。再创建一个claude 100k 总结机器人，打开论文全选粘贴，总结要点，随意提问，效果远超 chatPDF。 Baye aka 威力狈: OpenCat for macOS 1.2.8 更新：支持 Claude 支持 Azure OpenAI 支持加密 DNS 修复了一些 UI 问题

Claude 100k 用起来了！

Claude 100k 用起来了！ 1. 先把 claude 的 API 转成 OpenAI 的格式 2. 找到支持无限输入的客户端 ChatBox，并填写API 3.模型选择 GPT4，对应就是 claude 100k 3. 随便找一篇万字长文丢进去，居然算两万多token 4. 总结成功如图感谢两位开发者网页直接全选复制粘贴，有很多额外的东西也不怕。 - 总结速度真的非常快，考虑到这么多字数，速度比 bing 还快，不能不满意。 - 视频字幕，会议纪要，小说章节，都能一分钟get精髓。 - 和高情商的 Claude 闲聊一天都保持记忆

Claude 100k 用起来了！

Claude 100k 用起来了！ 1. 先把 claude 的 API 转成 OpenAI 的格式 2. 找到支持无限输入的客户端 ChatBox，并填写API 3.模型选择 GPT4，对应就是 claude 100k 3. 随便找一篇万字长文丢进去，居然算两万多token 4. 总结成功如图感谢两位开发者 tips - 网页直接全选复制粘贴，有很多额外的东西也不怕。 - 总结速度真的非常快，考虑到这么多字数，速度比 bing 还快，不能不满意。 - 视频字幕，会议纪要，小说章节，都能一分钟get精髓。 - 和高情商的 Claude 闲聊一天都保持记忆

我们刚刚提到，JPG 的修图空间很小，假如再次基于 JPG 进行修图，那原图丢失和篡改的信息就更多了。

我们刚刚提到，JPG 的修图空间很小，假如再次基于 JPG 进行修图，那原图丢失和篡改的信息就更多了。所以对于摄影师而言，看到 JPG 不满意，其实是回到 Raw 文件重新修，而不是基于 JPG 修。以此来保证摄影作品的质量。好在新闻的篇幅不算太长，也并非属于严肃学习的场景，失真容错率相对较高。用摘要快速确定是否感兴趣 & 大致内容读个压缩版是很有用的。用 AI 学习长文章 / 长视频 / 长播客（转文字脚本）在这种场景下，摘要失真的容错率会低很多（尤其是严肃科普阅读）。但阅读的方法论不同，我们可以一在定程度上克服这种失真。模仿修图师的思维，就是一个答案。有人说：假如文本长度为 75000 个单词，一般人用时大约 5 个小时读完等量内容后，还得用更多的时间去消化、记忆、分析。而对于 Claude，大约不到 1 分钟就搞定。备注：Claude 的 API 目前能记住 100k tokens 的长度，而同时的 gpt-3.5 能记住大约 4k tokens；而目前 slack 里的 Claude 机器人大概是 9k tokens 那是不是说人类就不需要学习了？当然不是，至少 AI 目前为止的定位和程度还是工具，而不是独立的生命。回看 AlphaGo，给人类棋手的学习带来了崭新的启发，其实是加速学习和带来崭新的启发。回到用 AI 阅读学习材料这件事情上来，如果你用过 Chatpdf 类似的产品，你就会发现当 AI 帮你把 pdf “读”完之后，它会提出大概 3 个可能值得提出的问题，从而引导你提问和获得启发。（Chatpdf 不是真的帮你消化了完整的内容，下面我会解释）刚刚我们从摄影聊到了金句的逆向，我特别提到一句话是：「没有背景的情况下，全靠脑补特别难」。换句话说，假如有背景，那金句和摘要带来的可能性就发挥了更大的价值。就好像修图师找得到某个 JPG 的 Raw 原文件，找不到的话，客户不满意就没法重新修图了。对于 AI 而言：预训练已经“提前帮你看过了很多内容”，这是第一部分；而我们的上下文聊天发送的内容，是看过的第二部分内容，两部分合力发挥作用。总结一下： AI 工具之于短平快的新闻的价值在于摘要本身，主打的就是一个快速获得资讯。 AI 工具之于严肃学习的价值不是摘要，此时的摘要类似于金句，价值在于「逆向思考的过程并获得启发」，单纯接收 AI 的摘要不足以构建知识。因为逆向思考需要一定的背景，否则很难推导和获得知识。然而 AI 的长处就是给你提供用于逆向思考所可能的背景知识，类似于一个可能存在的 Raw 文件），它由预训练的部分（非 prompt） + 你提供的上下文组成。 OK，区分开两个大致的场景和方向，AI 的「真实效益」便可以最大化。混淆了读新闻和读长文这两个场景就很难用好 AI，自然会把 AI 当成一个车轱辘话生成器。至此，如果你延伸思考，你就会知道 Prompt 的重要性来源于哪里即通过 Prompt “唤醒”预训练中的知识作为金句 / 摘要背后可能的背景铺垫（Prompt 本身也是），然后进行更好的推理来输出答案。在过去几个月里，最常见的 Prompt 句式：「你是一个 xxx」，就是如此。然而，正如我刚刚提到的，别忘了这种模版只不过是 Prompt 中的一部分，另一部分是知识。知识，也是一种 Prompt（字符串）。例如，假如你关心「营销」，你可以在 Prompt 里插入一段和营销有关的书籍原文，再在后面提一些问题。如果你用 Claude-100k，甚至可以在聊天开始的时候直接给他一整本书获得摘要。（效果如何，我还需要继续测试和观察，以后再给大家写测评）紧接着，以摘要为线索，通过聊天获得新的思考和观点，和 AI 相互启发，才能有所收获。换句话说，在严肃学习这个场景下，思考的过程才有价值。但奈何我理解原材料（Raw）的能力可能不够强，所以我让 AI 先生成一个摘要（JPG 1），但是我们不把 JPG 1 直接作为新知识，而是通过 JPG 去指引我们找到 Raw 文件，一边自行思考一边问 AI 是如何加工这个 Raw 文件的，从而来和自己的思考过程形成对照。自然能找到自己思考卡壳的地方等等。在这个前提之下，我们再在聊天告一段落的时候，基于我们的思考进行摘要就好太多了（获得了你自己的修图版本 JPG 2）。即便 AI 可能有所遗漏，我们也会有所觉察并进行补充（毕竟你认真思考过了）。另外，尝试进行公开写作，其实是一个运用费曼学习的过程。更多的思考，见 @Szhans 让我们一起回忆一下，阅读长文的流程可以是： 1⃣ 第一步：先摘要借助 AI 的强大力量判断感不感兴趣，以及文章大致的重点清单。然后甚至可以一开始就问 AI：「请围绕这篇文章的核心观点提出最值得思考的 5 个问题」。然后看看有没有感兴趣的，以此来激发自己的好奇心和求知欲。 2⃣ 第二步：基于摘要中最感兴趣的观点进行逆向思考例如，你提到的「xxx」这个观点特别有意思，能不能说说原文中提到的原话是什么，作者提到了一个怎样的场景、故事或者实验案例？ 3⃣ 第三步：基于逆向思考和聊天进行摘要、整理和校对。可见，再学习的场景下，凡第二步我们才进入了「修图模式」，而不是直接进行智能摘要，并把这个摘要作为自己所得的新知识。请注意，上面只是一个参考而不是标准答案。也有时候我会读完了文章再拿去让 Claude 也读一读再和我聊。 AI 在这个过程中大致做了两件事情。首先，是基于一个 JPG 指引我们回到 Raw 文件；其次，是全程可以辅助我们加工 Raw 文件。今天，我们在自学方面终于也拥有了摄影意义上的 PS 了。细节：在第二步中，有时候还是不太好理解消化，你可以继续追问： 1⃣ 你刚刚提到的「xxx」这段话很难理解，你能不能用给中学生讲解的口吻通俗易懂地向我再解释一下呢？ 2⃣ 请你善用比喻、类比、拟人的修辞手法。 3⃣ 能不能请你举一反三，告诉我这个观点如何应用于我们的生活，可以给我们带来怎样的指导？上面是我常用的提问法，三个可以一起用。但是，特别注意，根据我的经验： 1⃣ 一次最好只针对摘要中的一个论点进行分析，这样的话整个回复的篇幅都会集中于此。 2⃣ 反之，如果你一次就让他分析三个观点，那么每一个观点也只是简单谈谈而已，不如逐个击破。 3⃣ 耐心地复制原文。大家在微信怎么回复消息的，是不是长按某一条消息引用来回复？又或者在飞书和 slack 里创建话题 / 消息列来进行收束？同理，当我们聊天已经进行了一段时间后，最好复制特定内容后再向 AI 提问，这样别人才知道重点嘛～（也是在帮助对方回忆内容）至此，你应该知道为什么上下文长度如此重要了，Claude 也许目前编码能力和翻译能力不如 ChatGPT，但是其文科理解能力特别强。他是你学习文科类内容的「靠谱同学」。在长度拓展到 100k tokens 之后，你可以想象其逆向能力的强大。（理论上）其他问题：Chatpdf 不是也能读长文吗？和 Claude-100k 区别在哪里呢？注意，这个和 Chatpdf 不同，由于 gpt-3.5 只有 4k 上下文（相比之下），所以 Chatpdf 实际上是把 pdf 原文切分为了很多小块。通俗地说就是：当你提问的时候，程序先搜索我们的问题从语义上看最相关的一个或多个 pdf 片段，然后把这部分内容作为 prompt 的一部分，合并你提问输入的 prompt，以及程序内部预设的一些 prompt 模版，共同传给了大模型，然后我们才得到了最终回答。如果每次都把 pdf 原文发过去，就超出长度限制报错了。在这个过程中，pdf 会被怎样切分呢？例如，每隔 1000 就切分为一个小片段。你也许已经想到了：假如刚好有些重点被切开了，岂不是影响了 AI 的理解？这个方法确实是。但是也有一些技术方案尽可能缩减这种偏差。而最新的 Claude API，看官方文档说的是「上下文长度」就能记忆 100k tokens，这就和切分 pdf 的方法划出了界限。

Arc 王炸更新，来不及解释了（看图）

Arc 王炸更新，来不及解释了（看图）随便打开了一个 Medium 文章试了试 Arc 让 Cmd + F 充满了魔力，既可搜索关键词，又可直接 Chat 网站……这下 Readwise Reader AI 还没搞好优化就要被 Arc 浏览器给优化了。更： 1⃣ 搜索生成的答案下面可以追溯原文，如果和原文有一些偏差，则会提示：「Quote not found. Make sure it's accurate」。反之，则类似于 cmd f 高亮定位原文。我觉得这个初心是好的，就是前者的暴率是不是太高了点…… 2⃣ 如果你 Chat 的时候提示 error，请检查网络。 3⃣ 悬浮 Summarize 功能非常新颖，但是不是所有网站都有效果。（例如 Notion 就不行，没有 summarize 任何信息） 4⃣ ChatGPT in the Command Bar 实际上就是快捷键后先弹出一个输入框输入问题，然后再跳转到 ChatGPT 网页。（有点像快速链接）总结：个人而言最有用的就是 Chat 部分，前提是它得提供更好的稳定性，期待 Arc 未来的进步，这次只能算是功能亮相。以下为功能介绍： Ask on Page 按住 Command + F 键在任何页面上提问，让 Max 在几秒钟内为您回答。 5-Second Previews 按住 Shift 键并悬停在任何链接上，即可生成网页摘要，无需点击。 Tidy Tab Titles 将您的标签页自动重命名为更整洁、更短的标题，当您将它们固定在屏幕上时。 Tidy Downloads 通过智能重命名下载文件，让您的许多文件更有组织性，并且稍后更容易找到它们。 ChatGPT in the Command Bar 按下 Option cmd G，开始输入，以更少的点击获取答案。

谷歌新Bard逆袭GPT-4冲上LLM排行榜第二 Jeff Dean高呼我们回来了

谷歌新Bard逆袭GPT-4冲上LLM排行榜第二 Jeff Dean高呼我们回来了基于此，Bard相较于3月份的首次亮相，不仅在表现上有了显著的提升，而且还具备了更多的能力。可以看到，在最新的Gemini Pro-scale加持下，Bard直接蹿升到了排行榜第二名的位置。一口气把之前的两款GPT-4模型斩于马下，甚至和排名第一的GPT-4 Turbo的差距也非常小。虽然Jeff Dean并没有具体阐述“scale”的含义，但从名称上推测，很可能是一个比初代Gemini Pro规模更大的版本。而根据前段时间外媒曝出的内部邮件，搭载Gemini Ultra的Bard Advanced已经全面开放给Google员工试用。也就是说，距离Google最强模型的上线，已经不远了。随着Google对Gemini Pro更新后不断大幅上涨的表现，也让所有人对完全体Gemini Ultra的能力有了更多的期待。不过，新推出的Bard目前只接受了约3,000次评价，而GPT-4的评价次数已高达30,000次。因此，这个结果后续很可能还会发生变动。但不管怎样，这对于Google来说是一项令人瞩目的成就，也让人对即将发布的、预期将超过Gemini Pro-Scale性能的最强AI模型Gemini Ultra充满期待。GoogleBard超越GPT-4跃居第二简单介绍一下，这个由UC伯克利主导，CMU，UCSD等顶级高校共同参与创建的聊天机器人竞技场“Chatbot Arena”，是学术圈内一个很权威的大模型对话能力排行榜。榜单通过类似Moba游戏中的“排位赛”机制，让各家大模型通过PvP的方式来排出性能高低。期间，用户会与模型（不知道具体型号）进行互动，并选择他们更喜欢的回答。而这些投票将会决定模型在排行榜上的名次。这种方式能够有效地避免很多PvE基准测试中可能出现的，通过“刷题”来提高成绩的问题，被业界认为是一个比较客观的大模型能力排行榜。为了便于区分，LMSYS Org指出，目前Gemini Pro市面上总共有3个版本：- Gemini Pro API：用户可以通过Google云的Vertex AI API进行访问- Gemini Pro（dev）API：开发者API可以通过Google AI Studio进行访问- Bard（1月4日更新的Gemini Pro）：是目前唯一可以访问到1月24日更新的Gemini Pro的方式同时，GoogleBard项目的高级总监Sadovsky也透露，排行榜上的Bard和Gemini Pro（API）是两个在微调层面不同的模型，而且Bard可以检索互联网上的信息。在ChatBot Arena中，1月24号更新的Bard由于支持检索互联网，相比于之前放出的Gemini Pro（API）对于实时信息问题的回复提升巨大。从Google的这波更新可以看出，Gemini Pro的潜力似乎远远没有被完全释放，希望Google能再接再厉，对OpenAI一家独大的格局形成挑战。以下是1月14号更新的Bard在ChatBot Arena中的成绩的明细：模型A相对于模型B在所有非平局对决中获胜的比例不同模型组合间对决的次数统计（排除平局情况）通过1000轮随机抽样对Elo评分进行的自举法（Bootstrap）估计在假设等概率抽样和不存在平局的情况下，相对于所有其他模型的平均胜率Elo评分系统Elo等级分制度（Elo rating system）是一种计算玩家相对技能水平的方法，广泛应用在竞技游戏和各类运动当中。其中，Elo评分越高，那么就说明这个玩家越厉害。比如英雄联盟、Dota 2以及吃鸡等等，系统给玩家进行排名的就是这个机制。举个例子，当你在英雄联盟里面打了很多场排位赛后，就会出现一个隐藏分。这个隐藏分不仅决定了你的段位，也决定了你打排位时碰到的对手基本也是类似水平的。而且，这个Elo评分的数值是绝对的。也就是说，当未来加入新的聊天机器人时，我们依然可以直接通过Elo的评分来判断哪个聊天机器人更厉害。具体来说，如果玩家A的评分为Ra，玩家B的评分为Rb，玩家A获胜概率的精确公式（使用以10为底的logistic曲线）为：然后，玩家的评分会在每场对战后线性更新。假设玩家A（评分为Ra）预计获得Ea分，但实际获得Sa分。更新该玩家评分的公式为：网友热议对此，网友提问：现在能够访问的Bard就是这个排名第二的Bard了吗？Google官方回复，是的，而且现在访问的Bard比排行榜的上的Bard还能支持更多的像地图扩展等应用。不过还是有网友吐槽，即使在PvP排行榜上Bard已经取得了很好的成绩，但是对于理解用户需求和解决实际问题的能力，Bard和GPT-4依然还有很大差距。也有网友认为，用能联网的Bard和离线的GPT-4打有失公平。甚至，就这样还没打过……而最有意思的，还要数网友在排行榜中发现的“华点”了：号称是GPT-4最大竞品的Claude居然越更新越弱了。对此，之前有分析认为，Anthropic一直在大力发展的与人类对齐，会严重影响模型的性能。GPT-4 Turbo超长上下文A/B测试有趣的是，这个连Jeff Dean都亲自下场的“刷榜”，正巧就在OpenAI连发5款新模型的第二天。根据OpenAI的介绍，新版GPT-4 Turbogpt-4-0125-preview，不仅大幅改善了模型“偷懒”的情况，而且还极大地提升了代码生成的能力。不过，正如大家对Bard的怀疑，GPT-4这次到底有没有变强也有待验证。对此，AI公司Smol的创始人Shawn Wang，就在超过100k单词的超长上下文中，对比测试了新旧GPT4-Turbo的总结能力。Wang表示，两次测试使用的是完全相同提示词，以及基本相同的语料库。虽然没有严格严格，但每个模型都进行了超过300次的API调用，因此对于总结任务而言，这一结果还是具有一定参考价值的。结果显示，2024年1月的GPT4-Turbo花费了19分钟来生成20,265个单词，相比之下，2023年11月的用16分钟生成了18,884个单词。也就是说，新模型的生成速度大约慢了 18%，且生成文本的长度平均偏长约7%。质量方面：- 2024年1月的模型在主题选择上略有改善，但仍存在问题- 2023年11月的模型会产生更多错误信息- 2024年1月的模型在总结中添加小标题的能力略有提升- 2024年1月的模型出现了一次严重的格式错误，而这在之前是极为罕见的- 2023年11月的模型文本详情更加丰富总体而言，新版GPT4-Turbo在总结这一应用场景上有所退步。左侧：2023年11月；右侧：2024年1月（左右滑动查看全部）OpenAI最后的“开源遗作”两周年不得不说，AI领域的发展过于迅猛，甚至让人对时间的流速都产生了错觉。今天，英伟达高级科学家Jim Fan发推纪念了InstructGPT发布二周年。在这里，OpenAI定义了一套标准流程：预训练 -> 监督式微调 -> RLHF。直到今天，这依然是大家遵循的基本策略（尽管有些许变化，比如DPO）。它不仅仅是大语言模型从学术探索（GPT-3）到转化为具有实际影响力的产品（ChatGPT）的关键转折点，而且也是最后一篇OpenAI详细说明他们如何训练前沿模型的论文。论文地址： InstructGPT在2022年的NeurIPS会议上首次亮相，但它并不是RLHF的发明者。实际上，相关博客将读者引向了OpenAI团队在2017年完成的原始RLHF研究。这项研究最初的目的是解决模拟机器人领域中难以明确定义的任务通过一名人类标注者提供的900个二选一偏好，RLHF让一个简单的“跳跃”机器人在模拟环境中学会了后空翻。论文地址：模型提供了三种规模：1.3B、6B、175B。与旧的、需要复杂提示设计的GPT-3-175B相比，标注者明显更喜欢Instruct-1.3B。微软最知名的“小模型”Phi-1也是1.3B。- InstructGPT展示了如何精彩地呈现研究成果。三个步骤的图表清晰易懂，并且成为AI领域最标志性的图像之一。引言部分直接了当，用粗体突出了8个核心观点。对局限性和偏见的讨论实事求是、坦诚直接。 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人