Palm2 的准确性这么低。。能用吗。。

谷歌发布AI语言模型PaLM 2 挑战OpenAI的GPT-4

谷歌发布AI语言模型PaLM2挑战OpenAI的GPT-4皮查伊称：“PaLM2在逻辑和推理方面进行了广泛的训练，具有极强的逻辑和推理能力。同时，它还接受了多语言文本训练，支持100多种语言。谷歌在2022年4月首次发布了PaLM语言模型。谷歌高级研究总监斯拉夫·彼得罗夫（SlavPetrov）称，最新的PaLM2在一系列基于文本的任务上表现更好，包括推理、编码和翻译等。他说：“与PaLM1相比，PaLM2有了显著提升。”对于PaLM2，谷歌工程师在一份研究论文中称，该系统的语言熟练程度“足以教授这门语言”。与其他大型语言模型一样，PaLM2与其说是一款单一产品，不如说是一系列产品。它拥有不同的版本，可部署在消费者和企业环境中。确切而言，PaLM2分为四种规格，从小到大依次为Gecko、Otter、Bison和Unicorn，依据特定领域的数据进行了微调，以执行企业客户的特定任务。其中，体积最小的Gecko可以在手机上运行，每秒可处理20个Token，大约相当于16或17个单词。谷歌还称，PaLM2已被用于支持自家的25项功能和产品，其中包括AI聊天机器人Bard，以及谷歌文档、幻灯片和工作表等。...PC版：https://www.cnbeta.com.tw/articles/soft/1359045.htm手机版：https://m.cnbeta.com.tw/view/1359045.htm

聊天机器人竞技场排行榜 (第4周) : PaLM 2 的表现

聊天机器人竞技场排行榜(第4周):PaLM2的表现是一个大型语言模型的基准平台，会让两个匿名AI以随机的方式并排聊天，由用户投票更好的一方，再基于Elo评级生成排行榜。新加入的谷歌PaLM2在过去两周与其它聊天机器人进行了大约8160场匿名战斗，在用户评级后排名第6。PaLM2比其它模型受到了更严格的监管。PaLM2由于拒绝回答而输掉了20.9%的战斗。PaLM2拒绝了许多角色扮演问题，即使用户要求它模拟Linux终端或编程语言解释器。有时PaLM2还会拒绝回答简单且无争议的事实问题——比如它会拒绝回答"天空为什么是蓝的?"。目前提供的PaLM2版本的多语言能力受限，往往会拒绝回答非英语问题，包括中文、西班牙语和希伯来语等流行语言。PaLM2在仅英语排行中第5，在非英语排行中第16。https://lmsys.org/blog/2023-05-25-leaderboard/频道：@TestFlightCN

Google最新发布PaLM 2，一种新的语言模型，具有更好的多语言和推理能力，同时比其前身PaLM更节省计算资源。

Google最新发布PaLM2，一种新的语言模型，具有更好的多语言和推理能力，同时比其前身PaLM更节省计算资源。PaLM2综合了多项研究进展，包括计算最优的模型和数据规模、更多样化和多语言的数据集、以及更有效的模型架构和目标函数。PaLM2在多种任务和能力上达到了最先进的性能，包括语言水平考试、分类和问答、推理、编程、翻译和自然语言生成等。PaLM2还展示了强大的多语言能力，能够处理数百种语言，并在不同语言之间进行翻译和解释。PaLM2还考虑了负责任的使用问题，包括推理时控制毒性、减少记忆化、评估潜在的伤害和偏见等。

4）孩子还在成长中：目前提供的 PaLM 2 的多语言能力有限，且提供的 PaLM 2 的推理能力不尽如人意

4）孩子还在成长中：目前提供的PaLM2的多语言能力有限，且提供的PaLM2的推理能力不尽如人意（团队还分别计算了所有模型在仅考虑英语对话和仅考虑非英语对话时的Elo分数，如图3所示。结果在非英语排行榜上，PaLM2排名第16）——————————团队补充的观察1）SmallModers更具有竞争力：团队观察到一些较小的模型，包括vicuna-7B和mpt-7b-chat，在排行榜上取得了高分。与参数翻倍的较大模型相比，这些较小的模型表现优异。他们推测高质量的预训练和微调数据集比模型大小更为关键。而对于更复杂的推理任务或智力问答上，较大的模型仍可能表现更好。因此，在预训练和微调阶段策划时，高质量数据集似乎是在保持模型质量高的同时减小模型大小的关键方法。

易用性有时候是值得损失部分准确性的

易用性有时候是值得损失部分准确性的阅读BenThompson的文章https://stratechery.com/2023/the-openai-keynote/，分析非常有意思，其中有一章节，论述为什么OpenAIDevDay之后ChatGPT似乎淡化了Plugin的概念，而推出了新的产品交互形态，对比下前后两者的差别：之前：用户如果需要使用某一插件（如PDF总结），必须搜索安装插件，并在对话前切换打开插件，然后对话；之后：用户不再需要特意安装插件，直接点到侧边栏的GPTs（为某一场景专门定制的GPT），对话即可；这其中，虽然用户还是做了一次选择，但一开始插件就已经被集成到了GPTs中，这个整体操作和交互体验改变很大，它降低了用户的思考成本，只需要在合适的时候做一个简单的点击即可。作者由此引出自己的观点：1.消费者关心事物的方式和你赋予他们的期望可能不同，他们优先考虑易用性，对于模块化解决方案的“接缝感”会表现出明显的不满（比如ChatGPT之前的Plugin使用方式就是一种模块化方案）。2.综合的解决方案最终能够获胜，因为没有什么是“足够好的”，综合的解决方案也许会有缺陷（比如ChatGPT有时欠缺准确性），但是，这种缺陷是可以接受的，易用性是值得损失部分准确性的。3.客户会说自己需要准确性和第三方工具，但是他们的行动会证明，方便和易用才是最重要的。以上的观点启发很大，可见OpenAI正在从一家主要关注技术能力的公司，转变为同时关注产品能力和用户体验的公司。

微软Start团队开发新AI模型，显著提高未来30天天气预报的准确性