最近 Google Bard 越来越厉害了

最近 Google Bard 越来越厉害了 - 速度奇快，写长内容至少是 ChatGPT 和 Claude 速度的倍以上。 - 知识库非常新，知道今年的奥斯卡得主，也知道 lumalee ，知道 IFT 和 RLHF 的区别。 - 实时信息，问它今天的新闻都可以，不用插件。太神奇了。另外推荐下 ChatHub 这个浏览器插件，方便做对比。

在Telegram中查看

相关推荐

最近 Google Bard 越来越厉害了

最近 Google Bard 越来越厉害了 - 速度奇快，写长内容至少是 ChatGPT 和 Claude 速度的3倍以上。 - 知识库非常新，知道今年的奥斯卡得主，也知道 lumalee ，知道 IFT 和 RLHF 的区别。 - 实时信息，问它今天的新闻都可以，不用插件。太神奇了。另外推荐下 ChatHub 这个浏览器插件，方便做对比。

谷歌新Bard逆袭GPT-4冲上LLM排行榜第二 Jeff Dean高呼我们回来了

谷歌新Bard逆袭GPT-4冲上LLM排行榜第二 Jeff Dean高呼我们回来了基于此，Bard相较于3月份的首次亮相，不仅在表现上有了显著的提升，而且还具备了更多的能力。可以看到，在最新的Gemini Pro-scale加持下，Bard直接蹿升到了排行榜第二名的位置。一口气把之前的两款GPT-4模型斩于马下，甚至和排名第一的GPT-4 Turbo的差距也非常小。虽然Jeff Dean并没有具体阐述“scale”的含义，但从名称上推测，很可能是一个比初代Gemini Pro规模更大的版本。而根据前段时间外媒曝出的内部邮件，搭载Gemini Ultra的Bard Advanced已经全面开放给Google员工试用。也就是说，距离Google最强模型的上线，已经不远了。随着Google对Gemini Pro更新后不断大幅上涨的表现，也让所有人对完全体Gemini Ultra的能力有了更多的期待。不过，新推出的Bard目前只接受了约3,000次评价，而GPT-4的评价次数已高达30,000次。因此，这个结果后续很可能还会发生变动。但不管怎样，这对于Google来说是一项令人瞩目的成就，也让人对即将发布的、预期将超过Gemini Pro-Scale性能的最强AI模型Gemini Ultra充满期待。GoogleBard超越GPT-4跃居第二简单介绍一下，这个由UC伯克利主导，CMU，UCSD等顶级高校共同参与创建的聊天机器人竞技场“Chatbot Arena”，是学术圈内一个很权威的大模型对话能力排行榜。榜单通过类似Moba游戏中的“排位赛”机制，让各家大模型通过PvP的方式来排出性能高低。期间，用户会与模型（不知道具体型号）进行互动，并选择他们更喜欢的回答。而这些投票将会决定模型在排行榜上的名次。这种方式能够有效地避免很多PvE基准测试中可能出现的，通过“刷题”来提高成绩的问题，被业界认为是一个比较客观的大模型能力排行榜。为了便于区分，LMSYS Org指出，目前Gemini Pro市面上总共有3个版本：- Gemini Pro API：用户可以通过Google云的Vertex AI API进行访问- Gemini Pro（dev）API：开发者API可以通过Google AI Studio进行访问- Bard（1月4日更新的Gemini Pro）：是目前唯一可以访问到1月24日更新的Gemini Pro的方式同时，GoogleBard项目的高级总监Sadovsky也透露，排行榜上的Bard和Gemini Pro（API）是两个在微调层面不同的模型，而且Bard可以检索互联网上的信息。在ChatBot Arena中，1月24号更新的Bard由于支持检索互联网，相比于之前放出的Gemini Pro（API）对于实时信息问题的回复提升巨大。从Google的这波更新可以看出，Gemini Pro的潜力似乎远远没有被完全释放，希望Google能再接再厉，对OpenAI一家独大的格局形成挑战。以下是1月14号更新的Bard在ChatBot Arena中的成绩的明细：模型A相对于模型B在所有非平局对决中获胜的比例不同模型组合间对决的次数统计（排除平局情况）通过1000轮随机抽样对Elo评分进行的自举法（Bootstrap）估计在假设等概率抽样和不存在平局的情况下，相对于所有其他模型的平均胜率Elo评分系统Elo等级分制度（Elo rating system）是一种计算玩家相对技能水平的方法，广泛应用在竞技游戏和各类运动当中。其中，Elo评分越高，那么就说明这个玩家越厉害。比如英雄联盟、Dota 2以及吃鸡等等，系统给玩家进行排名的就是这个机制。举个例子，当你在英雄联盟里面打了很多场排位赛后，就会出现一个隐藏分。这个隐藏分不仅决定了你的段位，也决定了你打排位时碰到的对手基本也是类似水平的。而且，这个Elo评分的数值是绝对的。也就是说，当未来加入新的聊天机器人时，我们依然可以直接通过Elo的评分来判断哪个聊天机器人更厉害。具体来说，如果玩家A的评分为Ra，玩家B的评分为Rb，玩家A获胜概率的精确公式（使用以10为底的logistic曲线）为：然后，玩家的评分会在每场对战后线性更新。假设玩家A（评分为Ra）预计获得Ea分，但实际获得Sa分。更新该玩家评分的公式为：网友热议对此，网友提问：现在能够访问的Bard就是这个排名第二的Bard了吗？Google官方回复，是的，而且现在访问的Bard比排行榜的上的Bard还能支持更多的像地图扩展等应用。不过还是有网友吐槽，即使在PvP排行榜上Bard已经取得了很好的成绩，但是对于理解用户需求和解决实际问题的能力，Bard和GPT-4依然还有很大差距。也有网友认为，用能联网的Bard和离线的GPT-4打有失公平。甚至，就这样还没打过……而最有意思的，还要数网友在排行榜中发现的“华点”了：号称是GPT-4最大竞品的Claude居然越更新越弱了。对此，之前有分析认为，Anthropic一直在大力发展的与人类对齐，会严重影响模型的性能。GPT-4 Turbo超长上下文A/B测试有趣的是，这个连Jeff Dean都亲自下场的“刷榜”，正巧就在OpenAI连发5款新模型的第二天。根据OpenAI的介绍，新版GPT-4 Turbogpt-4-0125-preview，不仅大幅改善了模型“偷懒”的情况，而且还极大地提升了代码生成的能力。不过，正如大家对Bard的怀疑，GPT-4这次到底有没有变强也有待验证。对此，AI公司Smol的创始人Shawn Wang，就在超过100k单词的超长上下文中，对比测试了新旧GPT4-Turbo的总结能力。Wang表示，两次测试使用的是完全相同提示词，以及基本相同的语料库。虽然没有严格严格，但每个模型都进行了超过300次的API调用，因此对于总结任务而言，这一结果还是具有一定参考价值的。结果显示，2024年1月的GPT4-Turbo花费了19分钟来生成20,265个单词，相比之下，2023年11月的用16分钟生成了18,884个单词。也就是说，新模型的生成速度大约慢了 18%，且生成文本的长度平均偏长约7%。质量方面：- 2024年1月的模型在主题选择上略有改善，但仍存在问题- 2023年11月的模型会产生更多错误信息- 2024年1月的模型在总结中添加小标题的能力略有提升- 2024年1月的模型出现了一次严重的格式错误，而这在之前是极为罕见的- 2023年11月的模型文本详情更加丰富总体而言，新版GPT4-Turbo在总结这一应用场景上有所退步。左侧：2023年11月；右侧：2024年1月（左右滑动查看全部）OpenAI最后的“开源遗作”两周年不得不说，AI领域的发展过于迅猛，甚至让人对时间的流速都产生了错觉。今天，英伟达高级科学家Jim Fan发推纪念了InstructGPT发布二周年。在这里，OpenAI定义了一套标准流程：预训练 -> 监督式微调 -> RLHF。直到今天，这依然是大家遵循的基本策略（尽管有些许变化，比如DPO）。它不仅仅是大语言模型从学术探索（GPT-3）到转化为具有实际影响力的产品（ChatGPT）的关键转折点，而且也是最后一篇OpenAI详细说明他们如何训练前沿模型的论文。论文地址： InstructGPT在2022年的NeurIPS会议上首次亮相，但它并不是RLHF的发明者。实际上，相关博客将读者引向了OpenAI团队在2017年完成的原始RLHF研究。这项研究最初的目的是解决模拟机器人领域中难以明确定义的任务通过一名人类标注者提供的900个二选一偏好，RLHF让一个简单的“跳跃”机器人在模拟环境中学会了后空翻。论文地址：模型提供了三种规模：1.3B、6B、175B。与旧的、需要复杂提示设计的GPT-3-175B相比，标注者明显更喜欢Instruct-1.3B。微软最知名的“小模型”Phi-1也是1.3B。- InstructGPT展示了如何精彩地呈现研究成果。三个步骤的图表清晰易懂，并且成为AI领域最标志性的图像之一。引言部分直接了当，用粗体突出了8个核心观点。对局限性和偏见的讨论实事求是、坦诚直接。 ... PC版：手机版：

#吃瓜 #反差最近感觉越来越变态了由于接触自慰太早了导致现在阈值越来越高已经不能正常撸管过性生活了小时候经常偷用妈妈奶罩袜子

#吃瓜 #反差最近感觉越来越变态了由于接触自慰太早了导致现在阈值越来越高已经不能正常撸管过性生活了小时候经常偷用妈妈奶罩袜子鞋子闻感觉特别舒服还会给妈妈按摩脚当时感觉都要爽飞了尤其是忙完了一天的臭脚第一次接触自慰是用那种大功率的按摩器震动鸡吧纯是好奇用热水烫小鸡吧会很舒服但是当时太小也不懂就是看影片里女主用震动棒很爽就自然的把按摩棒放到鸡鸡上当时也就十一二岁记不住了第一次射精是被强力按摩棒振射的没感觉就是感觉麻涨疼振十多分钟了也不射得缓一会因为已经麻了然后小鸡吧就疯狂的抽动当时特别痴迷稀薄的精液像尿一样就喷出来但是量特别多基本上天天都要射有的时候会一天两次甚至三次因为看的影片都是有码的也不知道女人是用逼做爱的以为是用屁眼因为自慰时总是带入女主感觉女主比男主舒服所以就为了追求快感开始玩屁眼后来无师自通开始了前列腺高潮开始一边操屁眼一边揉奶头这样感觉比用小鸡鸡舒服的多后来才知道这样是不对的但是也改不过来了小鸡吧碰都不碰就是操屁眼慢慢的假鸡吧用的越来越大快感也没有以前强烈了又开始看重口味的色情片后来伪娘同性的都看又开始看wei cheng nian虽然反感但是性欲上来了倒是感觉更刺激了找站街女也不操逼给人家舔脚丫子有一次给人家舔爽了没要钱真是可遇不可求那个姐姐很会呀一直粗口羞辱我鸡吧软软的就射在人家脚上了说是射倒不如说是不争气的流出来了这以后无论是开心难过都要自慰感觉射的也更快了但是不知道是不是早泄毕竟也没有真枪干过找站街也是给人家舔脚玩脚丫子说来奇怪有的姐姐很有职业操守还是特意剪了指甲洗了脚丫香香但是我还是喜欢臭臭的不能太臭哈哈打鼻子不行一闻到就流水话扯远了很多时候觉得自己早泄但是真撸的话感觉还是可以八到十分钟左右的不知道大家是个什么状态之前又迷上了拍蛋自慰因为相比撸管和操屁眼拍蛋蛋能玩的时间更久高潮了就真憋不住了尿尿一样前些日子还接触到了好兄弟一起视频yy自己喜欢的舞蹈区博主说真的当时心跳都加快了小鸡吧前所未有的发烫一下子就丢了刺激东西玩多了总是感觉没意思开始看那种漫画毕竟比小说视觉效果好比av刺激大接触到了脱粪这类题材操的女主拉了感觉很刺激呀就想看看av有没有这类题材一搜还真有但是还是受不了漫画里感觉是快感到极限了导致失禁漏粪给我感觉是爽到爆了真人的怎么说呢满满的恶趣味还给女优吃但是作为优秀机长还是起飞了完事后满满的罪恶感灌肠喷稀的和拉出来我都能接受不要给女优吃喂还摸人家一身啊啊啊啊啊最后感谢看我胡言乱语到这里的大家真心奉劝合理自慰不要像我一样为了追求刺激疯狂的寸止每次都是快射了就停止最后能玩近一个小时小鸡吧都软了只能流精量还特别多感觉特别痛苦但是又沉迷无法自拔真的很伤身体感觉腰会隐隐作痛

出国以后，真的越来越不喜欢用微信了，app臃肿无比载入消息的速度慢死了，接个视频语音也要延迟一下才能通，和WhatsApp、Me

#大公司负面消息出国以后，真的越来越不喜欢用微信了，app臃肿无比载入消息的速度慢死了，接个视频语音也要延迟一下才能通，和WhatsApp、Messenger仿佛不是一个时代的产物。用上了更好的才会知道没有选择是多么惨的一件事，腾讯一家垄断，喜欢的其他通讯app几乎在cn用不了。昨天一口气取关了100+公众号，一些是已经自行注销/被封号的，一些是吃饭啥的被迫就关注上的… 现在朋友圈广告也越来越流氓了，差点还以为是自己加的奇奇怪怪的人，出现频率也越来越高。好在我对朋友圈已经没有太大兴趣了。 “期待微信把抖音、小红书、支付宝、百度网盘、美团、地图全部塞进自己app中的那一天，这样其他软件可以全部卸载了。” 我只是想好好的发个消息，有这么难吗。

#吃瓜 #反差我最近发现我的绿帽情节越来越严重，昨天和女朋友啪啪的时候聊到了她即将回国一段时间，我希望她去和陌生人视频裸聊，让

#吃瓜 #反差我最近发现我的绿帽情节越来越严重，昨天和女朋友啪啪的时候聊到了她即将回国一段时间，我希望她去和陌生人视频裸聊，让她还要去私密按摩，让陌生男人摸她身体扣下面，还让她和别的男人约3p。没想到的是，今天早上她就和我说她晚上联系了一个之前喜欢他的男的，也有绿帽情节，希望回国后他俩叫上另一个男的3p，然后到时候拍视频给我看。我之前都只是脑子里想一下，但当我女朋友真的联系并安排上了回国和别的男人3p之后，说不上到底是什么感受，有忐忑，难受，但好像更多的是兴奋刺激。我看到他俩的聊天记录就不自觉勃起了，甚至今天送她去机场的路上满脑子都是她回国后和别的几个男人做爱的场景，一路上下面都硬邦邦。我不知道等她真的和别的男人做爱，几个洞都被塞满塞给我看并且给我发视频过来我会是什么心情，有有经验的朋友分享一下吗？

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人

相关推荐

最近 Google Bard 越来越厉害了

谷歌新Bard逆袭GPT-4冲上LLM排行榜第二 Jeff Dean高呼我们回来了

#吃瓜 #反差 最近感觉越来越变态了 由于接触自慰太早了导致现在阈值越来越高已经不能正常撸管过性生活了小时候经常偷用妈妈奶罩袜子

出国以后，真的越来越不喜欢用微信了，app臃肿无比载入消息的速度慢死了，接个视频语音也要延迟一下才能通，和WhatsApp、Me

#吃瓜 #反差 我最近发现我的绿帽情节越来越严重，昨天和女朋友啪啪的时候聊到了她即将回国一段时间，我希望她去和陌生人视频裸聊，让

#吃瓜 #反差最近感觉越来越变态了由于接触自慰太早了导致现在阈值越来越高已经不能正常撸管过性生活了小时候经常偷用妈妈奶罩袜子

#吃瓜 #反差我最近发现我的绿帽情节越来越严重，昨天和女朋友啪啪的时候聊到了她即将回国一段时间，我希望她去和陌生人视频裸聊，让