最近 Google Bard 越来越厉害了

最近 Google Bard 越来越厉害了 - 速度奇快,写长内容至少是 ChatGPT 和 Claude 速度的倍以上。 - 知识库非常新,知道今年的奥斯卡得主,也知道 lumalee ,知道 IFT 和 RLHF 的区别。 - 实时信息,问它今天的新闻都可以,不用插件。 太神奇了。 另外推荐下 ChatHub 这个浏览器插件,方便做对比。

相关推荐

封面图片

最近 Google Bard 越来越厉害了

最近 Google Bard 越来越厉害了 - 速度奇快,写长内容至少是 ChatGPT 和 Claude 速度的3倍以上。 - 知识库非常新,知道今年的奥斯卡得主,也知道 lumalee ,知道 IFT 和 RLHF 的区别。 - 实时信息,问它今天的新闻都可以,不用插件。 太神奇了。 另外推荐下 ChatHub 这个浏览器插件,方便做对比。

封面图片

谷歌新Bard逆袭GPT-4冲上LLM排行榜第二 Jeff Dean高呼我们回来了

谷歌新Bard逆袭GPT-4冲上LLM排行榜第二 Jeff Dean高呼我们回来了 基于此,Bard相较于3月份的首次亮相,不仅在表现上有了显著的提升,而且还具备了更多的能力。可以看到,在最新的Gemini Pro-scale加持下,Bard直接蹿升到了排行榜第二名的位置。一口气把之前的两款GPT-4模型斩于马下,甚至和排名第一的GPT-4 Turbo的差距也非常小。虽然Jeff Dean并没有具体阐述“scale”的含义,但从名称上推测,很可能是一个比初代Gemini Pro规模更大的版本。而根据前段时间外媒曝出的内部邮件,搭载Gemini Ultra的Bard Advanced已经全面开放给Google员工试用。也就是说,距离Google最强模型的上线,已经不远了。随着Google对Gemini Pro更新后不断大幅上涨的表现,也让所有人对完全体Gemini Ultra的能力有了更多的期待。不过,新推出的Bard目前只接受了约3,000次评价,而GPT-4的评价次数已高达30,000次。因此,这个结果后续很可能还会发生变动。但不管怎样,这对于Google来说是一项令人瞩目的成就,也让人对即将发布的、预期将超过Gemini Pro-Scale性能的最强AI模型Gemini Ultra充满期待。GoogleBard超越GPT-4跃居第二简单介绍一下,这个由UC伯克利主导,CMU,UCSD等顶级高校共同参与创建的聊天机器人竞技场“Chatbot Arena”,是学术圈内一个很权威的大模型对话能力排行榜。榜单通过类似Moba游戏中的“排位赛”机制,让各家大模型通过PvP的方式来排出性能高低。期间,用户会与模型(不知道具体型号)进行互动,并选择他们更喜欢的回答。而这些投票将会决定模型在排行榜上的名次。这种方式能够有效地避免很多PvE基准测试中可能出现的,通过“刷题”来提高成绩的问题,被业界认为是一个比较客观的大模型能力排行榜。为了便于区分,LMSYS Org指出,目前Gemini Pro市面上总共有3个版本:- Gemini Pro API:用户可以通过Google云的Vertex AI API进行访问- Gemini Pro(dev)API:开发者API可以通过Google AI Studio进行访问- Bard(1月4日更新的Gemini Pro):是目前唯一可以访问到1月24日更新的Gemini Pro的方式同时,GoogleBard项目的高级总监Sadovsky也透露,排行榜上的Bard和Gemini Pro(API)是两个在微调层面不同的模型,而且Bard可以检索互联网上的信息。在ChatBot Arena中,1月24号更新的Bard由于支持检索互联网,相比于之前放出的Gemini Pro(API)对于实时信息问题的回复提升巨大。从Google的这波更新可以看出,Gemini Pro的潜力似乎远远没有被完全释放,希望Google能再接再厉,对OpenAI一家独大的格局形成挑战。以下是1月14号更新的Bard在ChatBot Arena中的成绩的明细:模型A相对于模型B在所有非平局对决中获胜的比例不同模型组合间对决的次数统计(排除平局情况)通过1000轮随机抽样对Elo评分进行的自举法(Bootstrap)估计在假设等概率抽样和不存在平局的情况下,相对于所有其他模型的平均胜率Elo评分系统Elo等级分制度(Elo rating system)是一种计算玩家相对技能水平的方法,广泛应用在竞技游戏和各类运动当中。其中,Elo评分越高,那么就说明这个玩家越厉害。比如英雄联盟、Dota 2以及吃鸡等等,系统给玩家进行排名的就是这个机制。举个例子,当你在英雄联盟里面打了很多场排位赛后,就会出现一个隐藏分。这个隐藏分不仅决定了你的段位,也决定了你打排位时碰到的对手基本也是类似水平的。而且,这个Elo评分的数值是绝对的。也就是说,当未来加入新的聊天机器人时,我们依然可以直接通过Elo的评分来判断哪个聊天机器人更厉害。具体来说,如果玩家A的评分为Ra,玩家B的评分为Rb,玩家A获胜概率的精确公式(使用以10为底的logistic曲线)为:然后,玩家的评分会在每场对战后线性更新。假设玩家A(评分为Ra)预计获得Ea分,但实际获得Sa分。更新该玩家评分的公式为:网友热议对此,网友提问:现在能够访问的Bard就是这个排名第二的Bard了吗?Google官方回复,是的,而且现在访问的Bard比排行榜的上的Bard还能支持更多的像地图扩展等应用。不过还是有网友吐槽,即使在PvP排行榜上Bard已经取得了很好的成绩,但是对于理解用户需求和解决实际问题的能力,Bard和GPT-4依然还有很大差距。也有网友认为,用能联网的Bard和离线的GPT-4打有失公平。甚至,就这样还没打过……而最有意思的,还要数网友在排行榜中发现的“华点”了:号称是GPT-4最大竞品的Claude居然越更新越弱了。对此,之前有分析认为,Anthropic一直在大力发展的与人类对齐,会严重影响模型的性能。GPT-4 Turbo超长上下文A/B测试有趣的是,这个连Jeff Dean都亲自下场的“刷榜”,正巧就在OpenAI连发5款新模型的第二天。根据OpenAI的介绍,新版GPT-4 Turbogpt-4-0125-preview,不仅大幅改善了模型“偷懒”的情况,而且还极大地提升了代码生成的能力。不过,正如大家对Bard的怀疑,GPT-4这次到底有没有变强也有待验证。对此,AI公司Smol的创始人Shawn Wang,就在超过100k单词的超长上下文中,对比测试了新旧GPT4-Turbo的总结能力。Wang表示,两次测试使用的是完全相同提示词,以及基本相同的语料库。虽然没有严格严格,但每个模型都进行了超过300次的API调用,因此对于总结任务而言,这一结果还是具有一定参考价值的。结果显示,2024年1月的GPT4-Turbo花费了19分钟来生成20,265个单词,相比之下,2023年11月的用16分钟生成了18,884个单词。也就是说,新模型的生成速度大约慢了 18%,且生成文本的长度平均偏长约7%。质量方面:- 2024年1月的模型在主题选择上略有改善,但仍存在问题- 2023年11月的模型会产生更多错误信息- 2024年1月的模型在总结中添加小标题的能力略有提升- 2024年1月的模型出现了一次严重的格式错误,而这在之前是极为罕见的- 2023年11月的模型文本详情更加丰富总体而言,新版GPT4-Turbo在总结这一应用场景上有所退步。左侧:2023年11月;右侧:2024年1月(左右滑动查看全部)OpenAI最后的“开源遗作”两周年不得不说,AI领域的发展过于迅猛,甚至让人对时间的流速都产生了错觉。今天,英伟达高级科学家Jim Fan发推纪念了InstructGPT发布二周年。在这里,OpenAI定义了一套标准流程:预训练 -> 监督式微调 -> RLHF。直到今天,这依然是大家遵循的基本策略(尽管有些许变化,比如DPO)。它不仅仅是大语言模型从学术探索(GPT-3)到转化为具有实际影响力的产品(ChatGPT)的关键转折点,而且也是最后一篇OpenAI详细说明他们如何训练前沿模型的论文。论文地址: InstructGPT在2022年的NeurIPS会议上首次亮相,但它并不是RLHF的发明者。实际上,相关博客将读者引向了OpenAI团队在2017年完成的原始RLHF研究。这项研究最初的目的是解决模拟机器人领域中难以明确定义的任务通过一名人类标注者提供的900个二选一偏好,RLHF让一个简单的“跳跃”机器人在模拟环境中学会了后空翻。论文地址: 模型提供了三种规模:1.3B、6B、175B。与旧的、需要复杂提示设计的GPT-3-175B相比,标注者明显更喜欢Instruct-1.3B。微软最知名的“小模型”Phi-1也是1.3B。- InstructGPT展示了如何精彩地呈现研究成果。三个步骤的图表清晰易懂,并且成为AI领域最标志性的图像之一。引言部分直接了当,用粗体突出了8个核心观点。对局限性和偏见的讨论实事求是、坦诚直接。 ... PC版: 手机版:

封面图片

#吃瓜 #反差 最近感觉越来越变态了 由于接触自慰太早了导致现在阈值越来越高已经不能正常撸管过性生活了小时候经常偷用妈妈奶罩袜子

#吃瓜 #反差 最近感觉越来越变态了 由于接触自慰太早了导致现在阈值越来越高已经不能正常撸管过性生活了小时候经常偷用妈妈奶罩袜子鞋子闻 感觉特别舒服 还会给妈妈按摩脚当时感觉都要爽飞了 尤其是忙完了一天的臭脚 第一次接触自慰是用那种大功率的按摩器震动鸡吧 纯是好奇 用热水烫小鸡吧 会很舒服 但是当时太小也不懂 就是看影片里女主用震动棒很爽 就自然的把按摩棒放到鸡鸡上 当时也就十一二岁记不住了 第一次射精是被强力按摩棒振射的 没感觉 就是感觉麻涨疼 振十多分钟了也不射 得缓一会因为已经麻了 然后小鸡吧就疯狂的抽动当时特别痴迷 稀薄的精液像尿一样就喷出来 但是量特别多 基本上天天都要射 有的时候会一天两次甚至三次因为看的影片都是有码的也不知道女人是用逼做爱的以为是用屁眼 因为自慰时总是带入女主 感觉女主比男主舒服 所以就为了追求快感开始玩屁眼 后来无师自通开始了前列腺高潮 开始一边操屁眼一边揉奶头这样 感觉比用小鸡鸡舒服的多后来才知道这样是不对的 但是也改不过来了 小鸡吧碰都不碰 就是操屁眼 慢慢的假鸡吧用的越来越大 快感也没有以前强烈了 又开始看重口味的色情片 后来伪娘 同性的都看 又开始看wei cheng nian虽然反感但是性欲上来了倒是感觉更刺激了 找站街女也不操逼 给人家舔脚丫子 有一次给人家舔爽了没要钱 真是可遇不可求 那个姐姐很会呀一直粗口羞辱我 鸡吧软软的就射在人家脚上了 说是射 倒不如说是不争气的流出来了这以后无论是开心难过都要自慰 感觉射的也更快了 但是不知道是不是早泄毕竟也没有真枪干过 找站街也是给人家舔脚玩脚丫子说来奇怪 有的姐姐很有职业操守还是 特意剪了指甲洗了脚丫香香 但是我还是喜欢臭臭的 不能太臭哈哈打鼻子不行 一闻到就流水 话扯远了 很多时候觉得自己早泄 但是真撸的话感觉还是可以八到十分钟左右的 不知道大家是个什么状态之前又迷上了拍蛋自慰 因为相比撸管和操屁眼 拍蛋蛋能玩的时间更久高潮了就真憋不住了尿尿一样前些日子还接触到了好兄弟 一起视频yy自己喜欢的舞蹈区博主 说真的当时心跳都加快了 小鸡吧前所未有的发烫 一下子就丢了 刺激东西玩多了总是感觉没意思 开始看那种漫画 毕竟比小说视觉效果好 比av刺激大 接触到了脱粪这类题材 操的女主拉了 感觉很刺激呀 就想看看av有没有这类题材 一搜还真有 但是还是受不了 漫画里感觉是快感到极限了导致失禁漏粪 给我感觉是爽到爆了 真人的怎么说呢 满满的恶趣味 还给女优吃 但是作为优秀机长还是起飞了 完事后满满的罪恶感 灌肠喷稀的和拉出来我都能接受 不要给女优吃喂 还摸人家一身 啊啊啊啊啊 最后感谢看我胡言乱语到这里的大家 真心奉劝合理自慰 不要像我一样为了追求刺激 疯狂的寸止 每次都是快射了就停止 最后能玩近一个小时 小鸡吧都软了 只能流精 量还特别多感觉特别痛苦但是又沉迷无法自拔真的很伤身体 感觉腰会隐隐作痛

封面图片

#谢霆锋回应和王菲打扮越来越像##张学友吃瓜王菲谢霆锋# 24日,《海关战线》香港首映礼,记者问谢霆锋@锋味 有没有觉得王菲最近

#谢霆锋回应和王菲打扮越来越像##张学友吃瓜王菲谢霆锋# 24日,《海关战线》香港首映礼,记者问谢霆锋@锋味 有没有觉得王菲最近的打扮和他越来越像,他表示没有留意,一旁的张学友:“这么大胆啊你,还敢不留意。”谢霆锋笑称不知道说的哪个造型,也并不会给王菲买衣服的建议。(视频cr水印) 新浪娱乐的微博视频 via 新浪娱乐的微博

封面图片

我是之前投稿雌堕假鸡滑进屁眼里出不来去医院做手术那个,不知道还有人记得吗?最近性癖越来越变态了,本来就是自娱自乐,慢慢开始和别人

我是之前投稿雌堕假鸡滑进屁眼里出不来去医院做手术那个,不知道还有人记得吗?最近性癖越来越变态了,本来就是自娱自乐,慢慢开始和别人视频互撸了,线下找鸟洞什么的,每次射完都感觉自己很贱,实在是不对,想找个女朋友又怕太小满足不了人家,不知道该怎么办了 #秘密 #求助 投稿自己的秘密,忏悔,倾诉,发泄你的故事。 投稿 @tcj188_bot

封面图片

出国以后,真的越来越不喜欢用微信了,app臃肿无比载入消息的速度慢死了,接个视频语音也要延迟一下才能通,和WhatsApp、Me

#大公司负面消息 出国以后,真的越来越不喜欢用微信了,app臃肿无比载入消息的速度慢死了,接个视频语音也要延迟一下才能通,和WhatsApp、Messenger仿佛不是一个时代的产物。 用上了更好的才会知道没有选择是多么惨的一件事,腾讯一家垄断,喜欢的其他通讯app几乎在cn用不了。 昨天一口气取关了100+公众号,一些是已经自行注销/被封号的,一些是吃饭啥的被迫就关注上的… 现在朋友圈广告也越来越流氓了,差点还以为是自己加的奇奇怪怪的人,出现频率也越来越高。 好在我对朋友圈已经没有太大兴趣了。 “期待微信把抖音、小红书、支付宝、百度网盘、美团、地图全部塞进自己app中的那一天,这样其他软件可以全部卸载了。” 我只是想好好的发个消息,有这么难吗。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人