RT 宝玉这是继斯坦福的25人小镇后我看到的最有意思的AI论文了。

RT 宝玉这是继斯坦福的25人小镇后我看到的最有意思的AI论文了。简单来说，Jim…JimFan: WhatifwesetGPT-4freeinMinecraft?I’mexcitedtoannounceVoyager,thefirstlifelonglearningagentthatplaysMinecraftpurelyin-context.Voyagercontinuouslyimprovesitselfbywriting,refining,committing,andretrieving*code*fromaskilllibrary.GPT-4unlocks…

在Telegram中查看

相关推荐

RT 宝玉归藏老师这个总结很全面

RT 宝玉归藏老师这个总结很全面对于其中的Functioncalling这部分我展开说一下，这本质上是OpenAI让API直接支持了Agent或者Plugin！以前你需要通过Prompt里面加一堆描述支持Agent，现在简单多了，只要在API请求的时候，传入一个functions参数。functions参数实际上就类似于你要指定的Agent。…归藏: OpenAI终于发力了，今天更新了一堆新的内容，每个都很重磅：-16k上下文3.5Turbo模型（今天向所有人提供）-新的GPT-4和3.5Turbo模型-ChatCompletionsAPI中的新函数调用功能-V2嵌入模型降价75%-GPT-4的API权限将开放给更多的人下面是详细介绍

《西部世界》雏形：斯坦福打造自动运行的AI小镇

《西部世界》雏形：斯坦福打造自动运行的AI小镇斯坦福的人机交互小组用大型语言模型做了一个有25个智能体生活的AI小镇。研究者用自然语言描述了每个智能体的身份，包括它们的职业以及与其他智能体的关系，并将这些信息作为种子记忆。每个智能体都有完整的记忆流，会将记忆合成更高层次的推论，然后将这些结论转换为行动计划。智能体如果看到它们的早餐正在燃烧，会关掉炉子；如果浴室有人，会在外面等待；如果遇到想交谈的另一个智能体，会停下来聊天。智能体还会互相交换信息，形成新的关系。这些社会行为是自然产生的，而不是预先设定好的。在模拟中，伊莎贝拉计划举办一场情人节派对。她传播了这个信息，在模拟结束时，12个角色知道了这件事。其中7个人「犹豫不决」——3个人已有其他计划，4个人没有表露想法，这和人类的相处一样。小镇地址：https://reverie.herokuapp.com/arXiv_Demo/——频道：@TestFlightCN

论文投Nature先问问GPT-4 斯坦福实测5000篇一半意见跟人类评审没差别

论文投Nature先问问GPT-4斯坦福实测5000篇一半意见跟人类评审没差别GPT-4提出的超50%观点与至少一名人类评审员一致；以及超过82.4%的作者都发现GPT-4给的意见很有帮助。那么，这项研究究竟能给我们带来何种启示？结论是：高质量的人类反馈仍然不可替代；但GPT-4可以帮助作者在正式同行评审前改进初稿。具体来看。实测GPT-4论文评审水平为了证明GPT-4的潜力，研究人员首先用GPT-4创建了一个自动pipeline。它可以解析一整篇PDF格式的论文，提取标题、摘要、图表、表格标题等内容来构建提示语。然后让GPT-4提供评审意见。其中，意见和各顶会的标准一样，共包含四个部分：研究的重要性和新颖性、可以被接受的潜在原因或被拒绝的理由以及改进建议。具体实验从两方面展开。首先是定量实验：读已有论文，生成反馈，然后与真实人类观点系统地比较出重叠部分。在此，团队从Nature正刊和各大子刊挑选了3096篇文章，从ICLR机器学习会议（包含去年和今年）挑选了1709篇，共计4805篇。其中，Nature论文共涉及8745条人类评审意见；ICLR会议涉及6506条。GPT-4给出意见之后，pipeline就在match环节分别提取人类和GPT-4的论点，然后进行语义文本匹配，找到重叠的论点，以此来衡量GPT-4意见的有效性和可靠度。结果是：1、GPT-4意见与人类评审员真实意见显著重叠整体来看，在Nature论文中，GPT-4有57.55%的意见与至少一位人类评审员一致；在ICLR中，这个数字则高达77.18%。再进一步仔细比较GPT-4与每一位评审员的意见之后，团队又发现：GPT-4在Nature论文上和人类评审员的重叠率下降为30.85%，在ICLR上降为39.23%。但这与两位人类审稿人之间的重叠率相当：人类在Nature论文上的平均重叠率为28.58%；在ICLR上为35.25%。此外，他们还通过分析论文的等级水平（oral、spotlight、或是直接被拒绝的）发现：对于水平较弱的论文来说，GPT-4和人类审稿人之间的重叠率更高，可以从上面的30%多升到近50%。这说明，GPT-4对水平较差的论文的鉴别能力很高。作者也因此表示，那些需要更实质性修改才能被接收的论文有福了，大伙儿可以在正式提交前多试试GPT-4给出的修改意见。2、GPT-4可以给出非通用反馈所谓非通用反馈，即GPT-4不会给出一个适用于多篇论文的通用评审意见。在此，作者们衡量了一个“成对重叠率”的指标，结果发现它在Nature和ICLR上都显著降低到了0.43%和3.91%。这说明GPT-4是有针对性的。3、能够在重大、普遍问题上和人类观点一致一般来说，人类反馈中较先出现的意见以及多个评审员都提及的意见，最可能代表重要、普遍的问题。在此，团队也发现，LLM更有可能识别出多个评审员一致认可的常见问题或缺陷。也就是说，GPT-4在大面上是过得去的。4、GPT-4给的意见更强调一些与人类不同的方面研究发现，GPT-4评论研究本身含义的频率是人类的7.27倍，评论研究新颖性的可能性是人类的10.69倍。以及GPT-4和人类都经常建议进行额外的实验，但人类更关注于消融实验，GPT-4更建议在更多数据集上试试。作者表示，这些发现表明，GPT-4和人类评审员在各方面的的重视程度各不相同，两者合作可能带来潜在优势。定量实验之外是用户研究。在此共包括308名来自不同机构的AI和计算生物学领域的研究员，他们都在本次研究中上传了各自的论文给GPT-4进行评审。研究团队收集了他们对GPT-4评审意见的真实反馈。总体而言，超过一半（57.4%）的参与者认为GPT-4生成的反馈很有帮助，包括给到一些人类想不到的点。以及82.4%的调查者认为它比至少一些人类评审员的反馈更有益。此外，还有超过一半的人（50.5%）表示，愿意进一步使用GPT-4等大模型来改进论文。其中一人表示，只需要5分钟GPT-4就给出了结果，这个反馈速度真的非常快，对研究人员改善论文很有帮助。当然，作者指出：GPT-4也有它的局限性。最明显的是它更关注于“整体布局”，缺少特定技术领域（例如模型架构）的深度建议。所以，如作者最后总结：人类评审员的高质量反馈还是不可或缺，但大家可以在正式评审前拿它试试水，弥补遗漏实验和构建等方面的细节。当然，他们也提醒：正式评审中，审稿人应该还是独立参与，不依赖任何LLM。一作都是华人本研究一作共三位，都是华人，都来自斯坦福大学计算机科学学院。他们分别是：梁伟欣，该校博士生，也是斯坦福AI实验室（SAIL）成员。他硕士毕业于斯坦福电气工程专业，本科毕业于浙江大学计算机科学。YuhuiZhang，同博士生在读，研究方向为多模态AI系统。清华本科毕业，斯坦福硕士毕业。曹瀚成，该校五年级博士在读，辅修管理科学与工程，同时加入了斯坦福大学NLP和HCI小组。此前毕业于清华大学电子工程系本科。...PC版：https://www.cnbeta.com.tw/articles/soft/1388425.htm手机版：https://m.cnbeta.com.tw/view/1388425.htm

今年的机器人开发者大会论坛感受下来，国产具身智能企业各有特点，十分有意思

今年的机器人开发者大会论坛感受下来，国产具身智能企业各有特点，十分有意思1.傅里叶智能，CEO顾捷饱含情怀，十几年如一日摸索落地形态与场景，最新人形机器人小批量量产100台2.智元机器人，头顶天才少年光环万众瞩目，成立一年多以来还是在本体和机械层面优化中，且看沿途下蛋会交付什么出来吧3.银河通用，十分接近我对AGI的想法，合成数据训练小模型GPT的大模型，操作加学习清晰明了，不愧是BAAI合作单位4.达闼机器人，搞了套机器人OS，机器人技术表现很一般，未来就卖操作系统？听说是最有可能先上市的机器人公司5.科大讯飞，像PPT路演的，一直营销自家的多模态。有模型有智能硬件，离机器人有多远？

#反差婊2022年最新反差婊系列，第十八弹15位！大家最喜欢的反差婊系列继续更新（均是露脸漏B啪啪）素人什么的最有意思了~！！5

#反差婊2022年最新反差婊系列，第十八弹15位！大家最喜欢的反差婊系列继续更新（均是露脸漏B啪啪）素人什么的最有意思了~！！5位女主视频+图包已更至VIP群

#反差婊2022年最新反差婊系列，第十八弹15位！大家最喜欢的反差婊系列继续更新（均是露脸漏B啪啪）素人什么的最有意思了！！~5

#反差婊2022年最新反差婊系列，第十八弹15位！大家最喜欢的反差婊系列继续更新（均是露脸漏B啪啪）素人什么的最有意思了！！~5位女主视频+图包已更至VIP群

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人