RT fin这是一篇打破GPT“涌现”概念神话的论文,终于说出了我一直以来的一个直觉,这才是比较符合事物发展规律的

RT fin 这是一篇打破GPT“涌现”概念神话的论文,终于说出了我一直以来的一个直觉,这才是比较符合事物发展规律的 一句话总结,所谓GPT“涌现”能力,是因为人为修改了“达标”的评价标准,给人"涌现"的错觉 一旦使用更合理的评价指标,就会发现GPT能力值随着模型增大是线性增长的,从评价指标上直接解构了“涌现”… fin: 把时间线拉长,AI在更长时间尺度上会以什么速度发展? 对此我有三个AI猜想: 第一猜想:AI算力每十年加速六个数量级 第二猜想:AI全方位能力(感知/决策/生成)错误率每十年下降一个数量级 第三猜想:AI错误率每下降一个数量级(加上新能力涌现),应用范围和领域(市场规模)上升一个数量级 【长推】…

相关推荐

封面图片

专家称中国无需搞AGI:先让美国试错、后面少花钱

专家称中国无需搞AGI:先让美国试错、后面少花钱 当被问及AGI信仰的话题,朱啸虎表示,微软3万亿美金市值,苹果2万亿美金市值,他们敢砸钱。中国不需要砸,美国有钱在前面试错,它一旦证明路通了,后面要花的钱少一个数量级。朱啸虎说道:“我们跟在后面,花的钱少一个数量级,风险小很多,干嘛不跟在后面?”此外,《AGI时代下的组织变革研究报告》报告指出, 面对呼啸而至的AGI浪潮,越来越多的企业意识到技术在驱动组织形态和管理模式变革的同时,也为组织带来提质增效的可行路径,组织的智能化转型愈发成为企业当下的重点发力方向。人工智能专家吴恩达曾在采访中就强调,AI就像100年前的电一样,将会改造所有行业,大规模AI App浪潮刚刚开始。 ... PC版: 手机版:

封面图片

西电郝跃院士在超陡垂直晶体管器件研究方面取得进展

西电郝跃院士在超陡垂直晶体管器件研究方面取得进展 该工作报道一种新型晶体管器件技术,将电阻阈值开关与垂直晶体管进行集成,实现了兼具超陡亚阈值摆幅与高集成密度潜力的垂直沟道晶体管,电流开关比超过8个数量级且室温亚60mV/dec电流范围超过6个数量级,为后摩尔时代高性能晶体管技术提供了一种新的器件方案。随着集成电路制造工艺下探亚5纳米技术节点,传统的晶体管尺寸微缩路线无法像过去一样使能“器件-芯片”性能提升与成本控制。在此背景下,学术界与工业界近年来提出多种创新器件技术,以期克服常规MOSFET的技术局限。其中,三星、IBM、欧洲微电子中心(IMEC)等国际研发机构推出了垂直输运场效应晶体管(vertical-transport field-effect transistor, VTFET)器件技术。通过将电流方向从传统MOSFET的平面方向转换为垂直方向,该器件结构有望在芯片上垂直构造晶体管,从而大幅降低器件占有空间,提高集成密度。受此启发,西电研究团队采用超薄二维异质结构造VTFET半导体沟道并与电阻阈值开关(TS)垂直集成,实现超陡垂直晶体管(TS-VTFET)。这一器件技术借助超薄二维半导体出色的静电调控,大幅提升器件栅控能力;同时,借助电阻阈值开关的电压控制“绝缘-导电”相变特性,该器件的室温亚阈值摆幅达到1.52mV/dec,远低于常规MOSFET室温亚阈值摆幅高于60mV/dec的理论极限。此外,在发表的概念验证工作中,研究团队制备的超陡垂直晶体管表现出强大性能,包括电流开关比高于8个数量级、亚60mV/dec电流区间超过6个数量级、漏电流小于10fA等,为后摩尔时代高性能低功耗晶体管技术提供了一种新的方案。 ... PC版: 手机版:

封面图片

试了一下谷歌文档AI分析工具NotebookLM,用同一篇论文同一个提示词扔给它和GPT-4进行总结。

试了一下谷歌文档AI分析工具NotebookLM,用同一篇论文同一个提示词扔给它和GPT-4进行总结。 NotebookLM总结的信息要更全面和详细一些,GPT-4说了跟没说一样,对简单提示词的响应比GPT-4好一些。 都是先用英文提示词总结在让他们翻译为中文。 可以来这里试试:

封面图片

新研究:大语言模型“涌现”能力不令人惊讶也不难预测

新研究:大语言模型“涌现”能力不令人惊讶也不难预测 在这些任务中,大多数情况下,随着模型规模的增大,性能呈现出可预测的平稳提升即模型越大,性能越好。但在其他任务中,模型性能的提升却不是那么稳定,一段时间内性能几乎为零,然后突然出现显著提升,其他研究也发现了类似的性能飞跃现象。研究人员将这种现象描述为“突破性”行为,而其他人则将其比作物理学中的相变,如液态水转变为冰。2022年8月份发表的一篇论文中指出,这些现象不仅出乎意料,而且难以预测,它们对于人工智能的安全性、潜力和风险的讨论提供了更多的视角。研究人员用“涌现”(emergent)一词来描述这种仅在系统达到一定复杂程度时才出现的行为。然而,真相可能并不那么简单。斯坦福大学的三位研究人员在一篇新论文中认为,这种性能的突然提升仅仅是反映了我们衡量大语言模型性能的方法。他们认为,这种能力既不是不可预测的,也不是突然出现的。“这种变化比大家想象的要容易预测得多,”斯坦福大学计算机科学家、论文的资深作者萨恩米·科耶乔(Sanmi Koyejo)表示,“所谓的涌现更多地与我们选择的衡量模型工作方式有关。”研究人员之所以现在才开始发现和研究这种行为,是因为这些模型已变得足够大。大语言模型通过分析大量文本数据集包括书籍、网络搜索结果和维基百科等,来寻找经常共现的单词间的联系。模型的规模按参数数量衡量,参数越多,模型能发现的联系就越多。GPT-2拥有15亿个参数,而支持ChatGPT的GPT-3.5则使用了3500亿个参数。据报道,2023年3月首次亮相的GPT-4使用了1.75万亿个参数,现在它也成了微软人工智能助理Microsoft Copilot的基础模型。这种规模的快速增长带来了性能和效率的显著提升,没有人会质疑规模足够大的大语言模型能完成小型模型无法完成的任务,包括那些它们未经训练的任务。斯坦福大学的三位研究人员将涌现看作是一种“幻觉”,他们认为,随着规模的扩大,大语言模型自然而然应该变得更加高效;较大模型增加的复杂性使其在处理更难和更多样化的问题时表现得更为出色。但这三位研究人员认为,这种改进是否呈现为平稳可预测的提升,或是参差不齐的突然飞跃,主要取决于所选择的衡量标准,甚至可能是由于测试样本的不足,而非模型内部运作机制本身。例如,三位数加法就是一个典型例子。在2022年的BIG-bench研究中提出,研究人员报告称,在参数较少的情况下,GPT-3和另一大语言模型LAMDA均无法准确解决加法问题。然而,当GPT-3的参数增至130亿时,其性能如同开关被打开一样突然改变。GPT-3突然间就能够正确完成加法运算,当LAMDA的参数增至680亿时也是如此。这表明,完成加法运算的能力似乎在某个参数阈值时突然出现。但斯坦福大学的研究人员指出,之前对大语言模型的评价标准仅仅基于准确性:模型要么能做到,要么做不到。因此,即便模型最初能够正确预测出大部分数字,也被判定为失败。这种评价方式显得有些不合理。如果任务是计算100加278,那么结果为376显然比-9.34要准确得多。因此,科耶乔和他的研究合作者采用了一种奖励部分正确答案的衡量标准来测试同一任务。科耶乔表示:“我们可以问:模型预测第一个数字的准确度有多高?第二个、第三个数字呢?”科耶乔认为这项新研究的灵感来源于他的研究生赖兰·谢弗(RylanSchaeffer),他称谢弗注意到大语言模型的表现随着评估方法的不同而变化。与斯坦福大学的同学白兰度·米兰达(Brando Miranda)共同研究后,他们采用了新的评估指标,发现随着模型参数的增加,大语言模型在解决加法问题时预测的数字序列的准确度逐渐提高。这说明,模型解决加法问题的能力并非突然出现;换言之,这种能力的涌现并非不可预测的突然跳变,而是一个可预测的、稳步的变化过程。他们发现,当采用不同的度量标准衡量性能时,“涌现”现象就消失了。尽管如此,其他科学家认为,这项工作并未完全排除“涌现”概念的存在。例如,美国东北大学(Northeastern University)计算机科学家李天石指出,这三位研究人员的论文并未明确解释在哪些度量标准或情况下,大语言模型的性能会显示出突然的提升。她说:“因此,从这个意义上说,这些能力仍然是不可预测的。”现在在OpenAI工作的计算机科学家杰森·魏(Jason Wei)曾编制过一份关于模型“涌现”能力的清单,也是BIG-bench论文的作者之一,他认为,早期关于“涌现”能力的说法是合理的,因为对于算术这样的能力来说,正确的答案才是最重要的。人工智能初创公司Anthropic的研究科学家亚历克斯·塔姆金(Alex Tamkin)表示:“这种探讨绝对很有意思。”他认为,新论文巧妙地分解了多步骤任务,以识别各个组成部分的贡献。塔姆金说,“但这并不是全部故事。我们不能说所有这些跳变都是幻觉。我仍然认为,即使在进一步预测或使用连续指标的情况下,文献显示性能提升仍有不连续性。当你增加模型的规模时,仍然可以看到它以跳变的方式变得更好。”即使如今对大语言模型中的“涌现”能力的理解可能因采用不同的衡量工具而有所改变,但对于未来更大、更复杂的大语言模型来说,情况可能会有所不同。莱斯大学的计算机科学家胡侠表示:“当我们把大语言模型训练到下一个层次时,它们不可避免地会从其他任务和模型中借鉴知识。”这种对“涌现”能力的新理解不仅是研究人员需要考虑的一个抽象问题。对塔姆金而言,这直接关系到如何继续预测大语言模型的性能。“这些技术已经如此广泛和普及,”他说。“我希望社区将此作为一个起点,继续强调为这些现象建立一门预测科学的重要性。我们怎样才能不对下一代模型的出现感到惊讶呢?”(辰辰) ... PC版: 手机版:

封面图片

关注我的朋友应该都相信AI可以真正提高工作效率,那么使用AI和不用AI工作的人工作效率会差多少呢,今天哈佛商学院的一篇论文给出了

关注我的朋友应该都相信AI可以真正提高工作效率,那么使用AI和不用AI工作的人工作效率会差多少呢,今天哈佛商学院的一篇论文给出了一些参考,他们研究发现: 在工作中使用AI可以带来工作效率的显着的改善。使用AI的被测试者比没有使用AI的被测试者平均多完成了 12.2% 的任务,完成任务的速度提高了 25.1% ,并且产生的结果质量提高了 40%。 同时他们还发现了一些其他的有趣结论: 类似GPT-4这样的模型是有一个能力的边界的,在边界内的任务他们可以处理的很好,边界外的任务则会搞得一塌糊涂但是没有人知道这类AI具体的能力边界。 他们分了三组一组不使用AI另一组使用AI,第三组使用AI的同时给与一定的培训,使用AI的两组任务完成效率和质量都远高于没有使用AI的组。 AI对工作能力越差的被测试者的提升越大,能力越强提高越小。所以高级人才和低级人才的差距会被快速拉平。 过于依赖AI可能会适得其反,反倒降低工作效率和质量,因为这些人无法区分AI的能力边界。 他们还为人类和AI协作的两种方式起了名字: 半人马:强调人与AI紧密结合,但是各司其职,人类主导整个流程,根据任务的性质合理调配人类和AI资源。。这种模式充分利用了人类的智慧与判断力以及AI的计算与生成能力。 机械人:人与AI的高度融合,在细节上形成循环迭代的优化过程,最终实现人机一体化。这种模式充分发挥了人类的灵活性和AI的生成能力。 我感觉这两种方式更像是现在人类跟AI合作的两个阶段:第一种大概知道AI的能力边界,可以简单的使用和复用AI输出的结果提升自己的工作能力。第二种机械人可以熟练的使用AI深入探索AI能力更加精细化的更AI协作和AI一起创作内容。

封面图片

AI 洞察:除了 ChatGPT, 新世界还涌现了哪些重磅新玩家?

AI 洞察:除了 ChatGPT, 新世界还涌现了哪些重磅新玩家? 近期一份来自硅谷知名投资机构 a16z的数据和报告,统计了Top 50 AIGC 领域的新秀,能够从整个生态视角看到不少全新的视角。 一些核心发现和行业洞察: - 在 Top10 中,ChatGPT 是目前的王者,代表整个名单流量的 60%。Character.ai紧随其后,占 ChatGPT 流量的 21%。剩下的前10名呢? Bard、Poe、Quillbot、Photoroom、Civitai、Midjourney 、Hugginface以及 Perlexity。 - 与主流社交和视频类产品相比, AI 类新服务也仍然相当小。结合 Web + 移动流量,ChatGPT 的规模与 Reddit、LinkedIn 和 Twitch 大致相同,仍远低于传统“巨头”。 - 反过来说,新进的 Top 50中 80%都是近一年内出现的独立新产品,只有 5%属于巨头投资。(图 3 是它们融资情况的数量分布) - 另一个重要的信号:排行榜单中有大批 GPT 驱动的创新。专有模型、微调和基于 API 的几大创新模式目前平分秋色。 - 还有一个明显特征,它们大多数都是 Web优先, 移动流量相对较少。 ChatGPT 虽然在 5 月份推出App 端, 但是占整体的 2% 不到;Poe 只有 5% 左右,Perplexity、Runway等都更低。移动端占比 46%,而 Photoroom 达到了 80%。(图4 有详细的展示) - 就大类别来看,「通用助理」型产品(ChatGPT、Bard、Poe)占流量的 70%。另外两个类别正在发生变化:「伴侣型」现在占 13%,「内容生成 」占 10%;内容编辑占3.7% 和模型中心占2.3%共占位列前五。 - 从用户使用场景不难发现,移动端占比高的几位,具有更高的娱乐属性。 根据 Sensor Tower 数据,CharacterAI 平均每个用户每月访问 38 次,这一数字超过了 Instagram、FB 和 TikTok。 - 新公司如何获取增长?几乎是口碑式的。Reddit、Discord、新闻通讯等都是 「免费」获取流量的渠道。 而且,名单上 90% 的已经有了某种收入,其中绝大多数选择了订阅。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人