ChatGPT的前辈GPT-2被塞入Excel表格:体积达1.25GB之巨

ChatGPT的前辈GPT-2被塞入Excel表格:体积达1.25GB之巨GPT-2的初始版是2019年2月发布的,当年11月有了完整版,参数量15亿,训练数据总量40GB。Anand使用的是精简版GPT-2,参数量仅为1.24亿,不到完整版的十分之一,但就这些能放入Excel,已经十分了不起了。这个特殊表格能接受的输入量只有10tokens,相比于GTP-4Turbo128000Tokens简直不值一提,但依然值得竖起大拇指。当然它也有一个好处,那就是完全本地运行,不需要连接云端。Anand这么做一是展示Excel的强大,二是方便那些不熟悉AI和大模型玩法的尝鲜者体验。如果你也想体验体验,可以去GitHub上下载这个特殊的表格,但注意不要用Mac运行,很容易崩溃或无响应。...PC版:https://www.cnbeta.com.tw/articles/soft/1424008.htm手机版:https://m.cnbeta.com.tw/view/1424008.htm

相关推荐

封面图片

ChatGPT的前辈GPT-2被塞入Excel表格:体积达1.25GB

ChatGPT的前辈GPT-2被塞入Excel表格:体积达1.25GB酷爱Excel的软件开发者IshanAnand将OpenAIGPT-2大模型硬生生放到了Excel之中,体积达到1.2GB,关键还能正常运行GPT-2的初始版是2019年2月发布的,当年11月有了完整版,参数量15亿,训练数据总量40GB。Anand使用的是精简版GPT-2,参数量仅为1.24亿,不到完整版的十分之一,但就这些能放入Excel,已经十分了不起了。这个特殊表格能接受的输入量只有10tokens,相比于GTP-4Turbo128000Tokens简直不值一提。当然它也有一个好处,那就是完全本地运行,不需要连接云端。Anand这么做一是展示Excel的强大,二是方便那些不熟悉AI和大模型玩法的尝鲜者体验。体验链接:https://github.com/ianand/spreadsheets-are-all-you-need/releases/tag/v0.5.0via匿名标签:#OpenAI#ChatGPT频道:@GodlyNews1投稿:@GodlyNewsBot

封面图片

SFW将 OpenAI GPT-2 放到 Excel 里

SFW将OpenAIGPT-2放到Excel里IshanAnand将OpenAIGPT-2硬生生放到了Excel里,体积达到1.2GB,关键还能正常运行。Spreadsheets-are-all-you-ne-need使用函数完全在Excel中实现了GPT2的前向传递。GPT-2的初始版是2019年2月发布的,参数量15亿,训练数据总量40GB。Anand使用精简版GPT-2,参数量为1.24亿。这个特殊表格能接受的输入量只有10tokens()通过使用电子表格,任何人(甚至非开发人员)都可以直接探索和体验“真正的”Transformer如何在幕后工作https://github.com/ianand/spreadsheets-are-all-you-needviafrom

封面图片

小米新技术落地:能将图片中的表格转化成Excel文件

小米新技术落地:能将图片中的表格转化成Excel文件今天下午,小米创办人雷军介绍了小米自研的一套表格识别算法,该算法高效准确地将图片中的表格转化为可编辑的Excel文件,大幅提升使用体验。表格识别是指将图片中的表格结构和文字信息识别成计算机可以理解的数据格式,在办公、商务、教育等场景中有着广泛的实用价值,也一直是文档分析研究中的热点问题。围绕这个问题,小米研发了一套表格识别算法,该算法高效准确地提取图片中的表格,转化为可编辑的Excel文件。目前算法已经成功落地于小米10S系列、MIX Fold2等旗舰机型,大家可以从相册-更多-表格识别,或者扫一扫进入体验。表格检测算法小米表示,表格检测算法主要是从图片中准确的提取表格区域,并对表格进行矫正,得到平整的表格图片以便下一步的表格识别;表格识别算法主要是从图片中提取表格结构和表格文字内容,然后将这些信息有效的结合在一起,输出可编辑的Excel表格。表格检测有以下难点:一方面是手机上的算法和内存有限,另一方面是对表格检测结果要求非常高,表格周围往往包含其他文字,如果检测结果不准,会对后面的识别结果造成负面影响。小米的表格检测算法会同时检测到表格区域和表格的四个角点,通过透视变换和我们自研的抗扭曲算法得到只有表格区域的平整表格,效果如图所示。由于算法运行在手机端,需要保证运行速度和模型大小,小米采用了一个非常轻便的一阶段检测框架,backbone采用shuffleNetV2;在检测出表格框的同时,回归出关键点信息,便于表格的透视矫正,并用Wingloss代替L1loss让关键点回归更加准确;数据方面,用算法低成本地从公开数据中挖掘大量表格检测数据,显著性地提高表格检测效果。最终模型大小为1M左右,顺畅地运行在小米手机上。表格识别算法表格识别算法在服务端运行,主要包含的模块有:文本检测、文本识别、表格结构预测、单元格匹配、对齐算法、Excel导出。目前主流的方法是将表格用HTML的超文本表示,然后对HTML进行编码,预测HTML序列和对应的坐标信息。该方法在开源数据集上取得了不错的效果,中国平安科技和百度也采用了这种方案,但是HTML的标签过多导致表格结构识别容易出错。针对该方法的不足,我们对表格采用全新的编码方式,仅用四个标签就能表示任意结构的表格,极大地提高了表格结构识别准确率。表格识别在部署过程中,采用Fastertransformer推理框架进行加速,官方称小米的推理速度提升了大约20倍,明显改善用户体验。总结该算法能高效方便地从图片中提取表格,极大地提高办公效率。小米表示,工程师们将持续提升小米手机中文档类图片的识别体验。PC版:https://www.cnbeta.com/articles/soft/1312057.htm手机版:https://m.cnbeta.com/view/1312057.htm

封面图片

OpenAI 用 GPT-4 来解释 GPT-2 的行为

OpenAI用GPT-4来解释GPT-2的行为大语言模型(LLM)像大脑一样,它们是由“神经元”组成的,它们观察文本中的一些特定模式,以影响整个模型接下来“说”什么。但由于LLM中的参数数量多到已经无法由人类解释的程度,因此,LLM给人一种“黑盒”的感觉,并出现了偏见、幻觉、涌现等一系列不好解释的现象。OpenAI正在开发一种工具,以自动识别LLM的哪些部分负责其哪些行为。它使用GPT-4来解释其4年前发布的只有30万个“神经元”(15亿个参数)的GPT-2。目前该工具代码和所有的“神经元”解释数据已经开源,OpenAI称该工具还在早期阶段。生成的解释结果并不令人满意,看起来连GPT-4都不能太用人类可以理解的语言来解释GPT-2的行为。来源,来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

F1车队负责人宣布停用"无法浏览"的Excel电子表格

F1车队负责人宣布停用"无法浏览"的Excel电子表格正如ArsTechnica所强调的那样,这个巨大的Excel文件追踪了大约2万个赛车零件。Vowles形容它无法浏览,也无法更新,并进一步指出它是"一个笑话"。更复杂的是,每个组件都可能处于多种状态,例如订购、滞销、检查或退货。Vowles说,这些错综复杂的情况往往意味着必须由人工来解决细节问题。他说:"一旦开始将复杂程度提升到现代一级方程式赛车的水平,Excel电子表格就会崩溃,电脑前的人也会崩溃。这正是我们现在的处境。"在这个冬天,威廉姆斯将Excel电子表格迁移到一个新的数字系统,同时升级了赛车的"技术基础"。弗莱说,这是一项"耗资巨大"的工作,整个团队都被逼到了极限。这种情况听起来让人不知所措,但Excel很可能是最合适的工具。那么,问题就在于文件的结构和基础。如果从一开始就没有为最大限度地提高效率而进行适当的设置,那么当它在规模上出现不足时,你就不会感到惊讶了。与其花费巨资迁移到一个全新的系统,威廉姆斯至少可以聘请Excel专家重建文件或从头开始创建一个新的电子表格。话又说回来,我们谈论的可是F1赛事的重要组织,所以你不得不认为他们在决定放弃Excel而改用现在的新系统之前,已经探索了所有可能的途径。正如《TheRace》杂志所指出的,车队的改变需要一些时间才能在赛道上体现出来。两站比赛过后,威廉姆斯车队落后一年前的成绩一个积分。...PC版:https://www.cnbeta.com.tw/articles/soft/1424583.htm手机版:https://m.cnbeta.com.tw/view/1424583.htm

封面图片

OpenAI最新“神”操作:让GPT-4去解释GPT-2的行为

OpenAI最新“神”操作:让GPT-4去解释GPT-2的行为即:让一个AI“黑盒”去解释另一个AI“黑盒”。工作量太大,决定让GPT-4去解释GPT-2OpenAI之所以做这项研究的原因,在于近来人们对AI伦理与治理的担忧:“语言模型的能力越来越强,部署也越来越广泛,但我们对其内部工作方式的理解仍然非常有限。”由于AI的“黑盒”性质,人们很难分辨大模型的输出结果是否采用了带有偏见性质的方法,也难以区分其正确性,因而“可解释性”是亟待重要的一个问题。AI的发展很大程度上是在模仿人类,因而大模型和人脑一样,也由神经元组成,它会观察文本规律进而影响到输出结果。所以想要研究AI的“可解释性”,理论上要先了解大模型的各个神经元在做什么。按理来说,这本应由人类手动检查,来弄清神经元所代表的数据特征——参数量少还算可行,可对于如今动辄百亿、千亿级参数的神经网络,这个工作量显然过于“离谱”了。于是,OpenAI灵机一动:或许,可以用“魔法”打败“魔法”?“我们用GPT-4为大型语言模型中的神经元行为自动编写解释,并为这些解释打分。”而GPT-4首次解释的对象是GPT-2,一个OpenAI发布于4年前、神经元数量超过30万个的开源大模型。让GPT-4“解释”GPT-2的原理具体来说,让GPT-4“解释”GPT-2的过程,整体分为三个步骤。(1)首先,让GPT-4生成解释,即给出一个GPT-2神经元,向GPT-4展示相关的文本序列和激活情况,产生一个对其行为的解释。如上图所示,GPT-4对GPT-2该神经元生成的解释为:与电影、人物和娱乐有关。(2)其次,再次使用GPT-4,模拟被解释的神经元会做什么。下图即GPT-4生成的模拟内容。(3)最后,比较GPT-4模拟神经元的结果与GPT-2真实神经元的结果,根据匹配程度对GPT-4的解释进行评分。在下图展示的示例中,GPT-4得分为0.34。通过这样的方法,OpenAI共让GPT-4解释了GPT-2中的307200个神经元,其中大多数解释的得分很低,只有超过1000个神经元的解释得分高于0.8。在官博中,OpenAI承认目前GPT-4生成的解释并不完美,尤其在解释比GPT-2规模更大的模型时,效果更是不佳:“可能是因为后面的layer更难解释。”尽管绝大多数解释的得分不高,但OpenAI认为,“即使GPT-4给出的解释比人类差,但也还有改进的余地”,未来通过ML技术可提高GPT-4的解释能力,并提出了三种提高解释得分的方法:对解释进行迭代,通过让GPT-4想出可能的反例,根据其激活情况修改解释来提高分数。使用更大的模型来进行解释,平均得分也会上升。调整被解释模型的结构,用不同的激活函数训练模型。值得一提的是,以上这些解释数据集、可视化工具以及代码,OpenAI都已在GitHub上开源发布:“我们希望研究界能开发出新技术以生成更高分的解释,以及更好的工具来使用解释探索GPT-2。”(GitHub地址:https://github.com/openai/automated-interpretability)“再搞下去,AI真的要觉醒了”除此之外,OpenAI还提到了目前他们采取的方法有很多局限性,未来需要一一攻克:GPT-4给出的解释总是很简短,但神经元可能有着非常复杂的行为,不能简洁描述。当前的方法只解释了神经元的行为,并没有涉及下游影响,希望最终能自动化找到并解释能实现复杂行为的整个神经回路。只解释了神经元的行为,并没有解释产生这种行为的背后机制。整个过程都是相当密集的计算,算力消耗很大。在博文的最后,OpenAI展望道:“我们希望将我们最大的模型解释为一种在部署前后检测对齐和安全问题的方式。然而,在这些技术能够揭露不诚实等行为之前,我们还有很长的路要走。”对于OpenAI的这个研究成果,今日在国内外各大技术平台也引起了广泛关注。有人在意其得分不佳:“对GPT-2的解释都不行,就更不知道GPT-3和GPT-4内部发生了什么,但这才是许多人更关注的答案。”有人感慨AI进化的方式愈发先进:“未来就是用AI完善AI模型,会加速进化。”也有人担心AI进化的未来:“再搞下去,AI真的要觉醒了。”那么对此,你又有什么看法呢?...PC版:https://www.cnbeta.com.tw/articles/soft/1359101.htm手机版:https://m.cnbeta.com.tw/view/1359101.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人