《ChatGPT 越过山丘之后,再来谈谈 LLM 应用方向》

《ChatGPT 越过山丘之后,再来谈谈 LLM 应用方向》 全文肝完。 这篇文章会通过这半年来多的持续关注的信息思考和一线开发的经验,试图回答 半年了为什么再没有其他爆款产品出来? 是不是当前技术遇到了无法不可逾越的鸿沟? 作为现在有些迷茫的开发者,之后的方向应该是什么?

相关推荐

封面图片

陈梓华供称国安法生效之后再没致电黎智英

陈梓华供称国安法生效之后再没致电黎智英 壹传媒创办人黎智英与《苹果日报》三间相关公司涉嫌串谋勾结外国势力的案件继审,「从犯证人」陈梓华继续作供。控方向陈梓华展示,他在2020年7月、即《香港国安法》生效之后,向另一名「从犯证人」、香港故事成员李宇轩发送的讯息,提到「不代表在《香港国安法》下甚么也不做」。陈梓华供称,当时认为需要继续推动制裁, 认为就连黎智英也可以无畏无惧,有些事情便要去做,但思考应做到哪一步。在控方完成主问后,由辩方的新西兰御用大律师Marc Corlett负责盘问。陈梓华确认自己同意向控方提供协助后,与警方一共会面81次,并曾进行4次录影会面及录取4份书面供词,在《香港国安法》生效后,他再没有致电黎智英。陈梓华供称,在《香港国安法》生效数天之后,有阅读过条文内容,亦明白自己过去所做的事情可能不再合法。他表示,跟黎智英从来没有讨论过《香港国安法》的效力,黎智英亦从来没有要求陈梓华进行违反《香港国安法》的行为。 2024-04-25 15:50:35

封面图片

为什么发达之后不能随便帮衬家人?

#内幕消息 为什么发达之后不能随便帮衬家人? 我跟大家分享一个真实的故事: 姐姐在上海打拼8年,才熬得一个年薪50万的职位,手里有点小钱。 刚进入社会的弟弟向她借了20万,在老家县城开了一个小餐馆。 结果不到半年就倒闭了,投资全部打了水漂。 姐姐跟他说,不着急还钱,等你什么时候有了再说就行。 结果弟弟直接翻脸了:你每年赚那么多,还差我这点钱吗? 潜台词是:什么?我向你借钱还需要还吗? 老家的父母也开始劝她:你要有个做姐姐的样子,对待弟弟,能帮衬就帮衬一下,那20万就别要了。 姐姐气不过,赌气在家人的群里说了一句:“这个钱我不要了,行了吧?” 于是爸爸说“女儿真懂事”,妈妈说“一家人就应该团结”。 只是从此以后,姐姐就很少回老家了,在经济上也再没有援助过他们,而且学会了在朋友圈里哭穷…… 有人会说:当家族里的某个人发达之后,帮衬一下其他家庭成员,不是天经地义的吗? 其实,想要做到这一点,这里面有3个大前提: ① 那个发达的成员已经达到了“大富大贵”的级别,回老家就是为了散财、积累好名声。 比如刘强东这样的大佬,回老家可以给每个亲戚都发10万元,让他们创业、改善生活。 而普通的小老板、小中产们赚的都是辛苦钱,根本没有这个实力。 ② 被资助者不能是个废物。 举个例子,20多岁的年轻人想要创业,这是好事。 但是,只要他开口说想要开饭店、花店、书店、咖啡馆,那基本上可以断定,这个钱肯定是要赔光的。 因为这些项目都是“收割机中的战斗机”。 ③ 被资助者要有感恩之心。 光是这一个要求,就能筛选掉99%的垃圾人。 因为世界上有太多“理所当然”的人,他们认为有钱的一方就应该帮衬没钱的一方。 就像我在《关于借钱的5个扎心真相》这篇文章里写的那样:你把钱借给他们可以,一旦想要让他们还钱,那你就立刻成了大恶人。 其实,对于“帮衬家人”这件事,我是非常有发言权的,我之所以对他们非常严格,就是因为我不想成为他们眼中的“好人”“大度的人”。 我为了赚钱,每天都在苦心经营,都在学习新知识,为了一个小问题就思考到深夜。 而他们呢? 大部分时间都在睡觉、打麻将、聊八卦。 结果他们在向我寻求资助时,劝我要大度,不要把钱看得太重…… 换你你能受得了吗? 你骂我忘恩负义、六亲不认,这些我都能接受;但如果你把我当成冤大头,那我肯定不接受。 赞赏U君

封面图片

OpenAI在国内的两条应用之路走不通了?

OpenAI在国内的两条应用之路走不通了? 令高瑞麟陷入两难的,是在奥特曼领导下的OpenAI的一封推送邮件。在6月25日发出的邮件中,OpenAI表示,从今年7月9日开始,将阻止来自非支持国家和地区的API(应用程序接口)服务。受影响组织若希望继续使用OpenAI的服务,必须在其支持的国家或地区内访问。这也意味着,不在支持地区范围内的中国大陆,将迎接OpenAI的“断供”风险。需要注意的是,ChatGPT爆红以来,OpenAI其实一直未曾开放过中国市场的服务。国内大模型创业者李振告诉字母榜(ID:wujicaijing),当前国内想要访问OpenAI的API,一般有两个途径:一是直接向OpenAI官方申请,这种方式更多适合个人开发者;二是通过采购微软云服务,间接接入OpenAI服务,这也是当前国内唯一的合规渠道。据李振观察,目前微软云提供的OpenAI接入服务仍可以正常访问。通过上述两种途径,围绕OpenAI的API,国内大模型玩家也由此发展出了两大应用场景:科技大厂用以帮助训练自己的大模型,在模仿的基础上追求赶超效果;中小企业则用来开发落地应用,在实际使用中向客户提供多样性选择。对于更有实力和资源的大模型玩家而言,即便“断供”政策正式生效,也可能挡不住它们继续调用OpenAI的API的行为,“在一个全球化的市场中,很难存在彻底隔断某一地区访问权限的可能性,就是需要穿越多少围栏的问题。”关注大模型投资的恒业资本创始合伙人江一说道。进入2024年,即便已经出现了一众号称性能媲美GPT-4级别的国产基础大模型,但调用OpenAI技术的需求仍然存在。在江一接触到的合作客户中,有人明确提出希望提供OpenAI技术选项,“面对更开放、更发散性的问答时,OpenAI展现出来的答案还是更强一些。”这也促使一些应用开发商对不同的模型做起人为分割,简单的问题推理,以及涉及垂类行业问答的场景,优先调用国内大模型,偏复杂推理和分析的内容,就交给OpenAI。具体运行环节,有点类似当前业内推崇的MoE混合专家模型逻辑,当客户提出一个问题后,借助机器学习的匹配算法,先将问题分类,从而基于分类结果匹配对应的模型服务商。但是否使用OpenAI服务,还取决于客户是否愿意为此多花钱,“充什么样的会员套餐,给你供应什么样的大模型选择范围。”李振解释道。不同于应用开发者的具体使用需求,那些同样有着自研大模型野心的国内厂商,通过接入OpenAI技术,还能起到辅助刷榜的作用。知名大模型测试集C-Eval就曾在官网置顶声明,称评估永远不可能是全面的,任何排行榜都可能以不健康的方式被黑客入侵,并给出了几种常见的刷榜手法,如对强大的模型(例如GPT-4)的预测结果蒸馏、找人工标注然后蒸馏、在网上找到原题加入训练集中微调模型等等。站在OpenAI的肩膀上,从模仿借鉴中快速赶超,则是国内大模型玩家接入OpenAI技术的更重要目的。去年12月份,字节跳动被爆出正在研发一个名为“种子计划”(Project Seed)的AI大模型项目,但该项目在训练和评估模型等多个研发阶段调用了OpenAI的API,并使用ChatGPT输出的数据进行模型训练。此举违反了OpenAI的使用协议,根据规则,OpenAI禁止使用输出开发竞争模型。因此,字节旗下部分GPT使用权限被OpenAI封禁。字节官方坦陈,内部技术团队刚开始进行大模型的初期探索时,确实有部分工程师将ChatGPT的API服务应用于较小模型的实验性项目研究中,但“该模型仅为测试,没有计划上线,也从未对外使用。”部分国产大模型在训练模型速度上快速起步的一大原因,同样离不开对国外大模型的借鉴。去年11月被传出套壳消息时,零一万物在回应字母榜中承认,在训练模型过程中,沿用了 GPT/LLaMA的基本架构,但需要说明的是,借鉴架构并不能跟“套壳”或者“抄袭”直接划等号。不过,这确实帮助零一万物缩短了模型研发时间。去年3月,李开复正式宣布将亲自带队,成立一家AI 2.0公司,研发通用大模型。经过三个月筹办期,同年7月份,该公司正式定名“零一万物”,并组建起数十人的大模型研发团队。团队成型四个月后,零一万物便在11月份推出了“Yi”系列大模型产品,并借助Yi-34B霸榜多个大模型测试集。在OpenAI“断供”危机之下,国产大模型的战略替代价值越发凸显。在李振看来,从经济账上考量,国内公司直接调用国产大模型会是更为划算的选择。抢在企业迁移之前,一些追求更高收益的个人开发者,已经率先用国产模型替换掉了OpenAI。2022年11月ChatGPT亮相后,受限于政策,一些人开始盯上国内想要尝鲜的用户,做起了卖号生意。当时,ChatGPT Plus官方订阅价格为一个月20美元,国内用户想要使用,收费一般为共享号(供4-6个人使用)一个月50元左右,独享号一个月170元左右。但从2023年下半年开始,随着越来越多国产大模型的发布,加上用户对ChatGPT新鲜感的减弱,越来越多个人开发者已经将技术底座从OpenAI换成了国产平替,订阅价格也随之下降,有的连续包年仅需198元。现在,在App Store应用商店中搜索“ChatGPT”,各类相似应用程序充斥其中,ChatGtp4o、ChatGp4、ChatGp4o、ChatBPT 4.0、ChatGTB4……如今,OpenAI的“断供”之举,给国产大模型厂商提供了一次抢夺中小企业用户的迁移机会。继5月份字节、阿里、百度、腾讯等掀起大模型价格战之外,从6月25日开始,一众国产大模型玩家又纷纷祭出了零成本迁移计划,再次加码性价比之战。截至目前,包括智谱AI、百度、阿里、腾讯、百川智能、零一万物、商汤科技、月之暗面等均已推出了OpenAI零成本迁移计划。为加速用户“搬家”,部分国产大模型还额外附送1千万乃至1亿Tokens,并配套调用、迁徙、训练等多项免费服务大礼包。便宜,只是鼓动用户迁移的必要条件。想要真正赢得用户的青睐,国产大模型还需要做到更好用。去年曾喊出史上最大降价的阿里云,并未能借助价格战换来新的增长。聚焦到国内公有云市场,阿里云市场份额不增反减。IDC发布的《中国公有云服务市场(2023下半年)跟踪》报告显示,2023下半年IaaS市场中,阿里云市场占比27.1%,位居第一。但在2023上半年中国IaaS市场中,阿里云市场份额则为29.9%。更可况,在国产大模型降价的同时,OpenAI们也在降价。按奥特曼的话说,“OpenAI也可以将非常高质量的AI技术成本降至接近零……”想要增强大模型底座的产品吸引力,除了价格之外,更重要的比拼则在数据端。2020年发布GPT-3时,OpenAI曾详细公开了模型训练的所有技术细节。中国人民大学高瓴人工智能学院执行院长文继荣表示,国内很多大模型其实都有GPT-3的影子。但随着OpenAI在GPT-4上一改开源策略,逐渐走向封闭,一些国产大模型就此失去了可供复制的追赶路径。此后,各家大模型拉开技术差距的重点,越来越多体现在训练方法、数据配比、数据工程、细节参数、训练过程监测技巧等细节之中。即便在模型框架相同之下,不同的数据来源和数据训练方法加持下,最终训练出来的大模型性能依然会表现各异。“前大模型时代,AI的主流是以模型为中心的单任务系统,数据基本保持不变。进入大模型时代,算法基本保持恒定,而数据在不断增强增大。”在产业专家刘飞看来,相比算法和算力,数据可能是眼下阻碍国产大模型追赶OpenAI步伐的更大鸿沟,“魔鬼都藏在这些数据训练的细节里。”在国内大模型纷纷跨入万亿参数时代之后,对数据采集和训练的能力考验再次提升。参数量的大小与最终模型呈现的效果之间,两者“投入产出并不成正比... PC版: 手机版:

封面图片

OpenAI Sora问世 通往AGI的又一个ChatGPT时刻

OpenAI Sora问世 通往AGI的又一个ChatGPT时刻 因为看完Sora你可能会发现,OpenAI自己可能要用它先杀死GPT-4了。每个人都可以创造自己的世界了先来看看Sora。人们一直期待GPT-5,但Sora带来的轰动不亚于一次GPT-5的发布。作为OpenAI 首推的文本转视频模型,Sora能够根据文本指令或静态图像生成长达 1分钟的视频,其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。同时也接受现有视频扩展或填补缺失的帧。每条提示60秒的视频长度与Pika Labs的3秒、Meta Emu Video的4秒、和Runway公司Gen-2的18秒相比,妥妥地铁赢了。并且从官方发布的演示来看,无论从视频流畅度还是细节表现能力上,Sora的效果都相当惊艳。比如官推里这条14秒的东京雪景视频。提示词:Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.“美丽的,被雪覆盖的东京正繁忙着。镜头穿过繁忙的城市街道,跟随着几个享受雪景和在附近摊位购物的人。美丽的樱花瓣随风飘落,与雪花一同飞舞。”穿着时尚的女性漫步在霓虹背景的东京街头,地面有积水倒影。对于五官和皮肤的刻画十分真实,特别是痘印和法令纹,细节让人惊叹。猛犸象自冰川雪原中缓步从来,背后升腾起雪雾。烛火旁纯真顽皮的3D动画小怪物,光影、表情和毛茸茸的细节满分:一名24岁女性的眼部特写,足以以假乱真。无人机视角的海浪拍打着Big Sur加瑞角海岸崖壁,落日洒下金色光芒。窗台上的花朵开放延时影像:民众们上街舞龙,庆祝中国农历春节。可爱小猫咪在线安抚起床气。夜晚街道跑着的快乐小狗。两艘微型海盗船在一杯咖啡里对峙。加州淘金时代罕见“历史影像”流出 像吗?Sora做的。目前Sora还在测试阶段,仅对部分评估人员、视觉艺术家、设计师和电影制作人们开放访问权限,拿到试用资格的人们已经开始想象力横飞。Sam Altman就转发网友用Sora制作的“金光灿灿动物园”视频,玩起了自己的“What”梗:他还邀请大家踊跃提出想用Sora制作视频的提示词,团队马上为大家生成,瞬间8千多条回复。网友脑洞大开,要看海洋生物的自行车公开赛。两只金毛在山上戴着耳机开播客。当然也不忘cue一下去向成谜的Ilya,要求生成一个“Ilya眼中的真实世界”。不过OpenAI也表示,虽然Sora 对自然语言有着深入的理解,能够准确洞悉提示词,生成表达丰富的内容,并可以创建多个镜头、保持角色和视觉风格的一致性,但仍不可避免地存在一些弱点。例如,它在准确模拟复杂场景的物理现象方面存在困难,也可能不理解特定的因果关系。比方说“一个人咬一口饼干后,饼干上可能并没有咬痕。”模型也可能混淆提示的空间细节,像是弄错左右。或者“在准确体现随时间发生的事件方面遇到困难,比如遵循特定的摄像机轨迹”。Sora也使用了DALL·E 3的recaptioning技术,该技术涉及为视觉训练数据生成高度描述性的标题。因此模型能够更忠实地按照用户在生成视频中的文本指令进行操作。它能够一次性生成整个视频,或是扩展已生成的视频使其变长。通过让模型一次性预见多帧,解决了即使主体暂时离开视线也能保持不变的挑战性问题。关于安全性,OpenAI表示正与错误信息、仇恨内容和偏见等领域的专家合作,对模型进行对抗性测试。同时也在开发帮助检测误导性内容的工具,识别视频是否由Sora生成。对于违反使用政策的文本提示,例如暴力、仇恨和侵犯他人知识产权等内容,将拒绝显示给用户。除此以外,为DALL·E 3产品构建的现有安全方法也同样适用于Sora。“尽管进行了广泛的研究和测试,我们仍无法预测人们将如何利用我们的技术,也无法预见人们如何滥用它。这就是为什么我们相信,从真实世界的用例中学习,是随时间构建越来越安全的AI系统的关键组成部分。”OpenAI对 Sora信心满满,认为这为模型理解和模拟真实世界奠定了基础,是“实现AGI的重要里程碑”。网友们也第n+1次纷纷哀悼起相关赛道的公司们:“OpenAI就是不能停止杀死创业公司。”“天哪,现在起我们要弄清什么是真的,什么是假的。”“我的工作没了。”“整个影像素材行业被血洗,安息吧。”能杀死GPT-4的世界模型?这不就是吗OpenAI一如既往没有给出很详细的技术说明,但一些只言片语已经足够让你浮想联翩。其中最吸引我们注意的第一个点,是对数据的处理。Sora是一个扩散模型(diffusion model),采用类似GPT的Transformer架构。而在解决训练中文本资料与视频数据之间的统一方面,OpenAI表示,他们在处理图像和视频数据时,把对它们进行分割后得到的最小单元,称为小块(patches),也就是对应LLM里的基本单元tokens。这是一个很重要的技术细节。把它作为模型处理的基本单元,使得深度学习算法能够更有效地处理各种视觉数据,涵盖不同的持续时间、分辨率和宽高比。从最终的震撼效果看,你很难不得出这样一个结论:对语言的理解能力,是可以迁移到对更多形态的数据的理解方法上去的。此前的Dalle-3的效果就被公认很大程度来自OpenAI在GPT上积累的领先N代的语言能力,哪怕是个图像为输出的模型,语言能力提升也是至关重要的。而今天的视频模型,同样如此。至于它是如何做到的,有不少行业内的专家给出了相同的猜测:它的训练数据里使用了游戏领域最前端的物理引擎Unreal Engine5,简单粗暴的理解,就是语言能力足够强大之后,它带来的泛化能力直接可以学习引擎生成的图像视频数据和它体现出的模式,然后还可以直接用学习来的,引擎最能理解的方式给这些利用了引擎的强大技术的视觉模型模块下指令,生成我们看到的逼真强大的对物理世界体现出“理解”的视频。基于这个猜测,OpenAI简短的介绍中的这句话似乎就更加重要了:“Sora 是能够理解和模拟现实世界的模型的基础,OpenAI相信这一功能将成为实现AGI的重要里程碑。”理解,现实,世界。这不就是人们总在争论的那个唯一有可能“干掉”GPT-4的世界模型。现在,OpenAI搞出来了它的雏形,摆在了你的面前。看起来,这个模型学会了关于 3D 几何形状和一致性的知识,而且并非OpenAI训练团队预先设定的,而是完全是通过观察大量数据自然而然地学会的。负责Sora训练的OpenAI科学家Tim Brooks表示,AGI将能够模拟物理世界,而Sora就是迈向这个方向的关键一步。显然,在OpenAI眼里,它不只是一个“文生视频模型”,而是更大的东西。我们如果尝试进一步给一个暴论,就是:语言是理解一切的基础,理解了视频后,世界模型才会到来。可能这才是比今天刷屏感慨“现实不存在了”之外,更恐怖的地方。这可能是人类通往AGI的又一个ChatGPT时刻。 ... PC版: 手机版:

封面图片

ChatGPT-4o,OpenAI的一小步,人类“AI助理”的一大步

ChatGPT-4o,OpenAI的一小步,人类“AI助理”的一大步 它长出了“眼睛”,可以通过摄像头看到你,比如它通过研究员上扬的嘴角判断他的心情、通过他周围的环境背景判断了他正在做什么、甚至给出了造型建议;它能“看到”你的电脑桌面,直接帮你查看写的代码有什么问题。它有了更灵敏的“耳朵”,能听懂的不只是语言,还能听懂研究员过于急促的呼吸声,并引导他慢慢平稳呼吸、放松下来。OpenAICTO Mura Murati 宣布推出 ChatGPT-4o | 图片来源:OpenAI它有了更灵活的“嘴巴”,对话不再有延时,你能随时打断它、它能随时接住你的话。它的声音能带入感情,比如更冷静一点、更激昂一点、甚至讽刺一点。它还能唱歌。它也有了更聪明的“大脑”。它能帮研究员一步步解不等式,还可以做同声翻译、你可以通过它跟不同语种的人们交流。这些强大的能力背后,源自 OpenAI 推出的新模型 GPT-4o。与现有模型相比,GPT-4o 的最大进步在于,它可以实时对音频、视觉和文本进行推理换句话说,它让ChatGPT实现了真正意义上的多模态交互。这不仅仅是技术进步的追求,更是应用普及的追求。OpenAI 的使命之一是让 AI 普惠每个人,让用户能顺滑地用上 AI 是至关重要的。在“模型即应用”的时代,这种交互体验最终还是靠模型能力的提升。OpenAI 称,GPT-4o(“o”代表“omni”)是迈向更自然的人机交互的一步。发布会上,Mira Murati 宣布 ChatGPT-4o 将免费向所有用户开放,而付费和企业用户,可以抢先获得体验。电影《Her》上映于 2013 年,它讲述了一位人类爱上一位人工智能语音助理的故事。从今天 ChatGPT 呈现的能力来看,这样的想象正在加速成为现实。ChatGPT 的惊人进步:变身人类“超级助理”,甚至不需要人类参与在 OpenAI 的官网上,呈现了 ChatGPT 作为个人语音“超级助理”的更多惊人应用场景。首先是面向单个用户,和人一样,它提供的主要是“情绪价值”与“认知价值”。比如它能讲笑话、唱生日快乐歌、玩游戏、逗小狗、给人催眠、让人放松等等;它能充当面试官,给人提供面试建议;它还能给一位盲人提供环境观察,给他讲述看到的景色、提醒他过马路的路况。盲人用户使用 ChatGPT-4o“观察”整个世界 | 图片来源:OpenAI接着是面向多个用户,它提供的更多是一种“协同价值”。比如给两个语言不通的人充当翻译,让他们能无障碍沟通;给两个人做“剪刀石头布”的游戏裁判,先喊口令让游戏开始、之后还能准确判断是哪个人赢了;充当一名“家教”,帮一位父亲辅导他的孩子做作业;甚至作为一名“会议第三方”,主持和记录多人会议。最有意思的还是,不同 ChatGPT 之间的对话。这种无需人类参与的沟通,不仅充满了科幻感,更让人开始想象无需人类协作、而让机器代替人类协作的未来。在一段演示中,一位用户要求一部手机的 ChatGPT 代表自己,向另一部手机的 ChatGPT 申请售后,结果这两个 ChatGPT 毫无阻碍地聊了两分钟,顺利帮这位用户“换了货”。而 OpenAI 总裁 Greg Brockman 则做了一个调皮的演示,他让两个 ChatGPT 互动并唱了歌。OpenAI 总裁 Greg Brockman 演示两个 GPT 的互动 |图片来源:OpenAI一位曾在 10 年前就开始做“AI 语音助理”的前大厂高管对极客公园表示,他当时就设想过 AI 助理的终极形态应该是“多模态、无所不能”,但彼时技术并不支持,他认为 ChatGPT 会加速这种设想实现的可能只是他没想到,这个过程会来得这么快。他认为,实现 AGI 的一个关键标志是,机器是否能具备了自主学习、自主迭代、自主解决问题等能力。这个突破看起来很遥远,但当两个 ChatGPT 开始互相聊天的时候,这个鸿沟看起来似乎浅了一点点。GPT-4o 多模态大模型的技术进步、以及安全性这些惊艳的产品表现,根本上源自于 GPT-4o 多模态大模型的技术进步。后者分为文本、语音、图像三部分,GPT-4o 在这三块都有提升,尤其是后两者。在文本方面,据 OpenAI 的技术报告,GPT-4o 在 MMLU(语言)、GPQA(知识)、MATH(数学)、HumanEval(编程)的评测指标上,都超出了 GPT-4T、GPT-4 (23 年 3 月最初发布版本),以及竞品 Claude 3 Opus、Gemini Pro 1.5、Llama3 400b、Gemini Ultra 1.0。比如在 0-shot COT MMLU 上,GPT-4o 创下了 88.7% 的新高分。GPT-4o 在文本上的成绩相当优异|图片来源:OpenAI最关键的,是音频、多语言和视觉上的进步。在音频方面,过去 ChatGPT 的音频缺陷是需要经过三个独立的模型,从而存在延迟、且无法承载丰富信息。它先由第一个模型将音频转录为文本,再由 GPT-3.5 或 GPT-4 接收文本并输出文本,最后由第三个模型将该文本转换回音频一方面,它使得音频的传输存在延迟,GPT-3.5 的平均延迟为 2.8 秒,GPT-4 的平均延迟为 5.4 秒。另一方面,模型会丢失大量信息,从而无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。而 GPT-4o 的解决办法是,跨文本、视觉和音频端到端地训练了一个新模型,这意味着所有输入和输出都由同一神经网络处理。OpenAI 称这是其突破深度学习界限的最新举措。目前,GPT-4o 可以在短至 232 毫秒、平均 320 毫秒的时间内响应音频输入,与人类的响应时间相似。同时在音频 ASR 性能和翻译性能上,GPT-4o 都比 Whisper-v3(OpenAI 的语音识别模型)的性能更优。M3Exam 基准测试既能用于多语言评估,也可以用于视觉评估。它由多项选择题组成,包括图形和图表。在所有语言的基准测试中,GPT-4o 都比 GPT-4 更强。另外在视觉理解评估上,GPT-4o 在视觉感知基准上都实现了最先进的性能。GPT-4o 在视觉理解上同样能力不错 | 图片来源:OpenAI一位大模型训练者曾对极客公园表示,模型的技术领先性从来不是靠打榜评分,而是靠用户最真实的感受和体验。从这个角度来说,GPT-4o 的技术领先性将很容易见分晓。OpenAI 表示,GPT-4o 的文本和图像功能将于发布会当天在 ChatGPT 中推出。免费用户就可以使用,不过 Plus 付费用户能享受高达 5 倍的消息容量。在未来几周内,OpenAI 会在 ChatGPT Plus 中推出新版本的语音模式 GPT-4o alpha。而开发人员现在就可以在 API 中访问 GPT-4o 的文本和视觉模型。与 GPT-4 Turbo 相比,GPT-4o 速度提高了 2 倍、价格降低了一半、速率限制提高了 5 倍。在未来几周内,OpenAI 计划向一小部分值得信赖的合作伙伴推出 GPT-4o 的新音频和视频功能。一项强大的技术最令外界担忧的,就是它的安全可控性。这也是 OpenAI 最核心的考虑之一。OpenAI 表示,GPT-4o 通过过滤训练数据和通过训练后细化模型行为等技术,在跨模式设计中内置了安全性。其还创建了新的安全系统,为语音输出提供防护。为了保证更好的安全性,OpenAI 表示在接下来的几周和几个月里,将致力于技术基础设施、培训后的可用性以及发布其他模式所需的安全性。OpenAI 从没让外界失望,再次引领科技圈的未来作为这波 AI 浪潮的开启者、引领者,OpenAI 的每一次发布和更新,都关系着其庞大用户量的涨跌、公司竞争的进退、以及整个行业的关注和走向。在这次发布会之前,外界对 OpenAI 颇多谣传、也包括质疑。一周前,外媒报道此次 OpenAI 要发布的是一款搜索引擎在一年最重要的新闻发布时刻,这家公司没有推出 GPT-5,这引来外界对其创新力的颇多怀疑。而如果无法拿出足够创新力的技术和产品,这家公司将难以重振用户的增长、满足整个市场对它的期待。自 2022 年底推出 ChatGPT 后,这家公司的用户量经历了大起大落。据 Similarweb 估计,其全球访问量在 2023 年 5 月达到... PC版: 手机版:

封面图片

外包是一种什么体验?老胡聊Java的回答

外包是一种什么体验? 老胡聊Java的回答 本人在一家互联网公司里做过程序员,是最底层的这一档,和一些外包程序员打过交道,所以本文就从这个视角,来说下外包的情况。 先说一点,至少在这家公司,对外包其实没有明显的歧视,零食该拿的还是拿,但公司的一些福利,比如过节费,外包是没有的。同时,外包程序员的发展,明显是会受限的。 1 普遍能力一般,甚至是偏低,因为入职时肯接受外包条件的,要么是培训班转行,要么是当时能力一般,或者是学校一般的应届生。 2 外包干久了,进入到舒适区以后也能躺平,但躺平时间超过2年后,竞争力会下降到下份工作估计连外包的活也找不到。 3 也见过不少外包员工,入职后能力很低,但顶多用1年时间就能显著提升,或者转成正式,或者跳槽后薪资大涨。 4 如果外包员工出了较为严重的问题,一般是退回原外包公司。 从工作内容上看,外包员工基本上是属于干很初级的增删改查的活,一般有什么关键性的任务,都是正式员工带1,2个外包一起做。我是做java的,这个方向外包干的,基本就照着现有现有代码复制粘贴新的业务,顶多就再用些组件的api,可能业务比较复杂,工作量比较多,但论技术,只是做初级开发的活。 做java的项目,其实写代码是相对初级的活,能帮助程序员提升能力的,一般是和运维以及和组件相关的活,比如是用组件解决个熔断或限流,或者用组件提升个数据库性能,或者是根据压测结果做个扩容,或者是其它架构方面的活,但外包员工很少有机会接触到这些活。 另外,在日常开发过程中,程序员一般是通过解决实际问题来提升能力,尤其是解决组件,性能,运维和部署方面的问题。一般常见的场景是,比如有个问题,尤其是包含值钱方面技术的问题,领导一般是主动分配给正式员工,外包员工如果积极些也能介入,但如果外包员工缩在后面,其实一般也没事,毕竟外包员工钱少,也没指望外包员工能干高级的活,这就导致外包员工没机会提升。 甚至当项目紧的时候,不少外包员工还会被抽调出去干不是开发的活,比如是核对数据甚至只是跑简单的测试案例。所以从工作时间和工作强度来看,外包员工其实每天都在忙,而且每天都可能在加班,但真可能干个2年后,技术非但不提升,而且只会限于增删改查。 再说下我见到过的外包程序员的水平。最大的感受是,外包程序员一般只需要用半年时间,就能成为熟练工,之后哪怕再干个5,6年,其实是无法提升的。所以很多大龄外包,比如是30岁以上的外包员工,论能力,和一个具有2年开发经验的程序员相比,其实并没太大的差别。 但需要说明的是,对一些零项目经验想要入行或转行的人来说,外包绝对是个好的入门方式。比如有人毕业3年,做的不是IT,是通过培训班入行,那么第一份工作,找到好公司的可能性不大,但找外包的工作,成功的可能性比较大。 比如有些外包的hr,其实是知道求职者的底细的,他们面的人多了,是包装项目还是真实项目,是能看出来的。在这种情况下,外包的hr会在知道求职者能干基本活的基础上,压低薪资,本人听说过,甲方给外包公司大概25k的预算,外包公司实际给的薪资真可能是1w左右,同时社保按最低标准缴纳。但哪怕是这样,这些零项目的求职者依然愿意进。 via 知乎热榜 (author: 老胡聊Java)

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人