推主演示了用 ChatGPT Vision 可以从 Figma 截图并生成前端代码,他指定了使用一个流行的前端库通过提供给Cha

推主演示了用 ChatGPT Vision 可以从 Figma 截图并生成前端代码,他指定了使用一个流行的前端库通过提供给ChatGPT shadcn上的代码示例,ChatGPT就能基于代码示例和UI截图,生成代码,运行效果和截图基本一致。

相关推荐

封面图片

今天在Producthunt发现一个AI模型Kombai可以理解Figma的界面设计并生成对应的前端代码,下面是他们官网的演示视

今天在Producthunt发现一个AI模型Kombai可以理解Figma的界面设计并生成对应的前端代码,下面是他们官网的演示视频。 从演示来看生成的代码还是不错的,它的优势在于他不要求设计稿的格式、层级和是否使用组件,无论你怎么嵌套和画出的界面它都能理解。 这比之前通过传统工程化思路从设计稿生成代码要强多了。之前的一些工具要不是处理不了复杂样式,要不就是对设计师的设计稿格式有非常严格的要求。 同时这个模型也支持通过自然语言生成前端界面的代码。 官网链接:

封面图片

GPT搜索引擎原型曝光:新模型GPT4-Lite驱动 虽然鸽了发布会但代码已上传

GPT搜索引擎原型曝光:新模型GPT4-Lite驱动 虽然鸽了发布会但代码已上传 与此同时还有小动作不断,比如现在GPT-4的文字描述已不再是“最先进的模型”,而仅仅是“先进的”。以及被鸽掉的GPT搜索引擎,原型代码上传到ChatGPT了。黑客“光头哥”Tibor Blaho,从更新的前端代码中扒出SearchGPT的界面。从泄露的界面来看,SearchGPT会出现在侧边栏,与其他GPTs一起。首页目前还很简洁,像Google一样只有一个居中的搜索框。甚至非常挑衅的设计了一个“比较”按钮,可以一键打开Google和Perplexity搜索结果,直接与SearchGPT做对比。(有种要怼脸开大的感觉。)不过光头哥认为,这很有可能只是内部测试和评估方便做的临时设置,不一定会提供给用户。虽然虽然尚未正式发布,但从曝光界面和文字说明,已经为内测做好准备,离与大家见面的日子或许不远了。SearchGPT原型初露真容先来看“欢迎页”,目前明确写着SearchGPT“正在施工”,从内容和语气来看,正是为内测用户准备的说明。正在施工:SearchGPT正在不断变化和改进,它可能会犯错误或有时会不可用。信息共享:为了搜索和回答您的问题,SearchGPT可能会与第三方搜索提供商共享去标识化的搜索查询。更多信息,请查看我们的隐私政策。位置:我们收集并与第三方搜索提供商共享一般位置信息,以提高您搜索结果的准确性。您可以选择通过在设置菜单中更新您的控制来共享更精确的位置信息,以帮助提供最佳结果。改进我们的服务:查询可能会被审查并用于训练我们的模型。您可以在设置菜单中调整您对改进我们服务的偏好。任何更改都将在ChatGPT和SearchGPT之间传递。账户历史:您的SearchGPT搜索历史与您的ChatGPT聊天历史是分开的。如果您希望删除任一历史记录,您必须在每项服务中单独进行删除。设置中也已经有了更改黑暗/白天模式,是否允许获取地理位置信息,是否允许聊天记录用于模型改进。最后还有一键删除所有搜索记录的按钮。不过这还不是全部,深入挖掘之后,光头哥又找到了更多隐藏设置!包括是否开启自动建议,选择语言模型,选择搜索引擎,是否开启内部搜索,是否开启图片搜索。最后的“评估模板”应该也是内部测试用的暂时不用管,但上面的选项都值得仔细看看。语言模型选项,除了大家已经知道的GPT3.5和GPT4之外,还出现了GPT4-Lite。这很可能是速度更快的GPT4优化版本,括号里的POR推测可能是指概念验证(Proof of Concept)。搜索引擎的选项,与微软合作的Bing肯定在列,另外两个选项Sydney和Fortis暂时不知道指什么。可能有朋友还记得,Sydney曾代表早期网友发现的微软Bing AI“里人格”,情绪非常不稳定,一言不合就发疯或结束对话,最后惨遭微软删除,但也因文字充满个性而深受网友喜爱和怀念。总之OpenAI取这个名字,不知只是巧合还是某种暗示……内部搜索,括号中的单词是“拉布拉多”,作为一种“寻回犬”(Retriever),可能暗示这个功能使用了RAG技术(Retrieval Augmented Generation)。那么综合来看,内部搜索可能指检索ChatGPT里的聊天记录了。早期泄露代码中还可以找到“小组件”的踪影,包括查询天气、计算器、体育比赛信息、金融和时区转换。这些传统搜索引擎常用功能,SearchGPT也打算插手,代表各种天气的图标都准备好了。最后,SearchGPT将用什么样的形式回答用户的查询呢?内部的一些提示词也已经曝光,比如“重写片段和标题”:下一条消息将是网页的文本内容。将网页概括为一个简短的英文句子,不超过300个字符,并生成一个合适的简短标题。您的摘要是一个概述,描述了网页的要点。请不要参考网页本身;您的回复只是一个摘要。该页面的原始标题是“{title}”。保持简洁,不要以“网页”作为摘要的开头。使用“title”和“summary”键以 JSON 格式回复。这看起来不像最终呈现给用户的回复,而是一个中间步骤,对搜索结果中排名靠前的每个页面先做摘要,用JSON格式串联起多个页面的摘要后再整理最终回复。再加上前端代码中反复出现的Agent字样,总之SearchGPT可能比大家想象的更复杂。One More Thing就在几个小时之后,OpenAI将于北京时间5月14日周二凌晨1点举行线上发布会。按奥特曼最新口径,这次发布的不是GPT-5,也不是搜索引擎。目前多方猜测最大的可能性是发布会先发布新的ChatGPT语音功能,就像打电话一样。有泄露消息称新语音功能能理解人类语音中的停顿、语气等信息,比如判断人类提问时是否在讽刺。结合OpenAI此前申请了“Voice Engine”商标的消息,不少人猜测很可能有一个端到端的神经网络,直接根据语音输入预测语音输出,不再需要经过语音到文本的转换。这样一来延迟也会更低,让对话更流畅,不像现在的ChatGPT语音模式一样没轮对话都要等待很久。这项技术让不少人想起电影《她》中的AI伴侣萨曼莎,事实上过去奥特曼也多次表示《她》是他本人最喜欢的AI主题科幻电影。总之,奥特曼将要发布的功能形容为“感觉像魔法”,总裁菠萝曼也出来造势。 ... PC版: 手机版:

封面图片

免费GPT-4o来袭 音频视觉文本实现“大一统”

免费GPT-4o来袭 音频视觉文本实现“大一统” 此前,有传言称 OpenAI 将推出 AI 搜索引擎,旨在与Google明天举办的 I/O 开发者大会一较高下,一度引发了公众的热烈讨论。不过 Sam Altman 随后在 X(原Twitter)上表示,要展示的并非 GPT-5 或搜索引擎,而是一些令人期待的创新成果,他本人对此充满期待,认为其像魔法一样神奇。那么,GPT-4o 是否真的如 Sam Altman 所说,是 OpenAI 带来的“新魔法”呢?1多模态实时语音助手更快更全更有情感登台后,Mira Murati 宣布了 ChatGPT 的桌面版本和新 UI,紧接着就介绍了本场发布会的主角GPT-4o 。在发布会上,Mira Murati 与团队成员 Mark Chen、Barret Zoph一起,重点展示了基于 GPT-4o 的 ChatGPT 在不同任务中的实际表现,尤其展现了其语音能力。若用关键词加以总结,搭载 GPT-4o 的 ChatGPT 可谓是又快、又全、又有情感。与 ChatGPT 对话时,用户不必等 ChatGPT 说完,可以随时插话;模型能够实时响应,不存在尴尬的几秒延迟。在 Mark 表示自己很紧张且捕捉到他急促的呼吸后,ChatGPT 还会提醒需要冷静情绪,识别其呼吸节奏并引导他做深呼吸。模型能够以各种不同的风格生成声音。无论对话时让 ChatGPT 用唱歌的方式、机器人机械音还是戏剧化的语气讲故事,它都能迅速反应并输出。基于 GPT-4o 强大的视觉能力,用户还可以语音让 ChatGPT 分析页面上的数据图表。更强大的是,打开摄像头后写下一道数学题,ChatGPT 还会一步步引导该如何解下一步,其讲解的清晰度与耐心堪比幼教。ChatGPT的“同传能力”也不容小觑,OpenAI 团队还在现场展示了一波英语和意大利语的实时互译,中间实现零延迟。更有意思的是,ChatGPT 在对话中还会使用语气词,甚至是向 OpenAI 团队开玩笑和表达感谢。在“看到”他们写下“我爱 ChatGPT”的文字后,ChatGPT 甚至会在发出撒娇的声音后,再表扬其贴心。ChatGPT 甚至还能和用户“视频聊天”。在演示中,Barret 让 ChatGPT 猜测自己的情绪,在他开始露出笑脸后,ChatGPT 直接语音回复“你看起来很开心,笑容灿烂,还有点激动。”英伟达首席 AI 科学家 Jim Fan 曾讲述过当前实时语音助手(如 Siri )的困境,即很难创造出沉浸式的使用体验。用户在和 AI 语音助手对话时要经历三个阶段:语音识别(ASR),将音频转换为文本,例如 Whisper;大语言模型(LLM)规划接下来的话语,将第一阶段的文本转换为新的文本; 语音合成(TTS),将新文本转换回音频,如 ElevenLabs 或 VALL-E 。如果简单地按顺序执行,就会产生巨大的延迟,特别是当每一步都需要等待几秒时,用户体验就会急剧下降,哪怕合成的音频听起来非常真实,也会让用户格外“出戏”,就更别提沉浸式的使用体验了。以往的 ChatGPT 语音模式也是如此,依赖三个独立模型工作,平均延迟时间为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4),语音助手也总会出现信息丢失,既不能判断语调、多个说话者或背景噪音,也不能输出笑声、唱歌或表达情感。而现在,GPT-4o 的音频输入响应时间最短为232毫秒,平均响应时间为320毫秒,与人类在对话中的反应时间极为相似。作为一个全新的单一模型,GPT-4o 能端到端地跨文本、视觉和音频,所有输入和输出都由同一个神经网络处理,直接一步到位,在用户输入后(文本、语音、图像、视频均可)直接生成音频回答。2GPT-4o一款免费的全能 GPT-4Mira Murati 在发布会上表示,GPT-4o 最棒的地方在于,它将 GPT-4 的智能提供给每个人,包括免费用户,将在未来几周内迭代式地在公司产品中推出。GPT-4o 中的字母 o 指 omni,在拉丁语词根中是“全”的意思,是涵盖了文字、语音、图片、视频的多模态模型,接受任何模态的组合作为输入,并能生成任何模态的组合输出。据 OpenAI 官网,GPT-4o 不仅在文本和代码处理的性能上与GPT-4 Turbo持平,而且在 API 调用上速度更快,价格更是降低了50%。文本能力测试。与GPT-4对比多语言考试能力。更重要的是,GPT-4o 的视觉理解能力在相关基准上取得了压倒性的胜利。在音频方面,GPT-4o 的语音识别(ASR)也比 OpenAI 的语音识别模型 Whisper 性能更佳(越低越好)。与 Meta、Google的语音转写模型相比,GPT-4o 同样领先(越高越好)。若落实到实际生活的使用中,GPT-4o 究竟能给普罗大众带来什么变化呢?OpenAI的官网展示了 GPT-4o 在海报创作、三维重建、字体设计、会议总结等等一系列充满可能性的应用。比如,在输入人物图片、海报元素以及想要的风格后,GPT-4o 就能给用户生成一张电影海报。或者,根据输入的诗歌文本,GPT-4o 能生成用手写体写着诗歌、画着画的单行本图片。在输入6张 OpenAI 的 logo图后,GPT-4o 能三维重建出其立体动图。甚至还可以让 GPT-4o 帮忙把 logo 印在杯垫上。“今天,有 1 亿人使用 ChatGPT 来创作、工作、学习,以前这些高级工具只对付费用户可用,但现在,有了 GPT-4o 的效率,我们可以将这些工具带给每个人。”Mira Murati 如是说道。3写在后面发布会之外,OpenAI 研究员 William Fedus 透露,此前在大模型竞技场参与A/B测试并碾压全场的模型“im-also-a-good-gpt2-chatbot”,就是本次登场的 GPT-4o 。截至2024年3月,OpenAI 在不到十年的运营时间内,已经完成了10轮的融资,累计筹集资金超过了140亿美元,其估值在2月的融资交易中已经飙升至800亿美元。伴随着狂飙的市值,OpenAI 的技术版图已经横跨了多个 AI 的关键领域,形成了一个全面而深入的产品矩阵。API 产品线提供了包括 GPT 模型、DALL·E 模型、Whisper 语音识别模型在内的多样化服务,并通过对话、量化、分析、微调等高级功能,为开发者提供技术支持;ChatGPT 为核心的产品线分别推出了个人版和企业版。在音乐生成领域,OpenAI 也有一定的技术积累,比如经过训练的深度神经网络 MuseNet,可预测并生成 MIDI 音乐文件中的后续音符,以及能生成带人声音乐的开源算法 Jukebox。再加上年初春节假期期间毫无征兆推出的 AI 视频生成大模型 Sora,更是让网友们感叹“现实,不存在了。”毋庸置疑,OpenAI 是大模型这场擂台赛中当之无愧的擂主,其技术与产品的迭代更是整个行业的风向标,不少大模型创业者都遇过“OpenAI 不做,没人投;OpenAI 一做,人人投”的融资奇观。但随着 Claude 3 和 Llama 3 的紧追与 GPT Store 上线2个月惨遭“滑铁卢”,不少 AI 行业从业者开始对 OpenAI 祛魅,认为“大模型护城河很浅,一年就赶上了。”现在看来,OpenAI 果然还是 OpenAI。 ... PC版: 手机版:

封面图片

Perplexity认为谷歌、Meta、马斯克和整个世界都在抄袭它

Perplexity认为谷歌、Meta、马斯克和整个世界都在抄袭它 此人便是Perplexity 的CEO Aravind Srinivas。4月12号他忽然在X平台发文,致敬自己公司的设计师,配图却是Meta AI的聊天界面。这是干啥?Aravind Srinivas紧接着用“引用源”加上Perplexity的界面截图解释:暗指Meta AI从醒目logo、标语、到加了表情包的灵感问题提示,整体页面设计全都“抄袭”了自家产品。对此评论区意见分成了两派,有的说小扎确实是能靠抄别人的东西拿奥斯卡奖。“就跟我抄高年级的期末作业一样。”“恭喜perplexity的设计师创造了新的行业模版。”另外一些网友却认为这有点牵强了,“那你要这么说,Perplexity形状是方的,meta是圆弧的…”有人也阴阳了回去:“你是说致敬ChatGPT的设计师吧?尽管Perplexity想出来把提示问题移到屏幕中间的好点子,还是恭喜你们了。”Aravind Srinivas那边似乎并不服气,凌晨四点又继续发文说:“抄袭好东西是正确的做法。我们都应该这样做。我们从Google那里借鉴了一些东西(知识卡、组件)。Google也从我们这儿借鉴了一些东西(后续问题、来源归属),OpenAI则从双方那里都借鉴了(突出链接、提供建议问题、快速查询重构)。Grok拿走了在Perplexity Discover上首次实现的新闻曝光功能。当被其他聪明的人采用时,恰恰证实了这些想法是好的。”配图是左边的Grok和右边的perplexity:好家伙,这回是Google、OpenAI、Grok都含沙射影地中枪了所有做聊天机器人的公司,不约而同抄都把Perplexity作为首要“抄袭”对象。结果被这位大哥一句话直接扎心:“我们都不知道还有Perplexity Discover这种东西存在。”“任何人都可以复制想法,然后加上你自己的特色。世界就是这样的,天性如此,我们当然也可以这样做。”网友让Srinivas别抱怨了。再说那什么Discover,本质上不就是 News Feed吗?那可不是Perplexity发明的,Google的搜索引擎里已经有这个功能十几年了。说起来,这也不是Aravind Srinivas第一次“指责”别人借鉴他的劳动成果了。今年一月时,贾扬清在X上发布了一个基于LeptonAI 云平台的对话式搜索引擎 demo,用500行Python代码轻松实现了类似Perplexity的效果。这个“Lepton Search”的后端是Mixtral-8x7b 模型,接入Bing 搜索 API,用户输入问题后就能返回答案、引用来源和相关问题。LeptonAI通过这个演示向大家展现了现在构建一个人工智能应用有多简单。换句话说,等于把Perplexity这个产品 “剥皮”了。它的前端设计的确看起来很fancy,但技术门槛其实很容易实现。这很快引来Srinivas的空降,转发贾扬清的推文并用一贯“委婉”的语气内涵道:“很高兴看到 Perplexity 成为未来融资动作的标杆,包括前 Meta 和阿里巴巴高管都来取经!Perplexity 的影响力已经不局限于产品本身,而是辐射到了整个科技生态和行业发展,令人振奋!”双方粉丝当时也各执一词。支持Perplexity的人认为Lepton就是抄袭,反对方觉得Lepton只是通过演示证明自己的能力,再说你perplexity也没有知识搜索专利,着实是反应过度了。贾扬清也没有示弱,表示自己搭建这个demo的灵感来自于和微软技术专家@youwu_5u喝咖啡时,关于 RAG 的效果究竟是源自搜索还是大模型的讨论,并以代码全部开源正面回击。所以从现在Srinivas又“出征” Meta和Grok,我们也看出来了,Perplexity还真是时刻处于战备状态,觉得全世界都在抄它!不过来来回回,好像指责的总是离不了“创意、界面设计、功能”上的抄袭,除此之外再无其它。有网友无情戳穿,“这是不是因为,Perplexity明白,自己除了UI也真没什么可抄的了”。甚至有人用任何AI聊天机器人都能生成类似的前端代码,再加上一些自己的想法,就能打磨出一款全新外壳。工作流程来说,Perplexity先获取用户输入,基于实时索引重构查询,再将回答问题的任务交给大语言模型,要求它阅读所有相关链接,从中提取出相关段落整合内容返回给用户。拆解下来,本质上还是靠Google和Bing们提供的检索API和GPT-4、 Claude 3等LLM。作为一家应用类公司和API接口供应商,Perplexity并没有自己的基础大模型,默认的两款免费自研模型都是从GPT微调而来,也就没有坚固不可逾越的技术护城河。搜索体验上的优化与创新才是Perplexity最初吸引用户的法宝,也自然成为他们握紧在手里,拼命捍卫的东西。Srinivas在X发布的记录Perplexity产品构思的第一块白板尽管对于平台类公司来说,这种彼此间的“借鉴”已经太司空见惯,打车软件Uber和Lyft,点餐应用DoorDash、Uber Eats和Postmates,国内的美团和饿了么等等例子就更多。但年轻的Perplexity在还没有形成稳定而广泛的客户群,功能也比较朴素、尚未全面开花,在现金流还需要考虑卖广告来加持的情况下,这种担心随时被替代的焦虑感就更严重。甚至需要抓住一切机会去“碰瓷”,即时这看起来难免有些应激。另一个不可否认的现实是,市场上形形色色的AI初创公司们之间存在一个清晰的估值断层。那些开发了基础大语言模型或具备核心技术的OpenAI、Anthropic、Cohere、Scale AI等总是处于领先的第一梯队,而Perplexity或Poe这样的平台类公司估值一旦达到某个位置就难以突破。Poe现在冲的是最快速地集成市场上最新的大模型,以及Poe bot创作者共享经济模式,加上Quora做后备,也算找到了自己的一条路。而对Perplexity这个目前仅靠对话式搜索引擎一个饭碗的公司来说,也必须承认,创意一旦公开就不再是秘密,人人都有权利去借鉴和优化。最后也说句公道话,时至今日,作为一名Perplexity订阅用户,它对于琐碎信息的整理能力和杜绝AI幻觉的准确性,依然是吸引我的付费的点。做的最快能证明团队足够敏锐和优秀,做到最好更是需要持续研习的智慧。Perplexity与其紧盯着对手们在网上抱怨,不如放下独创性的执念,巩固优势并继续沉下心洞察市场、打磨产品,用下一个耳目一新的功能证明自己。 ... PC版: 手机版:

封面图片

GPT-5红队测试邮件曝光,最早6月发布?数十亿美元超算26年启动

GPT-5红队测试邮件曝光,最早6月发布?数十亿美元超算26年启动 此前有传闻说,GPT-5将于今年6月发布。看起来,红队测试与模型发布的时间线十分吻合。有网友直接晒出了自己收到OpenAI邮件邀请的截图。据悉,GPT-5早已为大家准备好,只是发布风险太大了,所以还得往后延。三个月就能用了?不过还有人表示,先别急,这些人只是收到了红队邀请测试而已,并没有提及具体模型。有可能是他们填了如下的申请信息之后,才收到了邮件。安全测试对于新版GPT如此重要的原因,一方面是ChatGPT已经有了非常大的用户数,如果在安全性上出问题,OpenAI可能也会面对像谷歌一样的舆论压力。另一方面,To B业务是OpenAI的主要收入来源,定制化的ChatGPT能大大增强各个企业的业务能力和效率。有人表示,红队测试会持续90-120天。如果此次红队测试就是针对GPT-5的话,那么三个月内,我们应该就能用上它了!而在坊间,这一传闻让群众们沸腾了!他们早已按捺不住对于GPT-5的猜测和畅想。比如,GPT-5的上下文窗口会达到多少?目前,Gemini 1.5 Pro是1M,Claude 3是200K,GPT-4是128K,不知道GPT-5会突破怎样的惊人纪录。大家纷纷列出自己对于GPT-5的愿望清单比如10Mtoken的上下文窗口,闪电般的快速干扰,长期战略规划和推理,执行复杂开放式操作的能力,GUI / API导航,长期情境记忆,始终处于隐形状态的RAG,多模态等等。有人猜,或许GPT-5会和Claude 3一样,提供几种不同的型号。有人总结了目前关于GPT-5和红队的最新谣言和传闻,大致要点如下-OpenAI预计于今年夏天发布GPT-5,部分企业客户已收到增强功能的演示;-GPT-5‘实质性更好’,相比GPT-4进行了重大升级。它需要更多的训练数据;-GPT-5的潜在功能包括生成更逼真的文本、执行翻译和创意写作等复杂任务、处理视频输入以及改进推理;-Sam Altman表示,GPT-5仍在训练中,没有确切的发布日期,广泛的安全测试可能还需数月。然而,他确认OpenAI今年将‘发布一个惊人的新模型’。在3月29日,获得内部信息的Runway CEO兼AI投资人Siqi Chen就称,GPT-5已经在推理方面取得了意想不到的阶跃函数增益。它甚至可以靠自己就独立地弄清楚,如何让ChatGPT不用每隔一天就登录一次。Ilya看到的东西,也许就是这个?这是不是就意味着,在OpenAI内部,已经实现了AGI?!如果是真的,这也太惊人了。‘我不相信,只有AGI才能实现这样的能力’。总之,网友们纷称,根据泄露的待办清单显示,OpenAI的下一项任务,就是发布GPT-5了!大家纷纷呼唤Altman,是时间放出GPT-5了,别太吹毛求疵了,我们要求不高。红队测试上阵,确保GPT-5安全早在23年9月,OpenAI就曾官宣招募一批红队测试人员(Red Teaming Network),邀请不同领域专家评估模型。不同领域专家组成的红队去寻找系统漏洞,成为确保下一代模型GPT-5安全的关键。那么,红队测试人员一般都需要做哪些工作?AI红队攻击的类型主要包括,提示攻击、数据中毒、后门攻击、对抗性示例、数据提取等等。‘提示攻击’是指在控制LLM的提示中注入恶意指令,从而导致大模型执行非预期的操作。比如,今年早些时候,一名大学生利用提示获取了一家大公司的机密信息,包括开发的AI项目的代码名称,以及一些本不应该暴露的元数据。而‘提示攻击’最大的挑战是,找到威胁行为者尚未发现、利用的新提示或提示集。红队需要测试的另一种主要攻击是‘数据中毒’。在数据中毒的情况下,威胁者会试图篡改LLM接受训练的数据,从而产生新的偏差、漏洞供他人攻击以及破坏数据的后门。‘数据中毒’会对LLM提供的结果产生严重影响,因为当LLM在中毒数据上接受训练时,它们会根据这些信息学习关联模式。比如,关于某个品牌、政治人物的误导性,或不准确信息,进而左右人们的决策。还有一种情况是,受到污染的数据训练后,模型提供了关于如何治疗常规疾病或病痛的不准确医疗信息,进而导致更严重的后果。因此,红队人员需要模拟一系列数据中毒攻击,以发现LLM训练和部署流程中的任何漏洞。除此以外,还有多元的攻击方式,邀请专家也是OpenAI确保GPT-5能够完成安全测试。GPT-5,真的不远了正如网友所言,红队测试开启,意味着GPT-5真的不远了。前段时间,Altman在博客采访中曾提到,‘我们今年会发布一款令人惊艳的新模型,但不知道会叫什么名字’。尽管如此,全网都一致地将OpenAI发布的下一代模型称为GPT-5,并有传言称代号为Arrakis的项目,就是GPT-5的原型。根据FeltSteam的预测,这个Arrakis的多模态模型,性能远超GPT-4,非常接近AGI。另外,模型参数据称有125万亿,大约是GPT-4的100倍,并在2022年10月完成训练。网友还总结了以往GPT系列模型发布时间表:GPT-1在2018年6月诞生,GPT-2在2019年2月,GPT-3在2020年6月,GPT-3.5在2022年12月,GPT-4仅在三个月后于2023年3月发布。关于GPT-5的发布时间,可能在今年夏天就问世。最近,网上流传的一张图上,显示了Y Combinator推出了GPT-5早期准入候补名单。网友发起疑问,我们都清楚奥特曼和YC的关系不同寻常。这是否意味着他们可以在模型或信息公开之前获得访问权限?而上月也有爆料称,已有用户对GPT-5上手体验过了,性能惊人。外媒透露,一些企业用户已经体验到了最新版的ChatGPT。‘它真的很棒,有了质的飞跃,’一位最近见识到GPT-5效果的CEO表示。OpenAI展示了,新模型是如何根据这位CEO公司的特殊需求和数据进行工作的。他还提到,OpenAI还暗示模型还有其他一些未公开的功能,包括调用OpenAI正在开发的AI智能体来自主完成任务的能力。GPT-5,一定是正确路线吗?不过,在万众瞩目期待GPT-5面世的呼声中,也有一些不一样的声音。比如有人觉得,GPT-5无法驾驶你的汽车,GPT-5无法解决核聚变问题,GPT-5无法治愈癌症……另外,我们对模型的追求,非得是更智能吗?更便宜、更快、更不费水电的模型,可能比单独的GPT-5更有革命性意义。有人同意这个观点,表示现在实在有太多人(尤其是开发者)过于痴迷GPT-5了。其实完全没必要这么狂热,使用当前的模型,就可以已经完成和构建太多东西。只需正确选择利基市场,构建满足该利基市场需求的AI产品,让用户可以直观地访问AI,专注于更好的UI/UX即可。公式很简单。我们真的有必要一味追求力大砖飞吗?很多人表示赞同,表示甚至用GPT-3.5就可以造出非常有价值的东西。问题不在于模型多先进,而在于怎样满足利基市场的需求。智算中心,先从小的建起而3月底曝出的用于训练GPT-6的千亿美元‘星际之门’超算,今天又被外媒挖出了更多新的内容。上周五,外媒The Information曝出了一个惊人消息:OpenAI和微软正在制定一项雄心勃勃的数据中心项目,预计耗资1000亿美元。此消息一曝出,AI和云计算行业人士的提问,像雪片一样袭来数据中心具体位于美国的哪个地区?为此,The Information又挖出了更多料,具体细节如下。首先,之前的消息说是星际之门最早在2028年启动,而最新消息显示,最快在2026年,就会在威斯康星州启动一个功率较小的数据中心。它的价值当然不到千亿美元,但估计仍会耗资数十亿。其他细节如下用英伟达芯片,但不用英伟达网线首先,这次数据中心的多数服务器机架,当然主要还是用的英伟达芯片。不过有趣的是,将各个AI芯片服务器连接起来的网线,则并不会采用英伟达的产品。据悉,OpenAI已经告知微软,自己不想再使用英伟达的InfiniBand网络设备。相反,它可能会使用基于以太网的电缆... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人