Cheetah 是一款基于人工智能的 macOS 应用程序,旨在通过提供实时、谨慎的指导和实时编码平台集成,在远程软件工程面试期

Cheetah 是一款基于人工智能的 macOS 应用程序,旨在通过提供实时、谨慎的指导和实时编码平台集成,在远程软件工程面试期间协助用户,使用 Whisper 和 GPT-4 使用 Cheetah可以提高面试表现并增加获得 30 万美元软件工程工作的机会,而无需花费周末时间来应对 leetcode 挑战和记住你永远不会使用的算法。 工作原理: Cheetah 利用 Whisper 进行实时音频转录,并利用 GPT-4 生成提示和解决方案。你需要拥有自己的 OpenAI API 密钥才能使用该应用程序。如果无法访问 GPT-4,则可以使用 gpt-3.5-turbo 作为替代方案。 Whisper 使用 Georgi Gerganov 的 whisper.cpp 在你的系统上本地运行。需要最新的 M1 或 M2 Mac 才能获得最佳性能。 | #工具

相关推荐

封面图片

:一款基于人工智能的 macOS 应用程序,旨在通过提供实时、谨慎的指导和实时编码平台集成,在远程软件工程面试期间协助用户。

:一款基于人工智能的 macOS 应用程序,旨在通过提供实时、谨慎的指导和实时编码平台集成,在远程软件工程面试期间协助用户。 该程序可以提高面试表现并增加获得 30 万美元 SWE 工作的机会,而无需花费周末时间来应对 leetcode 挑战和记住永远不会使用的算法。 Cheetah 利用 Whisper 进行实时音频转录,并利用 GPT-4 生成提示和解决方案。你得有一个OpenAI API密钥才能使用该程序。如果无法访问 GPT-4,则可以使用 gpt-3.5-turbo 作为替代方案。 Whisper 使用 Georgi Gerganov 的whisper.cpp在你的系统上本地运行。需要最新的 M1 或 M2 Mac 才能获得最佳性能。 简单来说,这个开源项目是专门用来面试作弊的,Whisper用来识别语音成文字,ChatGPT根据识别出来的文字为你提供参考答案。

封面图片

是一款可投入生产的语言模型 (LLM) 应用程序/代理 SDK,旨在简化项目中的 AI 集成。它是一种易于使用、普遍兼容且可立即

是一款可投入生产的语言模型 (LLM) 应用程序/代理 SDK,旨在简化项目中的 AI 集成。它是一种易于使用、普遍兼容且可立即投入生产的解决方案,可为开发人员带来人工智能的强大功能,无论他们首选的编程语言是什么。 主要特征 易于使用:Flappy 的设计与 CRUD 应用程序开发一样用户友好,最大限度地缩短了刚接触 AI 的开发人员的学习曲线。 生产就绪:除了研究之外,Flappy 是一个强大的 SDK,可以平衡成本效率和沙箱安全性,为商业环境提供稳定的平台。 与语言无关:Flappy 可以与任何编程语言无缝集成,除非您的应用程序明确要求,否则无需使用 Python。

封面图片

:基于开源的 AI 软件工程师,可以理解人类的高级指令,并根据这些指令,分解成步骤,进行相关信息的研究,并编写代码实现目标。

:基于开源的 AI 软件工程师,可以理解人类的高级指令,并根据这些指令,分解成步骤,进行相关信息的研究,并编写代码实现目标。 Devika的系统架构由以下关键组件组成: 用户界面:基于网络的聊天界面,用于与 Devika 交互、查看项目文件以及监控代理的状态。 Agent Core:编排AI规划、推理和执行过程的核心组件。它与各种子代理和模块通信以完成任务。 大型语言模型:Devika 利用Claude、GPT-4和Ollama 的本地 LLM等最先进的语言模型进行自然语言理解、生成和推理。 规划和推理引擎:负责将高层目标分解为可操作的步骤,并根据当前环境做出决策。 研究模块:利用关键字提取和网页浏览功能来收集当前任务的相关信息。 代码编写模块:根据计划、研究结果和用户需求生成代码。支持多种编程语言。 浏览器交互模块:使 Devika 能够根据需要导航网站、提取信息并与 Web 元素交互。 知识库:存储和检索项目特定信息、代码片段和学到的知识,以便高效访问。 数据库:保存项目数据、代理状态和配置设置。

封面图片

下一代Windows系统曝光:基于GPT-4V Agent跨应用调度 代号UFO

下一代Windows系统曝光:基于GPT-4V Agent跨应用调度 代号UFO 还有像利用多个来源文本,比如word文档、图像文本内容,撰写电子邮件。网友表示:这才是Windows级别应有的创新能力第一个Windows Agent来了这样一个智能体叫做UFO,全名“UI-Focused”,是一个专为Windows OS(操作系统)交互设计、面向用户界面(UI)的智能体框架,可以在单个或者多个应用程序中操作,由MSRA、微软AI与应用研究团队等共同打造。用户就可以通过自然语言指令,来操作App的用户界面。据介绍,UFO是第一个专为Windows OS环境中的任务完成量身定制的UI Agent。就拿删除PPT上的所有注释为例。传统方式需要一页一页手动删除注释。如果PPT巨长无比,这个过程就会又久又无聊,让人瞬间暴躁。但UFO得到指令后,简化了整个过程。它先是提议用“删除所有演示笔记”功能,这个功能因为按钮位置藏得很深,经常被用户忽视。而后,UFO导航到“File”选项,对后台视图进行访问;然后,再平滑地切换到“info”菜单,单击“检查问题”按钮,并选择“检查文档”,开始检查文档中所有包含的注释。紧接着,UFO识别到菜单地步的“删除所有演示笔记”,向下滚动定位到其位置,启动单击功能。考虑到误删的可能性,UFO这里有一道保护功能,需要用户再次确定是否真的要删除所有注释。用户一旦确认,所有笔记就“”的一下都没有了~如PowerPoint这般,文章中对其它几个场景进行了图文并茂的展示。比如读一篇PDF:设计PPT格式:下载Docker拓展:发条推文:搜索总结:读篇paper:以及怎么利用UFO在Word文档里提取文本、描述图像、撰写然后发送电子邮件等。研究团队在9个常用的Windows应用程序上对UFO进行了测试,包括Outlook、Photos、PPT、Word等,涵盖了Windows用户的高频使用场景,能够测试工作、交流、编码、阅读、网页浏览等目的。对于每个应用程序,团队设计了5个不同的请求,共45个;另外还设计了5个设计跨多个交互应用程序的请求。也就是说,共产生了50个请求,每个应用程序至少有一个请求链接到另一个后续请求,提供全面评估UFO的互动模式。在评估指标方面,则从成功度、步骤、完成率和保障率这几个角度来评估UFO。为了全面评估UFO的性能,团队开发了名为WindowsBench的测试基准。考虑到没有现成的Windows Agent,团队选择GPT-3.5和GPT-4作为基座模型,并且指示它们提供一步一步的指导来完成用户请求。值得注意的是,UFO在WindowsBench上成功率达到了86%,成倍超过了GPT-4因此UFO可以被定位为一个高效的Agent。而UFO的完成率也是最好的,这表明它有能力采取更精确的动作;此外,UFO完成任务的步骤也是最少的,安全度也是最高的。最后,9个场景从4个角度在WindowsBench的详细得分如下:三个模块组成既然如此,这样一个操作系统级别的Agent,究竟是如何实现的呢?首先,它理解用户的自然语言要求,然后将其分解为一系列子任务。然后观察用户界面,并对其控制元素进行操作,以实现总体目标。既然如此,又是如何实现的呢?架构上看,UFO是个双Agent框架,主要有三个模块:应用智能体(AppAgent),选择一个应用程序满足用户请求。行动智能体(ActAgent),负责在所选应用中反复执行任务。交互控制,无需人工干预,全自动执行。在收到用户请求后,AppAgent会对需求进行分析。除此之外,还有这些信息作为输入:桌面截图、App信息、记忆以及示例。其中,UFO为AppAgent提供了完整的桌面截图和可用应用程序列表以供参考。然后从当前激活的应用程序中选择一个合适的应用程序,并制定一个全局实现计划,将其传递给ActAgent。一旦找到合适的应用程序,App就会出现在桌面上。随后ActAgent启动操作。在每个操作选择之前,UFO都会捕获当前应用程序用户界面窗口的屏幕截图,并标注所有可用控件。此外,UFO还记录了每个控件的相关信息,供 ActAgent观察。ActAgent的任务是选择要操作的控件,然后通过控件交互模块选择要在所选控件上执行的特定操作。这一决定是基于 ActAgent 的观察结果、先前计划和操作记忆做出的。这个递归过程一直持续到用户请求在所选应用程序中成功完成为止。至此,用户请求的一个阶段结束。如果需要跨越多个应用程序,那么在ActAgent 完成当前任务之后,ActAgent 将把任务委托给 AppAgent,以便切换到不同的应用程序,从而启动请求的第二阶段。用户可以选择提出新的请求,促使 UFO 通过重复上述过程来处理新任务。研究团队依据日常鼠标操作,还开发了自定义操作,比如单击、选择文本、滚动等,以此来完成对于控件的操作。主要有这些控制类型。微软全球资深副总裁、MSRA副院长领衔最后介绍一下UFO的研究团队,其中大多数都为华人。通讯作者Chaoyun Zhang,是微软DKI(Data、Knowledge、Intelligence,数据/知识/情报)*小组的高级研究员。他于2020年,在爱丁堡大学获得硕士和博士学位,研究兴趣包括时间序列建模、时空数据挖掘、因果推理以及云服务和 AIOps的可解释机器学习。Chaoyun Zhang还是华中科技大学校友,出国前在华中科技大学电子信息与通信学院取得学士学位。作者Liqun Li,现为微软DKI组首席研究员。他先毕业于清华大学计算机科学与技术系,取得学士学位;而后又在2012年获得中国科学院软件研究所博士学位。期间,Liqun Li曾作为访问学者前往密歇根州立大学。作者Saravan Rajmohan,Miceosoft 365的AI及应用研究的合作伙伴总监。他领导应用研究团队与Microsoft的各个研究小组进行深入协作,将算法研究与AI/ML技术和硬件创新相结合作者张冬梅,MSRA(微软亚洲研究院)常务副院长,微软杰出首席科学家。她从2004年起加入MSRA,从事和领导DKI领域的研究工作,近几年,团队将研究扩大到商业智能领域。作者张祺,微软全球资深副总裁。此前,张祺曾任微软(亚洲)互联网工程院常务副院长,兼任微软移动联新互联网服务有限公司董事长,负责微软互联网业务及人工智能平台在亚洲的团队。同时,他也是微软中国首位“全球杰出工程师”。最后,简单介绍一下多位作者的工作单位:MSRA的DKI组。DKI是Data、Knowledge、Intelligence的简写。该小组致力于AI、数据分析、数据交互、数据可视化的研究,探索全新的数据分析、展示、交互技术,让数据和数据中的发现故事被高效地理解、广泛地传播。团队与微软产品如Excel,PowerPoint等深度合作,常年在各个领域的顶会和期刊上发表论文。 ... PC版: 手机版:

封面图片

苹果公司起诉泄露iPhone日志应用程序的前员工

苹果公司起诉泄露iPhone日志应用程序的前员工 奥德于 2016 年大学毕业后不久加入苹果公司,担任 iOS 软件工程师。申诉书称,他的工作是优化电池性能,因此"掌握了苹果公司数十个最敏感项目的信息"。诉讼称,在五年时间里,奥德使用苹果公司配发的工作 iPhone 泄露了有关苹果公司半打以上产品和政策的信息,包括当时尚未发布的 Journal 应用和 Vision Pro 耳机、产品开发政策、合规策略、员工人数等。例如,2023 年 4 月,苹果公司称奥德在一次电话中向《华尔街日报》的一名记者泄露了 iPhone 日志应用程序的最终功能列表。同月,《华尔街日报》的亚伦-蒂利(Aaron Tilley)发表了一篇题为"苹果公司计划推出 iPhone 日记应用,扩大健康计划"的报道。据说,奥德使用加密信息应用程序 Signal 向同一记者发送了"1400 多条"信息,奥德称该记者为"Homeboy"。他还被指控向The Information 网站的另一名记者发送了"超过 10000 条短信",据称他还"穿越整个大陆"去见她。其他泄露的信息涉及 Vision Pro 和其他硬件:另一个例子是,奥德于 2020 年 10 月在苹果公司发放的工作 iPhone 上截图显示,他向一名非苹果公司员工披露了苹果公司在空间计算领域的产品开发情况。尽管苹果公司的开发工作是保密的,不为公众所知,但奥德还是披露了这一信息。在随后的几个月中,他披露了更多苹果公司的机密信息,包括有关未公布产品的信息和硬件信息。苹果公司认为奥德的行为是"广泛和有目的的",据称奥德承认他泄露信息是为了"扼杀"他有异议的产品和功能。该公司称,他的不法披露导致至少有五篇新闻报道讨论了该公司的机密和专有信息。苹果公司称,这些公开披露妨碍了其最新产品"带来惊喜和愉悦"的能力。苹果公司说,它在 2023 年底得知奥德的不当披露行为,并于同年 12 月因奥德涉嫌不当行为将其解雇。在 2023 年 11 月的一次采访中,苹果公司称奥德否认向任何人泄露机密信息。然而,在那次采访中,苹果公司声称奥德去了洗手间,并删除了他工作 iPhone 上的"大量证据",包括他用来与"Homeboy"通信的 Signal 应用程序。在 2023 年 12 月的一次后续访谈中,苹果公司称奥德承认了他的一些错误披露,但声称他只提供了"仅限于他未能销毁的信息的狭义承认"。苹果公司曾试图庭外解决此事,但它表示奥德并不合作:苹果公司不会轻易对其前雇员提起诉讼。然而,由于奥德故意销毁证据,苹果公司无法知道他向谁披露了什么以及何时披露的。在提起诉讼之前,苹果公司与奥德先生进行了接触,希望能够解决此事。一个多月前,苹果公司联系了奥德先生,以了解他泄密的全部内容,并要求他全力配合,在不提起诉讼的情况下解决此事。但奥德先生并未承诺合作。据称,奥德还拒绝剥离作为其补偿方案一部分而获得的限制性苹果股票。苹果公司表示,奥德对公司构成"持续威胁",因为他"长期以来在未经授权的情况下故意向第三方披露大量信息,与其他科技公司的个人和记者保持关系,并试图掩盖自己的不当行为"。苹果正在寻求补偿性和惩罚性赔偿,赔偿金额将在庭审中确定,苹果还在寻求其他法律补救措施。申诉全文可在此 PDF 文件中查看。 ... PC版: 手机版:

封面图片

GPT-4o:OpenAI变慢了

GPT-4o:OpenAI变慢了 虽然Sam Altman在OpenAI线上直播前,已经预告不会发布GPT-5(或GPT-4.5),但外界对OpenAI的期待早已是九牛拉不转了。北京时间5月14日凌晨,OpenAI公布了最新的GPT-4o,o代表Omnimodel(全能模型)。20多分钟的演示直播,展示了远超当前所有语音助手的AI交互体验,与外媒此前透露的消息基本重合。虽然GPT-4o的演示效果仍可称得上“炸裂”,但业内人士普遍认为很难配得上Altman预告中的“魔法”二字。很多人认为,这些功能性的产品,都是“偏离OpenAI使命”的。OpenAI的PR团队似乎也预料到了这种舆论走向。发布会现场以及会后Altman发布的博客中对此解释道:“我们使命的一个关键部分是将非常强大的人工智能工具免费(或以优惠的价格)提供给人们。我非常自豪我们在 ChatGPT 中免费提供了世界上最好的模型,没有广告或类似的东西。当我们创办 OpenAI 时,我们最初的想法是我们要创造人工智能并利用它为世界创造各种利益。相反,现在看起来我们将创造人工智能,然后其他人将使用它来创造各种令人惊奇的事物,让我们所有人都受益。”遥遥领先的GPT-4o“如果我们必须等待 5 秒钟才能得到‘每个’回复,用户体验就会一落千丈。即使合成音频本身听起来很真实,它也会破坏沉浸感,让人感觉毫无生气。”在OpenAI发布会前夕,英伟达Embodied AI负责人Jim Fan在X上预测了OpenAI会发布的语音助手,并提出:几乎所有的语音AI都会经历三个阶段:1. 语音识别或“ASR”:音频->文本1,例如Whisper;2. 计划下一步要说什么的 LLM:text1 -> text2;3. 语音合成或“TTS”:text2 ->音频,例如ElevenLabs或VALL-E。经历 3 个阶段会导致巨大的延迟。GPT-4o在响应速度方面,几乎解决了延迟问题。GPT-4o的响应音频输入的最短时长为232毫秒,平均响应时长320毫秒,几乎与人类相似。没有使用GPT-4o的ChatGPT语音对话功能平均延迟为2.8秒 (GPT-3.5) 和5.4秒(GPT-4)。您目前设备暂不支持播放GPT-4o演示直播GPT-4o不仅通过缩短延迟极大地提升了体验,还在GPT-4的基础上做了很多升级包括:极佳的多模态交互能力,包括语音、视频,以及屏幕共享。可以实时识别和理解人类的表情,文字,以及数学公式。交互语音感情丰富,可以变换语音语调、风格,还可以模仿,甚至“即兴”唱歌。超低延时,且可以在对话中实时打断AI,增加信息或开启新话题。所有ChatGPT用户均可免费使用(有使用上限)。速度是GPT-4 Turbo的2倍,API成本低50%,速率限制高5倍。多模态能力进步了吗?“突破模型的局限性才能有创新。”有业内专家认为,GPT-4o的多模态能力只是“看起来”很好,实际上OpenAI并未展示对于视觉多模态来说真正算是“突破”的功能。这里我们按大模型行业的习惯,对比一下隔壁厂Anthropic的Claude 3。Claude 3的技术文档中提到,“虽然Claude的图像理解能力是尖端的,但需要注意一些局限性”。其中包括:人物识别:Claude不能用于在图像中识别(即姓名)人物,并将拒绝这样做。准确性:Claude在解释200像素以下的低质量、旋转或非常小的图像时,可能会产生幻觉或犯错误。空间推理:克劳德的空间推理能力有限。它可能很难完成需要精确定位或布局的任务,例如读取模拟钟面或描述棋子的确切位置。计数:Claude可以给出图像中物体的近似计数,但可能并不总是精确准确的,特别是对于大量小物体。AI生成的图像:Claude不知道图像是否是人工智能生成的,如果被问到,可能不正确。不要依赖它来检测假图像或合成图像。不适当的内容:Claude不会处理违反我们可接受使用政策的不适当或露骨的图像。医疗保健应用:虽然Claude可以分析一般医学图像,但它不是为解释CT或MRI等复杂诊断扫描而设计的。Claude的输出不应被视为专业医疗建议或诊断的替代品。在GPT-4o网站发布的案例中,有一些与“空间推理”有相关的能力,但仍难算得上突破。此外,从发布会现场演示中GPT-4o输出的内容很容易看出,其模型能力与GPT-4相差并不大。GPT-4o跑分虽然模型可以在对话中增加语气,甚至即兴演唱,但对话内容还是与GPT-4一样缺乏细节和创造力。此外,发布会后OpenAI官网还发布了GPT-4o的一系列应用案例探索。包括:照片转漫画风格;会议记录;图片合成;基于图片的3D内容生成;手写体、草稿生成;风格化的海报,以及连环画生成;艺术字体生成等。而这些能力中,照片转漫画风格、会议记录等,也都是一些看起来很普通的文生图或者是AI大模型功能。能挑战现有的商业模式吗?“我注册5个免费的ChatGPT账号,是不是就不需要每月花20美元订阅ChatGPT Plus呢?”OpenAI公布的GPT-4o使用政策是ChatGPT Plus用户比限制普通用户的流量限制高5倍。GPT-4o对所有人免费,首先挑战的似乎是OpenAI自己的商业模型。第三方市场分析平台Sensor Tower公布的数据显示,过去一个月中,ChatGPT在全球App Store中的下载量为700万,订阅收入1200万美元;全球Google Play市场的下载量为9000万,订阅收入300万美元。目前,ChatGPT Plus在两个应用商店的订阅价格均为19.99美元。由订阅数据推断,ChatGPT Plus过去一个月中,通过应用商店付费的订阅用户数为75万。虽然ChatGPT Plus还有大量的直接付费用户,但从手机端的收入来看,每年进项才不到2亿美元,再翻几倍也很难撑起OpenAI近千亿的估值。由此来看,OpenAI在个人用户充值方面,其实并不需要考虑太多。更何况GPT-4o主打体验好,如果你跟AI聊着聊着就断了,还要换账号重新聊,那你会不会愤然充值呢?“最初的 ChatGPT 暗示了语言界面的可能性;这个新事物给人的感觉有本质上的不同。它快速、智能、有趣、自然且有帮助。”Sam Altman的最新博客中提到了“语言界面的可能性”,这也正是GPT-4o接下来可能要做的:挑战所有GUI(图形交互界面),以及想要在LUI(语音交互界面)上发力的人。结合近期外媒透出的OpenAI与苹果合作的消息,可以猜测GPT-4o可能很快就要对所有AI PC、AI手机的厂商“抛橄榄枝”或是“掀桌子”。不管是哪种语音助手或是AI大模型,对于AIPC、AI手机来说核心价值都是优化体验,而GPT-4o一下把体验优化到了极致。GPT-4o很可能会卷到所有已知的App,甚至是SaaS行业。过去一年多时间里,市场上所有已经开发和正在开发的AI Agent都会面临威胁。某位资源聚合类app产品经理曾对虎嗅表示,“我的操作流程就是产品的核心,如果操作流程被你ChatGPT优化了,那相当于我的App没价值了。”试想,如果订外卖的App,UI变成了一句话“给我订餐”,那打开美团还是打开饿了么,对于用户来说就一样了。厂商的下一步只能是压缩供应链、生态的利润空间,甚至是恶性价格战。从目前的形式来看,其他厂商要在模型能力上打败OpenAI恐怕还需要一段时间。产品要对标OpenAI,可能只有通过做更“便宜”的模型了。对于国内产业的影响“最近忙死了,没顾上关注他们。”一位工业AI大模型创始人告诉虎嗅,近期一直在忙着沟通战略合作、产品发布、客户交流资本交流,完全没有时间关注OpenAI这种发布。OpenAI发布前,虎嗅也询问了多位来自各行各业的国内AI从业者,他们对OpenAI最新发布的预测与看法都很一致:非常期待,但与我无关。一位从业者表示,从国内目前的进度来看,要在短期内追上OpenAI不太现实。所以关心OpenAI发布了什么,最多也就是看看最新的技术方向。目前国内公司在AI大模型研发方面,普遍比较关注工程化和垂直模型,这些比较务实、容易变现的方向。在工程方面,近期蹿红的Deepseek就正在国内大模型行业中掀起... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人