Devin第一手使用体验:完成度很高 但要替代程序员还很远

Devin第一手使用体验:完成度很高 但要替代程序员还很远 在演示中,Devin 几乎已经可以独立完成很多人类程序员需要大量时间才能完成的工作,效果一点不比普通程序员差。但是,产品能力的边界在哪里,实际体验和演示时候有差距,还得看上手实测之后的效果。这位斯坦福的小哥在 Devin 发布的第一时间就联系了团队,获得了第一手体验的资格。他让 Devin 帮它做了几个难度不一的项目,录制了一个视频,在推上写下了自己的使用感受。首先是让 Devin 做一个用 API 获取股票价格的软件:下一个任务是让 Devin 做一个可以让普通用户直接与大模型下棋的网站。需求复杂的编程任务还搞不定用户下一步棋,系统会翻译成提示词给 GPT-4,然后 GPT-4 进行回复,然后回复再被转换为反映在棋盘上的具体某一步棋。按照小哥的要求,系统需要由相当多的部件组成。他个人最为关注在这个系统的开发过程中,Devin 能不能做到以下几点:知道如何准确地使用 GPT-4 API,因为大多数 LLM 实际上并不知道如何使用,并且 API 的调用存在版本冲突。正确地请求 API 密钥并安全地处理。处理包错误。了解如何提示 LLM 下棋并能精确地返回提示词。令小哥想不到的是,Devin 不仅要求小哥提供 API 密钥,而且在试用过程中还可以正确地保护它。不过,Devin 目前反馈速度还相当慢,小哥推测是因为后台发生的代理提示远远比要看到的要多得多。从小哥发起请求开始,它花了大约 19 分钟才询问 API 密钥。小哥猜测,如果延迟是由于他们在后台运行大量提示造成的,那么延迟应该会随着时间的推移而加快。因为他们以后可以访问专用 GPU 或与 Claude 或 OpenAI 合作降低延迟(估计是 GPT-4 或 Claude Opus)。Devin 首先制定了一个规划。在右上角,用户可以切换“跟随”状态,这样用户可以将屏幕自动移动到#Devin 当前激活了的选项卡上。小哥没有打开跟随状态,因为他希望随时观察各个位置的变化。规划器会随时保持针对当前任务的更新状态。Shell 看起来和普通的 Shell 没什么区别,但用起来真的很有趣!Devin 在工作过程中会打开多个 shell,在 shell 的底部,用户可以拖动蓝色滑块来往前查看 Devin 编写的命令。下图是它当在尝试调试棋盘未渲染的内容。与此同时,小哥要求它再执行一个数据分析的任务。小哥让 Devin 去“创建一张过去五十年南极洲海水温度的地图”。对于这个请求,小哥觉得有两个方面可能很具有挑战性:处理空间数据绘图 / 可视化。知道在哪里下载数据,而且了解如何使用数据源,因为地理空间数据处理起来很麻烦。Devin 能像一个优秀的程序员一样聪明地阅读自述文件,并且还执行一些基本的 EDA 来理解数据结构。数据居然是一个 ascii 文件,小哥觉得有点奇怪。小哥单击对话“调试 Python 脚本...”中的其中一个步骤时,它会打开与该步骤相关的代码库部分,因此可以跟踪某一个具体时间点发生的情况。小哥比较担心的是,如果不是必须要询问 API 密钥,Devin 似乎会不停地编码停不下来。所以他试了试是否可以更改他之前提出的请求或指定其他内容,中断 Devin 的编码过程。因为对于大部分用户在编码时,都有可能会改变主意或者有一些新的东西想要添加进系统之中,能够处理这种情况是很有必要的。这是编码过程中的截图:浏览器界面的呈现方式如下:然后小哥又提了针对数据可视化的任务又提了一个要求,让系统将高温设置为蓝色,低温设置为红色。为了不中断编码的过程,似乎 Devin 又开启了一个工作线程来记录小哥的临时要求。最终,Devin 将 App 部署到了 Netlify 上了,一个应用已经上线了。网页的链接: Bug 的。因为小哥要求的是南极洲的温度记录,似乎对于 Devin 来说它理解起来有些障碍。于是小哥把要求显示的位置改为了北美。总结小哥没有给出 Devin 修改了 Bug 的结果,只是初步总结了用 Devin 开发的第一个网站的使用体验。先说优点:Devin 产品化做得很好,他给人的使用体验是一个完整的产品而不是只是一个简单的对话框。AI 是系统最关键的部分,但支撑 AI 功能的产品化的结构是 Devin 的亮点。Devin 能够完成自动部署,API 密钥保护,随时修改和添加需求等等非常好的各种功能。产品的完成度已经非常高了,远远超过了一般的演示 Demo。再说缺点:Devin 的反应还很慢,当然小哥也说,因为他用的是 1M 的 Starlink 来上网,所以反应慢很有可能是他自己的原因。其次就是还不能允许用户直接自己编辑代码,而且也没法协作完成。当然,最初那个下棋的应用,难住了 Devin,最终没有完成部署。而那个数据可视化的任务,似乎也有些 Bug。最终,小哥用 Devin 做了一个 chrome 插件,可以帮助用户把 Github repo 转化成 Claude prompt。插件下载地址: Devin 的可视化项目的结果只做出了一个有 Bug 的网页。看样子 Devin 本质上还只是一个可以上网的大模型,现在要让他解决实际问题还有难度。参考资料: ... PC版: 手机版:

相关推荐

封面图片

AI程序员Devin卧底工作群修bug 还和CTO聊技术

AI程序员Devin卧底工作群修bug 还和CTO聊技术 事情发生在办公软件Slack,截图中的akshat是AI基础设施创业公司Modal Labs的CTO Akshat Bubna。Modal Labs也是Devin开发商Cognition的首批客户之一。此时Devin正披着他的创造者之一、IOI金牌得主Steven Hao的马甲。对话的开始,AI程序员Devin正在询问有关Modal Lab平台的密钥的生命周期问题,特别是密钥更新后传播到正在运行的应用程序所需的时间。Devin表示自己已经查阅了文档,包括密钥和环境变量指南、CLI命令参考、API参考以及容器生命周期钩子和参数,但依旧没有找到关于密钥传播时间的明确信息。Devin询问了更新的密钥通常需要多长时间才能被运行中的应用程序使用,因为这对于他们的运营至关重要,了解这一点将有助于管理他们的部署流程。人类CTO解释说,当密钥更新时,他们不会使已经运行的Modal容器失效,但是新启动的容器将会读取更新后的值。Devin对此表示感谢,并决定暂时采用手动方法来管理Modal中的密钥,即在需要时调用modal deploy命令来触发相关应用程序容器的重启。看完整个过程后,同样是AI创业者的Raunak Chowdhuri评价到:发现问题、创建工单、调整代码,最好的人类开发者就是这么工作的。Devin更多实测结果拿到Devin早期测试资格的人和公司并不多,不过还是陆陆续续有人晒出实测结果。热衷AI的沃顿商学院教授Ethan Molick试过后,认为其新颖的实时交互方式是最值得关注的。您可以随时与它“交谈”,就像与人交谈一样,它会在后台不断地执行和调试您的想法。在测试中,Ethan Mollick要求Devin开发一个解释“创业公司融资中的股权稀释”的网站。不过他透露,AI还无法在没有任何帮助的情况下,自主且无差错地完成这项工作。要想把一个重大项目交给人工智能来完成,还有很长的路要走,但这仍然是一个令人着迷的开始。另一位晒出测试过程的创业者Mckay Wrigley更激动一些。在他晒出的27分钟测试中,只发了一个GitHub连接,让Devin部署来自开源项目的代码。Devin自主把任务拆解成一系列子步骤,并一步步开始执行。执行过程中,Devin在安装Supabase数据库时遇到了障碍,自己打开了对应的Github仓库开始查阅文档……从后续终端反馈中可以看出,Devin查到了运行Supabase所需的各种端口和密匙都应该填什么。(装过的都知道,雀食挺麻烦……)与此同时,Devin还在根据实际情况不断修改自己的后续计划。一段时间过后,一个本地的聊天机器人程序就跑起来了。测试一段时间后Mckay Wrigley认为,Devin已经可以算Agent的ChatGPT时刻。复现Devin计划ingDevin这边大伙还在接连测试,另一边开源“复现”方案也在进行中……这不,GitHub三万Star项目MetaGPT就上新了“开源版Devin”。名为数据解释器(Data Interpreter):同Devin一样,Data Interpreter也能实现自主编程,能迭代式观察数据,预测分析病情进展、机器运行状态;还能构建机器学习模型、进行数学推理、自动回复电子邮件、仿写网站……比如从英伟达股价数据中分析收盘价格趋势:分析数据预测葡萄酒质量:除此以外,阿里Qwen成员Binyan Hui等人开启了OpenDevin项目,刚刚起步已获得1.2k Star。Binyan Hui发推文表示,已有一个初步的路线图和一群优秀的人在努力工作,在很短的时间内就完成了前端原型。同时项目团队也在招新成员:另外,还一个名为Maisa AI的团队推出了Maisa KPU(Knowledge Processing Unit),被网友认为与Devin有一些竞争。目前Maisa KPU处于测试阶段,它可以解决复杂问题和推理,团队发布的基准测试结果如下:根据demo展示,KPU可以成为“智能客服”,在客户没有正确写好订单号的情况下,帮助客户解决订单未送达的问题:Devin基准测试技术报告发布最近,Devin创始团队Cognition还发布关于SWE-bench测试的技术报告。除了之前已公布的测试结果之外,团队还透露了一些新消息。比如,Cognition的目标之一是让Devin这个专门从事软件开发的AI智能体能够成功地为大型、复杂的代码库贡献代码。选择在SWE-bench上端到端运行智能体,也是考虑了它更接近现实世界的软件开发。此外,研发团队还透露,为了防止Devin在测试中作弊,比如查找外部的pull requests信息,测试已做相关设置,确保Devin无法访问相关信息,并且在此过程中也已人工手动检查了Devin运行情况。最后团队强调Devin仍处于起步阶段,还有很大改进空间:更多细节感兴趣的家人们可查看报告详情。Devin发布不到一周,网友们的讨论已十分热烈。比如,这位大兄弟表示自己一年前担心的事儿终究还是发生了。以后Stack Overflow上都是各种Devin在提问,人,就只能被挤出去(Stack Overflow危!!!):有网友回应(手动狗头):它们可以互相回答问题。还有网友发现Devin背后团队Cognition正在招全职软件工程师,于是缓缓打出一个问号:Devin不是应该填补这些职位空缺来为他们省钱吗?最后,若Devin公开你会想用它干点啥?参考链接:[1] ... PC版: 手机版:

封面图片

SlickGPT 是一个轻量级的“使用你自己的 API 密钥”的 Web 客户端,适用于用 Svelte 编写的 OpenAI

SlickGPT 是一个轻量级的“使用你自己的 API 密钥”的 Web 客户端,适用于用 Svelte 编写的 OpenAI API。用户自带 OpenAI API 密钥。 SlickGPT提供了一个非常漂亮的用户界面,具有丰富的功能集,例如管理本地聊天历史记录(在 localStorage 中)、无用户登录的聊天“共享”功能、突出的上下文编辑器以及代币成本计算和分配。你可以在本地运行客户端、自己托管或使用我们的公共实例。 |

封面图片

【币安将尝试禁用在Skyrex上使用过的所有API密钥】

【币安将尝试禁用在Skyrex上使用过的所有API密钥】 11月14日消息,币安创始人赵长鹏发推表示,用户Carlos确认未被识别的订单是由于他的API密钥泄漏所致,而他只有一个活跃的API密钥,该密钥曾在加密交易机器人平台Skyrex上使用过。我们将尝试禁用在Skyrex上使用过的所有API密钥,以进行身份确定。

封面图片

:一个开源的零依赖库,可使用单一API调用30多种LLM,可以在单个响应中发送多个提示到多个LLM,并将结果返回。

:一个开源的零依赖库,可使用单一API调用30多种LLM,可以在单个响应中发送多个提示到多个LLM,并将结果返回。 llm.ts支持各种不同的LLM,包括文本生成、代码生成、知识库和对话模型等。llm.ts可以在Node、Deno和浏览器等任何地方使用,用户需要自己提供API密钥

封面图片

1. 软件1.0需要会写代码的程序员;

1. 软件1.0需要会写代码的程序员; 2. 软件2.0需要有数据有算力的公司; 3. 软件3.0只需会打字的普通人; 如果我们把 软件1.0 + 软件3.0 称为 软件3.5,随着ChatGPT API的开放,将会大大促进软件3.5应用的繁荣。 本文介绍了从软件1.0到软件3.5的转变。 除此之外: 1. 提供了一个用ChatGPT辅助英语阅读的prompt; 2. 把ChatGPT当成模拟器,设计一个prompt用于模拟gpt()的API,即模拟它自身的行为; 3. 并在ChatGPT模拟软件3.5,展示ChatGPT惊人的通用性,如实现递归。

封面图片

:快捷命令激活iPhone上的大模型进行对话与搜索

:快捷命令激活iPhone上的大模型进行对话与搜索 Siri-Ultra是一个基于云的智能助手,可以在Cloudflare Workers上运行,并且可以与任何大型语言模型(LLM)配合使用。它利用了LLaMA 3模型,并且通过自定义函数调用来获取天气数据和在线搜索。这个项目允许用户通过Apple Shortcuts来使用Siri,从而消除了对专用硬件设备的需求。 目标受众为希望在没有专用硬件的情况下使用智能助手的用户。Siri-Ultra通过提供一种灵活的、基于云的解决方案,满足了那些希望简化其技术栈并利用最新AI技术来增强个人效率的用户需求。 使用场景示例: 用户可以通过Siri-Ultra获取天气预报 利用Siri-Ultra进行在线搜索查询 通过Siri-Ultra快速获取日常信息,如新闻摘要或日程安排 产品特色: 支持自定义模型,API基础和系统提示 使用Cloudflare Workers进行部署 创建KV命名空间来存储对话数据 通过API密钥进行身份验证和数据调用 更新系统提示以适应不同的使用场景 部署到Cloudflare后,可以通过Apple Shortcuts进行配置和使用 使用教程: 克隆仓库并导航到根目录 运行npm install安装必要的依赖 通过运行npx wrangler login来验证Cloudflare账户 运行npx wrangler kv:namespace create chats创建KV命名空间并记下ID 更新wrangler.toml文件,填入命名空间ID 设置API密钥,包括GROQ或OpenAI API密钥,OpenWeather API密钥和SEARCH1API_KEY 更新LLMs Vars,包括API_BASE和MODEL等 运行npx wrangler deploy部署Worker 使用提供的链接安装并配置Apple Shortcut

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人