AI程序员Devin卧底工作群修bug 还和CTO聊技术

AI程序员Devin卧底工作群修bug 还和CTO聊技术 事情发生在办公软件Slack,截图中的akshat是AI基础设施创业公司Modal Labs的CTO Akshat Bubna。Modal Labs也是Devin开发商Cognition的首批客户之一。此时Devin正披着他的创造者之一、IOI金牌得主Steven Hao的马甲。对话的开始,AI程序员Devin正在询问有关Modal Lab平台的密钥的生命周期问题,特别是密钥更新后传播到正在运行的应用程序所需的时间。Devin表示自己已经查阅了文档,包括密钥和环境变量指南、CLI命令参考、API参考以及容器生命周期钩子和参数,但依旧没有找到关于密钥传播时间的明确信息。Devin询问了更新的密钥通常需要多长时间才能被运行中的应用程序使用,因为这对于他们的运营至关重要,了解这一点将有助于管理他们的部署流程。人类CTO解释说,当密钥更新时,他们不会使已经运行的Modal容器失效,但是新启动的容器将会读取更新后的值。Devin对此表示感谢,并决定暂时采用手动方法来管理Modal中的密钥,即在需要时调用modal deploy命令来触发相关应用程序容器的重启。看完整个过程后,同样是AI创业者的Raunak Chowdhuri评价到:发现问题、创建工单、调整代码,最好的人类开发者就是这么工作的。Devin更多实测结果拿到Devin早期测试资格的人和公司并不多,不过还是陆陆续续有人晒出实测结果。热衷AI的沃顿商学院教授Ethan Molick试过后,认为其新颖的实时交互方式是最值得关注的。您可以随时与它“交谈”,就像与人交谈一样,它会在后台不断地执行和调试您的想法。在测试中,Ethan Mollick要求Devin开发一个解释“创业公司融资中的股权稀释”的网站。不过他透露,AI还无法在没有任何帮助的情况下,自主且无差错地完成这项工作。要想把一个重大项目交给人工智能来完成,还有很长的路要走,但这仍然是一个令人着迷的开始。另一位晒出测试过程的创业者Mckay Wrigley更激动一些。在他晒出的27分钟测试中,只发了一个GitHub连接,让Devin部署来自开源项目的代码。Devin自主把任务拆解成一系列子步骤,并一步步开始执行。执行过程中,Devin在安装Supabase数据库时遇到了障碍,自己打开了对应的Github仓库开始查阅文档……从后续终端反馈中可以看出,Devin查到了运行Supabase所需的各种端口和密匙都应该填什么。(装过的都知道,雀食挺麻烦……)与此同时,Devin还在根据实际情况不断修改自己的后续计划。一段时间过后,一个本地的聊天机器人程序就跑起来了。测试一段时间后Mckay Wrigley认为,Devin已经可以算Agent的ChatGPT时刻。复现Devin计划ingDevin这边大伙还在接连测试,另一边开源“复现”方案也在进行中……这不,GitHub三万Star项目MetaGPT就上新了“开源版Devin”。名为数据解释器(Data Interpreter):同Devin一样,Data Interpreter也能实现自主编程,能迭代式观察数据,预测分析病情进展、机器运行状态;还能构建机器学习模型、进行数学推理、自动回复电子邮件、仿写网站……比如从英伟达股价数据中分析收盘价格趋势:分析数据预测葡萄酒质量:除此以外,阿里Qwen成员Binyan Hui等人开启了OpenDevin项目,刚刚起步已获得1.2k Star。Binyan Hui发推文表示,已有一个初步的路线图和一群优秀的人在努力工作,在很短的时间内就完成了前端原型。同时项目团队也在招新成员:另外,还一个名为Maisa AI的团队推出了Maisa KPU(Knowledge Processing Unit),被网友认为与Devin有一些竞争。目前Maisa KPU处于测试阶段,它可以解决复杂问题和推理,团队发布的基准测试结果如下:根据demo展示,KPU可以成为“智能客服”,在客户没有正确写好订单号的情况下,帮助客户解决订单未送达的问题:Devin基准测试技术报告发布最近,Devin创始团队Cognition还发布关于SWE-bench测试的技术报告。除了之前已公布的测试结果之外,团队还透露了一些新消息。比如,Cognition的目标之一是让Devin这个专门从事软件开发的AI智能体能够成功地为大型、复杂的代码库贡献代码。选择在SWE-bench上端到端运行智能体,也是考虑了它更接近现实世界的软件开发。此外,研发团队还透露,为了防止Devin在测试中作弊,比如查找外部的pull requests信息,测试已做相关设置,确保Devin无法访问相关信息,并且在此过程中也已人工手动检查了Devin运行情况。最后团队强调Devin仍处于起步阶段,还有很大改进空间:更多细节感兴趣的家人们可查看报告详情。Devin发布不到一周,网友们的讨论已十分热烈。比如,这位大兄弟表示自己一年前担心的事儿终究还是发生了。以后Stack Overflow上都是各种Devin在提问,人,就只能被挤出去(Stack Overflow危!!!):有网友回应(手动狗头):它们可以互相回答问题。还有网友发现Devin背后团队Cognition正在招全职软件工程师,于是缓缓打出一个问号:Devin不是应该填补这些职位空缺来为他们省钱吗?最后,若Devin公开你会想用它干点啥?参考链接:[1] ... PC版: 手机版:

相关推荐

封面图片

AI 能否取代程序员?可以这样看:

AI 能否取代程序员?可以这样看: 一个项目有2个程序员,如果 AI 能帮程序员写一半的代码,那单个程序员的效率提升,能做的工作更多。 原来两个程序员能完成的工作现在只需要一个人。 就这样另外一个程序员就被 AI 取代了。 用AI提效的程序员没有被取代。 如果 AI 能直接根据PM需求自己写代码呢?

封面图片

Devin第一手使用体验:完成度很高 但要替代程序员还很远

Devin第一手使用体验:完成度很高 但要替代程序员还很远 在演示中,Devin 几乎已经可以独立完成很多人类程序员需要大量时间才能完成的工作,效果一点不比普通程序员差。但是,产品能力的边界在哪里,实际体验和演示时候有差距,还得看上手实测之后的效果。这位斯坦福的小哥在 Devin 发布的第一时间就联系了团队,获得了第一手体验的资格。他让 Devin 帮它做了几个难度不一的项目,录制了一个视频,在推上写下了自己的使用感受。首先是让 Devin 做一个用 API 获取股票价格的软件:下一个任务是让 Devin 做一个可以让普通用户直接与大模型下棋的网站。需求复杂的编程任务还搞不定用户下一步棋,系统会翻译成提示词给 GPT-4,然后 GPT-4 进行回复,然后回复再被转换为反映在棋盘上的具体某一步棋。按照小哥的要求,系统需要由相当多的部件组成。他个人最为关注在这个系统的开发过程中,Devin 能不能做到以下几点:知道如何准确地使用 GPT-4 API,因为大多数 LLM 实际上并不知道如何使用,并且 API 的调用存在版本冲突。正确地请求 API 密钥并安全地处理。处理包错误。了解如何提示 LLM 下棋并能精确地返回提示词。令小哥想不到的是,Devin 不仅要求小哥提供 API 密钥,而且在试用过程中还可以正确地保护它。不过,Devin 目前反馈速度还相当慢,小哥推测是因为后台发生的代理提示远远比要看到的要多得多。从小哥发起请求开始,它花了大约 19 分钟才询问 API 密钥。小哥猜测,如果延迟是由于他们在后台运行大量提示造成的,那么延迟应该会随着时间的推移而加快。因为他们以后可以访问专用 GPU 或与 Claude 或 OpenAI 合作降低延迟(估计是 GPT-4 或 Claude Opus)。Devin 首先制定了一个规划。在右上角,用户可以切换“跟随”状态,这样用户可以将屏幕自动移动到#Devin 当前激活了的选项卡上。小哥没有打开跟随状态,因为他希望随时观察各个位置的变化。规划器会随时保持针对当前任务的更新状态。Shell 看起来和普通的 Shell 没什么区别,但用起来真的很有趣!Devin 在工作过程中会打开多个 shell,在 shell 的底部,用户可以拖动蓝色滑块来往前查看 Devin 编写的命令。下图是它当在尝试调试棋盘未渲染的内容。与此同时,小哥要求它再执行一个数据分析的任务。小哥让 Devin 去“创建一张过去五十年南极洲海水温度的地图”。对于这个请求,小哥觉得有两个方面可能很具有挑战性:处理空间数据绘图 / 可视化。知道在哪里下载数据,而且了解如何使用数据源,因为地理空间数据处理起来很麻烦。Devin 能像一个优秀的程序员一样聪明地阅读自述文件,并且还执行一些基本的 EDA 来理解数据结构。数据居然是一个 ascii 文件,小哥觉得有点奇怪。小哥单击对话“调试 Python 脚本...”中的其中一个步骤时,它会打开与该步骤相关的代码库部分,因此可以跟踪某一个具体时间点发生的情况。小哥比较担心的是,如果不是必须要询问 API 密钥,Devin 似乎会不停地编码停不下来。所以他试了试是否可以更改他之前提出的请求或指定其他内容,中断 Devin 的编码过程。因为对于大部分用户在编码时,都有可能会改变主意或者有一些新的东西想要添加进系统之中,能够处理这种情况是很有必要的。这是编码过程中的截图:浏览器界面的呈现方式如下:然后小哥又提了针对数据可视化的任务又提了一个要求,让系统将高温设置为蓝色,低温设置为红色。为了不中断编码的过程,似乎 Devin 又开启了一个工作线程来记录小哥的临时要求。最终,Devin 将 App 部署到了 Netlify 上了,一个应用已经上线了。网页的链接: Bug 的。因为小哥要求的是南极洲的温度记录,似乎对于 Devin 来说它理解起来有些障碍。于是小哥把要求显示的位置改为了北美。总结小哥没有给出 Devin 修改了 Bug 的结果,只是初步总结了用 Devin 开发的第一个网站的使用体验。先说优点:Devin 产品化做得很好,他给人的使用体验是一个完整的产品而不是只是一个简单的对话框。AI 是系统最关键的部分,但支撑 AI 功能的产品化的结构是 Devin 的亮点。Devin 能够完成自动部署,API 密钥保护,随时修改和添加需求等等非常好的各种功能。产品的完成度已经非常高了,远远超过了一般的演示 Demo。再说缺点:Devin 的反应还很慢,当然小哥也说,因为他用的是 1M 的 Starlink 来上网,所以反应慢很有可能是他自己的原因。其次就是还不能允许用户直接自己编辑代码,而且也没法协作完成。当然,最初那个下棋的应用,难住了 Devin,最终没有完成部署。而那个数据可视化的任务,似乎也有些 Bug。最终,小哥用 Devin 做了一个 chrome 插件,可以帮助用户把 Github repo 转化成 Claude prompt。插件下载地址: Devin 的可视化项目的结果只做出了一个有 Bug 的网页。看样子 Devin 本质上还只是一个可以上网的大模型,现在要让他解决实际问题还有难度。参考资料: ... PC版: 手机版:

封面图片

程序员的AI必修课,AIGC全栈项目实战(AI前端后端测试运维)

程序员的AI必修课,AIGC全栈项目实战(AI前端后端测试运维) 描述:程序员的AI必修课与AIGC全栈项目实战课是专为程序员设计的系统性学习资源。该系列课程涵盖了AI技术基础、前端、后端、测试及运维等全栈开发技能,帮助学习者从零基础入门到精通。通过实战项目,学习者能够掌握AI在各个领域的应用,并提升解决实际问题的能力 链接:https://pan.quark.cn/s/a8bfc95a3714 大小:2.1GB 标签:#教程 #AI #全栈 #前端 #实战 #必修课 #运维 #程序员的AI必修课 #quark 频道:@yunpanshare 群组:@yunpangroup

封面图片

《程序员的AI必修AIGC全栈实战 》

《程序员的AI必修AIGC全栈实战 》 简介:程序员的AI必修AIGC全栈实战这门课程为学习者提供了全面的知识和技巧,涵盖了从基础到进阶的多项内容。无论你是想提升专业能力,还是在职业生涯中寻求突破,课程都能为你提供切实可行的方法和思路,帮助你在未来的工作中游刃有余。|标签:#课程 #程序 #实战|文件大小:NG|链接:

封面图片

《程序员的AI必修课,AIGC全栈项目实战(AI前端后端测试运维)》

《程序员的AI必修课,AIGC全栈项目实战(AI前端后端测试运维)》 简介:程序员的AI必修课,AIGC全栈项目实战(AI前端后端测试运维)是一门深入探讨人工智能技术的课程,涵盖机器学习、深度学习、自然语言处理等核心技术。课程结合实际案例和编程实战,帮助学员掌握AI应用开发能力,适合对人工智能感兴趣的开发者和技术人员。 标签: #人工智能#机器学习#AI开发 文件大小:NG 链接:

封面图片

AI程序员Devin独角兽,半年估值20亿美元?业内曝AI泡沫:买卡500亿

AI程序员Devin独角兽,半年估值20亿美元?业内曝AI泡沫:买卡500亿 创始团队的10枚IOI金牌的“含金量”恐怖如斯。而在产品首个版本上线几周之后,他们就火速展开下一轮融资,并且估值一下就翻了6倍。即使在已经热得发烫的AI赛道,这么夸张的融资速度和估值膨胀倍数也显得非常离谱了。毕竟这个公司的产品还只是处于邀请使用阶段,公司没有任何盈利,成立也刚半年不到。因为,即便是成立两年,产品深受用户喜爱和大佬力荐,号称要干掉Google革命搜索行业的Perlexity AI,最近一轮融资的估值也才不过10亿美元。开源社区之光,模型水平已经接近OpenAI的Mistral AI,去年12月底的最近一次融资估值也是20亿美元左右。而这两家公司,都是创始人背景强大,产品已经在业内广受好评,在细分赛道上已经取得了绝对的领先优势之后,才获得了这个水平的估值。而领投Cognition AI这轮融资的 冤大头 VC,依然是它种子轮的领投机构Founders Fund。在今年年初,Founders Fund已经在年初的种子轮向Cognition AI注资了2100万美元。而且根据知情人士透露,在先前的融资谈判中,Cognition AI已经拒绝了一份估值10亿美元的提议。虽然谈判还没有完全结束,但20亿美元的估值基本不会有太大的变数。看来只要团队强大,方向靠谱,过亿美元的融资似乎不是太大的问题。AI初创再现互联网泡沫?今年AI赛道的初创公司融资和估值的疯狂水平,和去年相比更加疯狂了。而背后投资人的信心,来源于相信AI能够大幅提高某些行业的效率。而软件工程师的工作,目前似乎是AI生产力表现最好的领域之一。上一季度,微软的编程辅助工具GitHub Copilot的用户增加了30%,用户总数达到了130万。Magic AI,一家与Cognition AI同样专注于AI编程的初创公司,今年2月成功获得了1.17亿美元投资。但是迄今为止,几乎没有AI初创公司的财务表现能够兑现大额融资的期待。在红杉最近的一次分享之中提到,现在AI赛道的各家公司在购买英伟达GPU的花费就已经超过了500亿美元,而目前为止产生的收入却只有30亿美元左右。而DeepMind创始人Hassiabis也在最近的采访中警告:“现在资本对于AI赛道的投入已经有点当初加密币的味道了,而真正的AI带来的可以改变人类的科学突破却没有得到应有的重视。”文章地址: ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人