一些关于 Devin 的想法

一些关于 Devin 的想法 很多投资人 & 行业内朋友都来询问怎么看待 Devin 这个产品,发布的第一时间就有关注,并且自己也在 building developer tools,所以来写一些简单的 comments,可能过段时间就打脸。 1. 我更倾向于把 Cognition Labs 这家公司看做是一家类似于 DeepMind 的研究型公司,而不是商业型公司,这两种公司的目标和愿景是不一样的; 2. Devin 发布的演示视频很惊艳,能够处理一些基本的 GitHub Issue,甚至能解决 Upwork 上实际的问题,但是对于更复杂的场景能够解决得多好现在还是未知的 (目前还没有拿到测试资本),SWE-bench 13% 的指标还是不能直接用在生产环境上 (无干预情况下); 3. 软件开发是一个复杂的系统性工程,实际的 coding 其实只占其中的很少一部分,理解需求、生成代码、Debugging、优化、部署等等涉及到非常多的环节; 4. Devin 演示的一个亮点是,它所展示的决策树很长 (按照 blog 中提到能有上千个决策节点),这个要求底层模型有非常强的 reasoning 能力和 long context window,目前看起来 Devin 应该并没有 train 自己的模型 (或者说只是在 reasoning 的某些环节使用了 finetune 的模型),核心的 reasoning 能力可能还是基于 GPT-4; 5. Devin 的演示中遇到了很多出现 error 需要 debug 的情况,这个相当于是在决策树中需要回退到某个节点,选择其他路径中的某一条,如何判断哪条路径后续是正确的?Devin 在演示的过程中有一个 keyError,解决的办法是添加一个 try catch 来捕获这个 error,这条决策路径不一定是对的,比如说如果前置的代码里面已经有这个 keyError 了,那么后面再捕获这个 error 就没有意义。如果是人来进行决策,就会对可能的清况有一个更详尽的分析 (或者说直觉); 6. 抛开各种营销号吸引眼球的标题,现在来说 Devin 代替开发者还太早,不过自动驾驶 Day 1 也不是能直接上路驾驶的,L5 级别的自动化软件开发一定是终局; 7. Devin 在用户交互上提供了一些新的探索,不再是调用外部的工具,而是自己维护了一套系统内的 shell, code editor, browser,这样的好处是可以自定义一套 DSL 来操作这些工具。但是如果考虑到现阶段没有办法实现完全的无干预 coding 的话,这套方案是和现在的整个 development workflow 脱离的。 一些私货: 1. Devv 最开始的愿景就是 Redefine development tools and achieve L5 level of automated software development. 为什么没有选择直接做一个 automated coding agent,就是因为当前的技术还不满足构建一个能够在生产环境使用的 coding agent,作为一家商业公司,这个路是很难直接走通的。Devv 的方法是先选择能够落地的、开发者日常最高频和刚需的信息检索这个场景去切入; 2. Devv Agent 当前的目标也不是做一个完全 automated 的 agent,而是在更好地辅助开发者去解决开发流程中遇到的问题,本质上还是在 copilot。 Jiayuan from

相关推荐

封面图片

关于 iPad Pro 的一些想法

关于 iPad Pro 的一些想法 绝大多数人真的不需要一台 iPad Pro 尤其是 M1 版本的但如果你现在想买一台 iPad Air,那不如买一台 2020 的 iPad Pro(假如你能找到新的话)。 没有多彩机身,但性能、扬声器、尤其是 120Hz 的屏幕都要更好,iPad Air 的优势在于指纹识别。(Apple 你快点把 Apple Watch 解锁 iPad 给我加上去!)

封面图片

AI程序员Devin卧底工作群修bug 还和CTO聊技术

AI程序员Devin卧底工作群修bug 还和CTO聊技术 事情发生在办公软件Slack,截图中的akshat是AI基础设施创业公司Modal Labs的CTO Akshat Bubna。Modal Labs也是Devin开发商Cognition的首批客户之一。此时Devin正披着他的创造者之一、IOI金牌得主Steven Hao的马甲。对话的开始,AI程序员Devin正在询问有关Modal Lab平台的密钥的生命周期问题,特别是密钥更新后传播到正在运行的应用程序所需的时间。Devin表示自己已经查阅了文档,包括密钥和环境变量指南、CLI命令参考、API参考以及容器生命周期钩子和参数,但依旧没有找到关于密钥传播时间的明确信息。Devin询问了更新的密钥通常需要多长时间才能被运行中的应用程序使用,因为这对于他们的运营至关重要,了解这一点将有助于管理他们的部署流程。人类CTO解释说,当密钥更新时,他们不会使已经运行的Modal容器失效,但是新启动的容器将会读取更新后的值。Devin对此表示感谢,并决定暂时采用手动方法来管理Modal中的密钥,即在需要时调用modal deploy命令来触发相关应用程序容器的重启。看完整个过程后,同样是AI创业者的Raunak Chowdhuri评价到:发现问题、创建工单、调整代码,最好的人类开发者就是这么工作的。Devin更多实测结果拿到Devin早期测试资格的人和公司并不多,不过还是陆陆续续有人晒出实测结果。热衷AI的沃顿商学院教授Ethan Molick试过后,认为其新颖的实时交互方式是最值得关注的。您可以随时与它“交谈”,就像与人交谈一样,它会在后台不断地执行和调试您的想法。在测试中,Ethan Mollick要求Devin开发一个解释“创业公司融资中的股权稀释”的网站。不过他透露,AI还无法在没有任何帮助的情况下,自主且无差错地完成这项工作。要想把一个重大项目交给人工智能来完成,还有很长的路要走,但这仍然是一个令人着迷的开始。另一位晒出测试过程的创业者Mckay Wrigley更激动一些。在他晒出的27分钟测试中,只发了一个GitHub连接,让Devin部署来自开源项目的代码。Devin自主把任务拆解成一系列子步骤,并一步步开始执行。执行过程中,Devin在安装Supabase数据库时遇到了障碍,自己打开了对应的Github仓库开始查阅文档……从后续终端反馈中可以看出,Devin查到了运行Supabase所需的各种端口和密匙都应该填什么。(装过的都知道,雀食挺麻烦……)与此同时,Devin还在根据实际情况不断修改自己的后续计划。一段时间过后,一个本地的聊天机器人程序就跑起来了。测试一段时间后Mckay Wrigley认为,Devin已经可以算Agent的ChatGPT时刻。复现Devin计划ingDevin这边大伙还在接连测试,另一边开源“复现”方案也在进行中……这不,GitHub三万Star项目MetaGPT就上新了“开源版Devin”。名为数据解释器(Data Interpreter):同Devin一样,Data Interpreter也能实现自主编程,能迭代式观察数据,预测分析病情进展、机器运行状态;还能构建机器学习模型、进行数学推理、自动回复电子邮件、仿写网站……比如从英伟达股价数据中分析收盘价格趋势:分析数据预测葡萄酒质量:除此以外,阿里Qwen成员Binyan Hui等人开启了OpenDevin项目,刚刚起步已获得1.2k Star。Binyan Hui发推文表示,已有一个初步的路线图和一群优秀的人在努力工作,在很短的时间内就完成了前端原型。同时项目团队也在招新成员:另外,还一个名为Maisa AI的团队推出了Maisa KPU(Knowledge Processing Unit),被网友认为与Devin有一些竞争。目前Maisa KPU处于测试阶段,它可以解决复杂问题和推理,团队发布的基准测试结果如下:根据demo展示,KPU可以成为“智能客服”,在客户没有正确写好订单号的情况下,帮助客户解决订单未送达的问题:Devin基准测试技术报告发布最近,Devin创始团队Cognition还发布关于SWE-bench测试的技术报告。除了之前已公布的测试结果之外,团队还透露了一些新消息。比如,Cognition的目标之一是让Devin这个专门从事软件开发的AI智能体能够成功地为大型、复杂的代码库贡献代码。选择在SWE-bench上端到端运行智能体,也是考虑了它更接近现实世界的软件开发。此外,研发团队还透露,为了防止Devin在测试中作弊,比如查找外部的pull requests信息,测试已做相关设置,确保Devin无法访问相关信息,并且在此过程中也已人工手动检查了Devin运行情况。最后团队强调Devin仍处于起步阶段,还有很大改进空间:更多细节感兴趣的家人们可查看报告详情。Devin发布不到一周,网友们的讨论已十分热烈。比如,这位大兄弟表示自己一年前担心的事儿终究还是发生了。以后Stack Overflow上都是各种Devin在提问,人,就只能被挤出去(Stack Overflow危!!!):有网友回应(手动狗头):它们可以互相回答问题。还有网友发现Devin背后团队Cognition正在招全职软件工程师,于是缓缓打出一个问号:Devin不是应该填补这些职位空缺来为他们省钱吗?最后,若Devin公开你会想用它干点啥?参考链接:[1] ... PC版: 手机版:

封面图片

#国产 #嫖娼关于所谓的嫖娼入门费和哄抬逼价的一些想法

#国产 #嫖娼 关于所谓的嫖娼入门费和哄抬逼价的一些想法 这个号我大概是几个月前加的,因为这期间一直没空,也就没去管,最近国庆假期来了,精虫也开始上头了,然后就上了我的小号去看看所谓的“高端服务”,刷了刷他的空间发现他更新了个微信号(为什么这里去加微信了呢,因为几个月之前的那个聊天记录我手机里找不到了,已经不知道他这里收费标准到底是怎样了),这个时候恰好看到他qq空间里放了他的微信号 更多精彩内容点击以下链接传送查看 https://caoliu1024.com/read.php?tid=1372940 订阅草榴频道获取每日精品推送: https://t.me/caoliusheq

封面图片

关于如何向高手请教的一些思考

关于如何向高手请教的一些思考 这两天新做的站谷歌UV过2,000了,对我这个新手来说还算是挺鼓舞的。因为我做这个站的预期就是:尝试能在某个主关键词,排进谷歌前10,又或者是每天能从谷歌拿到100以上的点击流量,能达到这个目标就足够了。 不过在上周,我向@哥飞 咨询这个词的时候,他其实是不建议我做的,为什么会这样呢? 现在复盘起来,其实主要是当时我没有向飞哥提供足够的信息,只是简单地跟他说了这个词,以及看了几眼数据,于是飞哥就自然而然地会以通用的标准来进行判断,后面得知他的分析如下 1. 这个词已经有正主了,并且很可能这个词的火热,就是由正主带起来的,我再去做这个词,基本不可能拿到第一(实际上我并不奢望排到第一) 2. 这个词的变现空间非常有限,相比于AI图片站、AI音乐站来说,即使拿到了流量,也赚不到大钱(实际上我不指望这个站赚钱) 当我们向他人请教时,如果没有提供足够的信息,那么他人给出的判断自然会基于一些通用的标准,但这个标准却不一定适合当下的你 因此当我拿到飞哥“不建议做”的建议后,反复纠结琢磨了好几天,最终才把站给上了。如果我一开始就把我的目标和预期说清楚,那么就不会出现这种拧巴的情况 这个小小的插曲,对我自己后面的启发是:未来若向他人请教问题,要清楚地说出你的目标和预期是什么,你当下的情况和水平是怎么样的,这样别人才能基于你的实际情况给予建议 而不是笼统地问“这事能不能做”、“这事该不该做”

封面图片

▎关于无线中继的一些问题

▎关于无线中继的一些问题 用无线路由器设置无线中继后,网速会比主路由器慢一半,甚至更多。而随着宽带大提速,这个现象越来越明显。是什么原因,要怎么解决。 很久之前收藏的文章,就当补充一点课外知识了,现在已经是mesh的天下了,不过还是有点用处的。 #科普 #路由器 地址:

封面图片

关于感冒一些的一些反常识:

关于感冒一些的一些反常识: 1⃣ 感冒是因为感染感冒病毒,而不是因为冷 2⃣ 感冒病毒并不会长期在空气中,而是会沉淀和附着在各种表面 3⃣ 如果你的手接触到感冒病毒,并不会感染感冒,人们感染感冒通常是因为用手摸脸或者揉眼睛从而把病毒带进了体内 所以如果做好手部的清洁和消毒,就能大幅降低感冒的感染

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人