一些关于 Devin 的想法

一些关于 Devin 的想法 很多投资人 & 行业内朋友都来询问怎么看待 Devin 这个产品,发布的第一时间就有关注,并且自己也在 building developer tools,所以来写一些简单的 comments,可能过段时间就打脸。 1. 我更倾向于把 Cognition Labs 这家公司看做是一家类似于 DeepMind 的研究型公司,而不是商业型公司,这两种公司的目标和愿景是不一样的; 2. Devin 发布的演示视频很惊艳,能够处理一些基本的 GitHub Issue,甚至能解决 Upwork 上实际的问题,但是对于更复杂的场景能够解决得多好现在还是未知的 (目前还没有拿到测试资本),SWE-bench 13% 的指标还是不能直接用在生产环境上 (无干预情况下); 3. 软件开发是一个复杂的系统性工程,实际的 coding 其实只占其中的很少一部分,理解需求、生成代码、Debugging、优化、部署等等涉及到非常多的环节; 4. Devin 演示的一个亮点是,它所展示的决策树很长 (按照 blog 中提到能有上千个决策节点),这个要求底层模型有非常强的 reasoning 能力和 long context window,目前看起来 Devin 应该并没有 train 自己的模型 (或者说只是在 reasoning 的某些环节使用了 finetune 的模型),核心的 reasoning 能力可能还是基于 GPT-4; 5. Devin 的演示中遇到了很多出现 error 需要 debug 的情况,这个相当于是在决策树中需要回退到某个节点,选择其他路径中的某一条,如何判断哪条路径后续是正确的?Devin 在演示的过程中有一个 keyError,解决的办法是添加一个 try catch 来捕获这个 error,这条决策路径不一定是对的,比如说如果前置的代码里面已经有这个 keyError 了,那么后面再捕获这个 error 就没有意义。如果是人来进行决策,就会对可能的清况有一个更详尽的分析 (或者说直觉); 6. 抛开各种营销号吸引眼球的标题,现在来说 Devin 代替开发者还太早,不过自动驾驶 Day 1 也不是能直接上路驾驶的,L5 级别的自动化软件开发一定是终局; 7. Devin 在用户交互上提供了一些新的探索,不再是调用外部的工具,而是自己维护了一套系统内的 shell, code editor, browser,这样的好处是可以自定义一套 DSL 来操作这些工具。但是如果考虑到现阶段没有办法实现完全的无干预 coding 的话,这套方案是和现在的整个 development workflow 脱离的。 一些私货: 1. Devv 最开始的愿景就是 Redefine development tools and achieve L5 level of automated software development. 为什么没有选择直接做一个 automated coding agent,就是因为当前的技术还不满足构建一个能够在生产环境使用的 coding agent,作为一家商业公司,这个路是很难直接走通的。Devv 的方法是先选择能够落地的、开发者日常最高频和刚需的信息检索这个场景去切入; 2. Devv Agent 当前的目标也不是做一个完全 automated 的 agent,而是在更好地辅助开发者去解决开发流程中遇到的问题,本质上还是在 copilot。 Jiayuan from

相关推荐

封面图片

关于 iPad Pro 的一些想法

关于 iPad Pro 的一些想法 绝大多数人真的不需要一台 iPad Pro 尤其是 M1 版本的但如果你现在想买一台 iPad Air,那不如买一台 2020 的 iPad Pro(假如你能找到新的话)。 没有多彩机身,但性能、扬声器、尤其是 120Hz 的屏幕都要更好,iPad Air 的优势在于指纹识别。(Apple 你快点把 Apple Watch 解锁 iPad 给我加上去!)

封面图片

#国产 #嫖娼关于所谓的嫖娼入门费和哄抬逼价的一些想法

#国产 #嫖娼 关于所谓的嫖娼入门费和哄抬逼价的一些想法 这个号我大概是几个月前加的,因为这期间一直没空,也就没去管,最近国庆假期来了,精虫也开始上头了,然后就上了我的小号去看看所谓的“高端服务”,刷了刷他的空间发现他更新了个微信号(为什么这里去加微信了呢,因为几个月之前的那个聊天记录我手机里找不到了,已经不知道他这里收费标准到底是怎样了),这个时候恰好看到他qq空间里放了他的微信号 更多精彩内容点击以下链接传送查看 https://caoliu1024.com/read.php?tid=1372940 订阅草榴频道获取每日精品推送: https://t.me/caoliusheq

封面图片

关于如何向高手请教的一些思考

关于如何向高手请教的一些思考 这两天新做的站谷歌UV过2,000了,对我这个新手来说还算是挺鼓舞的。因为我做这个站的预期就是:尝试能在某个主关键词,排进谷歌前10,又或者是每天能从谷歌拿到100以上的点击流量,能达到这个目标就足够了。 不过在上周,我向@哥飞 咨询这个词的时候,他其实是不建议我做的,为什么会这样呢? 现在复盘起来,其实主要是当时我没有向飞哥提供足够的信息,只是简单地跟他说了这个词,以及看了几眼数据,于是飞哥就自然而然地会以通用的标准来进行判断,后面得知他的分析如下 1. 这个词已经有正主了,并且很可能这个词的火热,就是由正主带起来的,我再去做这个词,基本不可能拿到第一(实际上我并不奢望排到第一) 2. 这个词的变现空间非常有限,相比于AI图片站、AI音乐站来说,即使拿到了流量,也赚不到大钱(实际上我不指望这个站赚钱) 当我们向他人请教时,如果没有提供足够的信息,那么他人给出的判断自然会基于一些通用的标准,但这个标准却不一定适合当下的你 因此当我拿到飞哥“不建议做”的建议后,反复纠结琢磨了好几天,最终才把站给上了。如果我一开始就把我的目标和预期说清楚,那么就不会出现这种拧巴的情况 这个小小的插曲,对我自己后面的启发是:未来若向他人请教问题,要清楚地说出你的目标和预期是什么,你当下的情况和水平是怎么样的,这样别人才能基于你的实际情况给予建议 而不是笼统地问“这事能不能做”、“这事该不该做”

封面图片

▎关于无线中继的一些问题

▎关于无线中继的一些问题 用无线路由器设置无线中继后,网速会比主路由器慢一半,甚至更多。而随着宽带大提速,这个现象越来越明显。是什么原因,要怎么解决。 很久之前收藏的文章,就当补充一点课外知识了,现在已经是mesh的天下了,不过还是有点用处的。 #科普 #路由器 地址:

封面图片

关于早些时候转发的这条,再做一些补充。

关于早些时候转发的这条,再做一些补充。 21年美国刚开打疫苗的时候就有相关的唔这么说吧“都市传说”,最初是被医学界一些专家否认的,认为是“女人们小题大做”。 然而随着越来越多女性向自己的妇科医生反映这个情况,也有一些医生表示,这样的说法在医学上可能是说得通的。可能的解释之一便是,女性的免疫系统被疫苗激活后,可能是会引起子宫内膜的免疫细胞的变化。 我刚刚用中英文在G上搜相关关键词,搜到的研究文献有好几篇,还有一些关于文献的科普报道。且这不单单是一个种类的疫苗的影响,几乎所有种类的疫苗接种者都有报告。一些新闻链接放在评论里。 当然,绝大多数人会在一到两个周期后恢复正常,且对生育能力没有影响。但需要强调的一点是,就医过程中女性对身体状况的自述,经常是被忽视的。这就是一个很好的例子。 【网评】我平时很准,去年夏天接种第三针,当月就没有来,到下一个周期时偏差了几天,然后便顺延偏差,直到去年底才又恢复正常。

封面图片

Cognition发布首位AI软件工程师Devin,这个演示相当惊艳。

Cognition发布首位AI软件工程师Devin,这个演示相当惊艳。 Devin 是一个自主Agents,它通过使用自己的 shell、代码编辑器和网络浏览器来解决工程任务。 Devin成功通过了知名人工智能公司的实际工程面试,甚至还在 Upwork 上完成了实际工作。 Devin 在无辅助情况下正确解决了 13.86% 的问题, ...

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人