一些关于 Devin 的想法
一些关于Devin的想法很多投资人&行业内朋友都来询问怎么看待Devin这个产品,发布的第一时间就有关注,并且自己也在buildingdevelopertools,所以来写一些简单的comments,可能过段时间就打脸。1.我更倾向于把CognitionLabs这家公司看做是一家类似于DeepMind的研究型公司,而不是商业型公司,这两种公司的目标和愿景是不一样的;2.Devin发布的演示视频很惊艳,能够处理一些基本的GitHubIssue,甚至能解决Upwork上实际的问题,但是对于更复杂的场景能够解决得多好现在还是未知的(目前还没有拿到测试资本),SWE-bench13%的指标还是不能直接用在生产环境上(无干预情况下);3.软件开发是一个复杂的系统性工程,实际的coding其实只占其中的很少一部分,理解需求、生成代码、Debugging、优化、部署等等涉及到非常多的环节;4.Devin演示的一个亮点是,它所展示的决策树很长(按照blog中提到能有上千个决策节点),这个要求底层模型有非常强的reasoning能力和longcontextwindow,目前看起来Devin应该并没有train自己的模型(或者说只是在reasoning的某些环节使用了finetune的模型),核心的reasoning能力可能还是基于GPT-4;5.Devin的演示中遇到了很多出现error需要debug的情况,这个相当于是在决策树中需要回退到某个节点,选择其他路径中的某一条,如何判断哪条路径后续是正确的?Devin在演示的过程中有一个keyError,解决的办法是添加一个trycatch来捕获这个error,这条决策路径不一定是对的,比如说如果前置的代码里面已经有这个keyError了,那么后面再捕获这个error就没有意义。如果是人来进行决策,就会对可能的清况有一个更详尽的分析(或者说直觉);6.抛开各种营销号吸引眼球的标题,现在来说Devin代替开发者还太早,不过自动驾驶Day1也不是能直接上路驾驶的,L5级别的自动化软件开发一定是终局;7.Devin在用户交互上提供了一些新的探索,不再是调用外部的工具,而是自己维护了一套系统内的shell,codeeditor,browser,这样的好处是可以自定义一套DSL来操作这些工具。但是如果考虑到现阶段没有办法实现完全的无干预coding的话,这套方案是和现在的整个developmentworkflow脱离的。------一些私货:1.Devv最开始的愿景就是RedefinedevelopmenttoolsandachieveL5levelofautomatedsoftwaredevelopment.为什么没有选择直接做一个automatedcodingagent,就是因为当前的技术还不满足构建一个能够在生产环境使用的codingagent,作为一家商业公司,这个路是很难直接走通的。Devv的方法是先选择能够落地的、开发者日常最高频和刚需的信息检索这个场景去切入;2.DevvAgent当前的目标也不是做一个完全automated的agent,而是在更好地辅助开发者去解决开发流程中遇到的问题,本质上还是在copilot。Jiayuanfromdevv.ai