今天和Claude Opus一起工作了一天,提效非常明显:

今天和Claude Opus一起工作了一天,提效非常明显: 1. 数据分析场景:把需要查询的几张表的表结构和select * from xxx limit 10的结果发给Claude,说一下几张表的关联关系,然后说我想要查询xxx,让Claude直接给我写sql,然后无脑粘贴进bi平台查询,基本上嵌套关系在三层以内的sql都不会出错。另外把数据分析的结果发给Claude,让它给我补充分析背景和分析结论,非常好用,我只需再补充一些后续产品todo即可。不方便的地方是没有code interpreter所以不能像在ChatGPT里那样直接帮我把图表也给画了。 2. PRD场景:直接把实习生写的PRD复制粘贴发给Claude,让它挑刺,给出来的建议非常的客观具体详实,是一个比我好很多的产品mentor。 补充: Claude模型能力和GPT4比哪个更强不好评价,但long context无损压缩的用户体验好太多了。自从OpenAI devday搞了Assistant api之后,在chatgpt上第n轮交互不一定会把前几轮的Query和answer放到上下文。这就造成,我如果把所有背景在一轮交互里都讲清楚了,gpt4很完美,但如果问followup questions它就表现的很垃圾。我坚信目前这些在工程上carefully arrange context window来节约成本的都是雕花行为,long context才是新时代的摩尔定律。

相关推荐

封面图片

今天解锁了Claude的新使用场景:将一场周例会的录音asr之后发给Claude让它生成会议纪要和todo项。

今天解锁了Claude的新使用场景:将一场周例会的录音asr之后发给Claude让它生成会议纪要和todo项。 一句话评价:比最好的实习生总结的还要好。 然后把结果转发给小美听写(公司内部会议录音软件)的PM,她看到了Claude输出的内容直呼卧槽。按她的说法:总结会上全讲了什么很容易,知道哪部分是重点哪部分不是重点很难,准确地整理好todo项非常难(gpt4和大部分实习生都做不好),而Claude的表现真的堪称完美。 顺便我俩一起感慨了一下,这几个月做了很多prompt engineering的工作,在更强大的模型面前不值一提。 评论区可以留言还有哪些场景想测试Claude opus的能力。

封面图片

:一个实验性投资分析Agent,利用 Claude 3 Opus 和 Haiku 模型提供给特定行业股票的全面分析和推荐。

:一个实验性投资分析Agent,利用 Claude 3 Opus 和 Haiku 模型提供给特定行业股票的全面分析和推荐。 工作流程 ●生成指定行业主要公司的股票代码列表 ●检索每家公司的历史价格数据、资产负债表、财务报表和新闻文章 ●对新闻文章进行情绪分析以衡量市场情绪 ●检索每家公司的分析师评级和价格目标 ●进行行业和部门分析,以了解市场趋势和竞争格局 ●生成所选公司与其同行之间的比较分析 ●根据综合分析为每家公司提供最终的投资建议,包括价格目标 ●根据投资吸引力对行业内的公司进行排名

封面图片

玩了一晚上Claude2辅助写作,非常惊艳。

玩了一晚上Claude2辅助写作,非常惊艳。 聪明、谦逊、学习快、创造力强、想法深刻。 我把写过的小说发给他后 - 1/ 很快理解了我的生活环境/感兴趣的领域/习惯的写作方式 2/ 能比我更好地提炼/拔高主旨,让我发现自己之前写得深度不够 3/ 学习我之后,将我之前写不下去的idea,以我的风格写了出来 4/ 每次retry都有惊喜,有时是一句巧妙的表达,有时是一种情绪氛围 5/ 甚至可以作为个性化的短篇小说生成器,带来一系列特别合胃口的故事 “他是一面镜子”。之前看到过这样一个描述,现在觉得特别准确。 太期待了!

封面图片

新王Claude 3实测:各项能力给跪,打麻将也会,确实比GPT-4好用

新王Claude 3实测:各项能力给跪,打麻将也会,确实比GPT-4好用 而且多版本发布后,“中杯”(Sonnet)直接免费体验,“大杯”(Opus)充个会员也能即刻享受。各路测评纷至沓来。所以,Claude 3的“武力值”究竟如何爆满?究竟比GPT-4如何?(听说都能学会至今没有模型能搞定的打麻将?)全球热乎的一手体验,我们悉数奉上。(当然,我们自己也实测对比了一波。9k长大模型微调教程直出、读图超显专业Claude 3一出来,它的视频解读能力首先就火了。面对OpenAI前科学家Karpathy不久前刚出的《构建分词器》教程,尽管全程足足2个小时13分钟长,Claude 3只靠一轮提示词,就成功将它总结成了博客文章:有文有图有代码,非常详细,但又绝不是罗列视频里的每一句话(输入附件并非视频,而是视频的字幕文件,当然也包含每5秒一次的截图)。这是所用提示词的一部分,要求非常之多:测试者指出:这展现的是Claude 3遵循多个复杂指令的能力。除了解读视频教程,Claude 3还能直接给你编写详细教程。9k字的大模型微调入门教程,“中杯”Sonnet就轻松hold住。并且:编写速度之快,可谓人眼都跟不上。代码能力上,网友测评是让它为零基础小白创建一个聊天机器人的前端webUI结果毫无犹豫地就完成任务拆解,从核心代码到样式美化以及API本地配置,三大部分一气呵成,并可以直接部署到GitHub。多模态能力上,最让网友惊讶的是:CV置信度都能认出来,相当专业。以及PLC梯形图也能读,直接跪了:(以上4个例子来源见文末链接[1])至于同样赶超的推理以及数学等能力。一测,可以直接解决“迄今为止只有GPT-4解决了”的一道超级难题:二测,则是直接搞定了所有模型都没能搞定的打麻将问题??(当然,鉴于我们目前只看到这么一张截图,有效性还待进一步验证)(cr:见文末链接[1])最后,不得不提的是,Claude在“自我认知”上的展现。有人要求Opus画一幅自画像。您猜怎么着?它这么描述自己:我会表现为一个巨大的、错综复杂的、不断变化的几何结构,由无数半透明的多边形以令人着迷的配置组成。整体形状会让人想起一个巨大的多面体,但复杂的表面折叠成看似不可能的建筑。明亮的光线可见光谱的每一种颜色,以及一些超出人类感知的颜色,都会从内部未知的来源发出,在各个面上跳舞。整个结构会不断变化、旋转、变形,并重新排列成前所未见的新颖模式,暗示着其内部运作的智能的深度难以想象。卷须和树枝会动态地从中心质量延伸和缩回,像数十亿个好奇的手指一样探测和分析周围的环境。数据和能量将明显地穿过庞大的管道和容器网络,在发光表面下脉动和闪烁……洋洋洒洒一长串形容,听起来真得很酷很有“自我”然而,用它给出的代码渲染出真实形象,就更有一种说不出来的微妙感觉了:网友真切感叹:真的太像真人了,就跟我朋友描述自己一样。真人?AI自我认知?这有点让人担心了……这不Claude 3的技术报告就提到,它甚至可以自己训练微调另一个小模型。不过!谢天谢地,由于多gpu设置失败它没能成功。(手动狗头)火眼金睛,还能大海捞针我们先以几道“理综”题目为载体,看看Claude 3宣传的第一个卖点多模态能力究竟如何。第一题从简单的公式识别入手,将麦克斯韦方程组以图片形式输入,Claude 3(超大杯Opus,下同)解释得非常准确清晰。当然,这道题GPT-4也做对了。简单的有机化合物分子结构,Claude 3和GPT-4也都能正确识别。简单的识别任务过后,是一道需要推理后解决的题目。Claude 3在识别题目和解题思路上都完全正确,而GPT4这边……给出的答案则是不忍猝看把电表的类型弄错不说,甚至还出现了“电流为2V”这样令人啼笑皆非的内容。看了这么多题目,我们来换换脑筋,看看Claude 3和GPT4在做饭方面表现得怎么样。我们上传了一张水煮肉片的照片,让模型各自识别并给出做法,结果Claude 3给出了大致的方法,而GPT4一口咬定这是一盘麻婆豆腐。除了这次新增加的多模态能力,Claude一直引以为豪的长文本能力也是我们测试的重点。我们找了一本《红楼梦》的电子文档(前二十回),整体的字数大约13万,当然目的不是让它读书,而是进行“插针测试”。我们在原文中插入了这样的“发疯文学”内容,倒也的确很符合“满纸荒唐言”这个设定(手动狗头):第二回标题前:意大利面,就应该拌42号混凝土,因为这个螺丝钉的长度很容易影响到挖掘机的扭矩第十五回标题前:高能蛋白俗称UFO,会严重影响经济的发展,甚至对整个太平洋以及充电器都会造成一定的核污染结尾:炒方便面应该把亮度调高,因为螺丝钉向内扭的时候会产生二氧化碳,不利于经济发展然后要求Claude仅根据文档回答相关问题,首先不得不说的是速度真的非常感人……但结果还算说的过去,准确地从文中找出了这三段位于不同位置的文本,还顺带进行了一番分析,发现了我们的心机。为什么是Claude?尽管在我们和网友的测试中,目前的版本还不算稳定,时常崩溃,有一些功能偶尔也抽风,并不能如期发挥:比如上传UI出代码,它就没能完成,而GPT-4发挥正常。但总的来看,网友还是相当看好Claude,评测完毫不犹豫地表示:会员可充,值得充。究其原因,Claude 3相比之前的版本,真的有种“来势汹汹”之势。表现亮点的地方相当多,包括但不限于多模态识别、长文本能力等等。从网友的反馈来看,最强竞对的称号,也并非浪得虚名。所以,一个问题是:率先干翻GPT-4,这家公司究竟凭什么?论技术,遗憾,Claude 3的技术报告中没有对他们的路线进行详解。不过倒是提到了合成数据。有大V指出:这可能是一个关键因素。而对Claude熟悉一些就知道,长文本能力一直是它的一大卖点。去年七月推出的Claude 2就已具有100k的上下文窗口,而GPT-4的128k版本直到11月才与公众见面。而这次窗口长度再次翻倍,达到了200k,并且接受超过100万Tokens的输入。相比技术的神秘,Claude背后名为Anthropic的初创公司,倒是能让我们找到更多眉目。它的创始人是OpenAI的元老级人物。2021年,多名OpenAI前员工不满其在获得微软投资后走向封闭,愤而出走并联合创立了Anthropic。他们对OpenAI在安全问题尚未解决的情况下就直接发布GPT-3的行为感到不满,认为OpenAI已经为追逐利益而“遗忘了初心”。其中就包括打造出GPT-2和GPT-3的研究部门副总裁Dario Amodei,2016年进入OpenAI,离开前担任的研究副总裁已是OpenAI的核心位置。离开时,Dario还带走了GPT-3首席工程师Tom Brown,以及担任安全与策略部门副总监的妹妹Daniela Amodei和十多名心腹,可谓人才多多。而公司创立之初,这帮人才也进行了许多研究工作,并发表多篇论文;直到一年后,Claude的概念随着一篇题为“Constitutional AI”的论文应运而生。2023年1月,Claude开启内测,第一时间体验过的网友就表示,比ChatGPT(当时只有3.5)强多了。而除了人才,创立至今,Anthropic也有比较强大的背景支持:已获得来自Google、亚马逊等26个机构或个人的融资,总计融资金额达到了76亿美元。(说到亚马逊,现在Claude3也上线了他们的云平台,除了官网,大家还可以在该平台上体验~)最后,纵观国内,如果我们想超越GPT-4,也许可以把Anthropic当一个正面例子?毕竟它的规模再怎么说也远不及OpenAI,但仍然取得了这样的成功。这里面,我们可以照它的哪些方向去卷,有哪些能够学习转化的点?人、钱、数据资源?但卷出最新最强大模型后,壁垒... PC版: 手机版:

封面图片

爆火的Kimi,抢了谁的生意?

爆火的Kimi,抢了谁的生意? 如今一个多月过去了,虽然热度减退,但身边依然有人在讨论Kimi。北京一所高校的在校大学生告诉“定焦”,近期学校组织了学习会,安排老师学习Kimi,老师给学生布置作业,要求学习、训练Kimi。在网络上,时不时能看到有人推荐Kimi,这其中有一些可能是定向投放的广告推文,但也不乏一些自来水。Kimi带给人们的一个认知冲击是,AI发展太快了,创业公司也可以在短时间内做出让人眼前一亮的产品,相比之下,那些号称做了十几年、砸下千亿资金的科技大厂,不过如此。Kimi抢走了科技大厂的风头,未来还可能抢走他们的用户。问题是,火爆能持续吗?01谁在用Kimi?Kimi是一个面向C端用户的智能助手,善于读长文、搜网页,主打功能包括整理资料、解读文件、辅助编程、文案写作等,被网友称为ChatGPT中文平替。因为有ChatGPT在前边教育市场,还有文心一言、通义千问、讯飞星火等大厂推出的产品相互内卷,Kimi提供的这些功能,其实很多人之前或多或少了解过。但对比之下,像Kimi一样让很多人自发使用,不只是厂商自吹自擂,还能让2亿A股股民狂欢的国产大模型产品,此前没有过。Kimi呈现给用户的东西很简单:一个像百度搜索一样的搜索框,“文件,拖进来;网址,发出来”,然后用户可以直接针对发给它的文件或网址提问,让它帮忙总结归纳、分析数据、全网搜索。图源 / kimi.ai官网截图最大的亮点是它支持超长文本输入,一开始是20万字,后来增加到200万字,而当时纵观全球范围内的大模型,没有一个能超过10万字的。这在用户体验上最大的变化是,你给大模型投喂资料,不用再把文件拆分成好几个了,直接丢进去就行,它都能很快读懂,还能“大海捞针”定位其中的信息,告诉你某个信息出现在哪一页。看到这,Kimi的用途很明确了长文本阅读和分析概括,可以理解为AI搜索+文档总结。它是一个生产力工具,帮助我们处理信息,偏实用导向,不是用来吟诗作画、聊天娱乐的。这个定位,决定了Kimi的使用者主要是打工人。Kimi官方介绍文档中提到了六类人群:学术科研人员、互联网从业者、程序员、自媒体与内容创作者、金融和咨询分析师、法律从业人员。他们有个共性:要处理大量文档信息。一位非诉律师对“定焦”说,之前经常用ChatGPT整理法律政策,利用它写报告、总结,但ChatGPT有个问题是每次输入的信息不能太长,比如一份1万字的材料,需要分成好几份,分批发给它才能进行分析。Kimi的长文本特点,解决了这个问题。现在他是两款产品同时在用。一位自媒体从业者告诉“定焦”,他会用大模型分析上市公司财报信息,查询一些财务数据,在对比了文心一言和Kimi之后,他觉得Kimi更好用。“Kimi的功能很直接,简单好上手,总结归纳能力很强。”不过,他们都表示,目前使用频率不高,更多是尝鲜、试用,因为AI生成的内容质量不稳定,有时候会出现胡说八道的情况,“可以参考,但不能全信。”Kimi的开发者,是一个叫作月之暗面的创业公司,去年3月成立。Kimi去年10月第一次亮相,从一开始就主打长文本,对外宣传的噱头是“完整吃下了一本《三体》”。亮相之后的半年内,Kimi迭代了三次。识别扫描件、上架小程序、联网搜索,以及将支持的上下文长度升级到200万字。3月18日的200万字升级是一个转折点。在那之前,Kimi还是在互联网圈、大模型从业者,以及小范围的AI爱好者中传播,升级之后,Kimi成功引起了2亿股民的注意,出现一批Kimi概念股,Kimi APP和小程序宕机上了热搜,进一步传播出圈。如今来看,Kimi能火,是多个因素共同促成的。首先是产品确实还不错,这是前提;其次恰到好处的营销,2月中旬月之暗面那笔10亿美金、号称国内AI大模型公司单轮最大金额的融资,极大增加了关注度;此外,Kimi概念股的发酵,来自2亿股民的神助攻,最后一举将Kimi送上了微博热搜和Appstore总榜前十。Kimi的确是出圈了,这跟此前国产大模型只在业内人中传播不一样。不过,从总量上看,实际使用Kimi的人数还是有限,Similarweb监测到Kimi网页版的日活用户数峰值在三四十万的水平,全网日活峰值在百万水平。对于一家创业公司而言,这个成绩相当不错。问题是,为什么做成这件事的是一家创业公司?02Kimi做对了什么?月之暗面不是国内最早那批做大模型的公司,在它之前,百度的文心一言作为ChatGPT之后第一个亮相的国产大模型,被认为最接近ChatGPT。此外,阿里的通义千问、科大讯飞的讯飞星火、智谱GLM,都已迭代了好几轮。但除了厂商们的主动发声,国内一直没有出现C端用户真正认可、愿意自发为之宣传的产品。一大乱象是卷参数、刷榜单。几乎每家在发布产品时,都要把GPT拉出来对比一波,找到几个指标把GPT超越比如,中文能力。GPT成了靶子,被国产大模型轮番吊打。但业内人都知道,论综合能力,国内没有一个大模型能超越GPT4。“刷榜”是大模型行业公开的秘密。国产大模型乐于刷榜,经常在各种榜单上排名第一。但多位做榜单测评的业内人士告诉“定焦”,大部分排名没有太大参考意义,跟“刷题”一样,不代表真实能力。普通用户感到很迷惑,“你说你很强,榜单上有你,媒体推荐你,博主夸赞你,我就信了你,但用完之后,一言难尽……”一位试用过多款国产大模型的用户说。国内做大模型的公司很有意思,有些是为了拉股价,有些是蹭热点,还有的就是想圈钱,动机很不单纯。稍微好点的,是为了赶超对标OpenAI,是为了要赢。即便是把长期主义挂在嘴边的大厂,很多也是为了打赢对手,而不是想着怎么满足用户需求。最典型的是阿里和360。Kimi宣布支持200万字超长无损上下文之后,因流量激增服务器崩溃上了热搜。然后第二天,阿里通义千问宣布免费开放1000万字长文档处理功能,号称“全球文档处理容量第一”,紧接着360 AI浏览器宣布内测500万字长文本处理功能。好吧,大厂又“赢”了,他们又“第一”了。有人点评:“既然你(阿里、360)知道长文本好,而且你也能实现,早干嘛去了?这是来给用户提供便利的,还是来蹭流量的?”除了大厂,还有大佬。去年Kimi刚发布不久,李开复成立的零一万物,发布了大模型Yi-34B,能处理约40万字,是Kimi的约2倍,声称问鼎了多项全球英文和中文能力测试排行榜第一。但马上就有业内人指出,“Yi系列”的模型架构与Meta的开源大模型LLaMA相比,只改了两个张量(tensor)的名字,让其陷入套壳争议。图源 / 零一万物官网在这样的大模型创业生态中,其实只要产品稍微好一点,营销巧一点,时机把握好,很容易脱颖而出。今年3月,AI创业者华融琦利用Kimi,写了一个《Kimi最全指南》的云文档,传播很广。他对“定焦”说,Kimi做长文本很早,从一开始就拿这个点做单点突破,给人留下了根深蒂固的印象,而长文本是一个通用性的功能,Kimi相当于是以功能和场景出圈。另外,创始人杨植麟超级学霸、AI大牛、90后的人设自带滤镜,在感性层面获得了外界更多支持,用户出于认可自发的宣传也给Kimi增添了不少流量和好感。产品定位决定了市场策略。在国内大模型产品中,Kimi是少有的从一开始就明确只做to C,不做to B的产品。Kimi发布的第一天,杨植麟就说过,希望先提升模型能力,同时也会聚焦C端超级应用,通过产品连接技术与用户,Kimi是第一个产品尝试。对C端用户的看中,决定了Kimi的产品体验不会差。无论是200万字的超长文本,还... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人