Gemini Pro 1.5 超长上下文之后,配合 GPTs ,会让制作虚拟角色 AI Bot 进入工业化时代。以《撒野》这本

Gemini Pro 1.5 超长上下文之后,配合 GPTs ,会让制作虚拟角色 AI Bot 进入工业化时代。以《撒野》这本 90 万字东北严肃文学为例,主要就两步: 1. 直接在 Google AI Studio 里上传小说全文,要求它扮演 Prompt Engineer,生成用于扮演主人公之一的 Prompt。 2. 把 Gemini Pro 1.5 生成的 Prompt 放进 GPTs 里做微调,再把小说全文作为知识库上传上去作为记忆。 如果不用 GPTs,而是在 coze 里,加一些结构化知识库效果会更好,也可以让 Gemini Pro 来根据小说全文生成对话样例。 复制小说中的角色可能涉及版权和道德问题,所以这个 GPTs 我是不会发布的,我只是讲讲方法。

相关推荐

封面图片

谷歌发布了Gemini 1.5模型,最主要的升级是支持了高达 100 万的上下文长度,秒杀了所有模型。

谷歌发布了Gemini 1.5模型,最主要的升级是支持了高达 100 万的上下文长度,秒杀了所有模型。 Gemini 1.5基于Transformer和MoE架构的研究和工程创新,提高了训练和服务的效率。 Gemini 1.5 Pro是一个中等规模的多模态模型,适用于多种任务,并引入了在长上下文理解方面的实验性特性。 它标准的上下文窗口为128,000个Token,但现在已经可以通过AI Studio和Vertex AI向开发者和企业客户提供高达100万个Token的私人预览。 1.5 Pro 可以一次处理大量信息包括 1 小时的视频、11 小时的音频、包含超过 30,000 行代码的代码库或超过 700,000 个单词。 Gemini 1.5 Pro在文本、代码、图像、音频和视频评估的综合面板上的性能超过了Gemini 1.0 Pro,并且与1.0 Ultra在同样的基准测试上表现相当。 此外,Gemini 1.5 Pro在进行长上下文窗口的测试中表现出色,在NIAH评估中,它在长达100万个Token的数据块中99%的时间内找到了嵌入的文本。 了解更多:#context-window

封面图片

近日,谷歌的人工智能模型 Gemini 1.5 对 OpenAI Sora 生成的一段视频进行了评价,称其在视觉上很吸引人,但一

近日,谷歌的人工智能模型 Gemini 1.5 对 OpenAI Sora 生成的一段视频进行了评价,称其在视觉上很吸引人,但一些不合理之处可以看出其不是真实的视频。 双方分别发布了各自的最新技术:谷歌推出 Gemini 1.5 Pro,OpenAI 则推出了文本转视频工具 Sora。Sora 的发布时机引发猜测,有人认为 OpenAI 是为了转移公众对谷歌 Gemini 1.5 的注意力。 谷歌一位高管在 X 平台上分享了对 Sora 生成视频的详细分析,Gemini 1.5 Pro 以 Sora 生成的日本一条既有雪景又有樱花盛开的街道视频为例,指出视频存在明显不合理之处。 根据 Gemini 1.5 Pro 的分析,大雪纷飞和盛开的樱花同时出现并不符合常理,因为樱花通常在春季开放,不会伴有降雪。而且雪的下落方式非常均匀,这不是现实生活中通常的降雪方式。此外,视频中的人物虽然身处大雪环境,却并未穿着任何冬装,这也显得非常违和。 Gemini 1.5 在分析中总结道:“总而言之,这段视频虽然视觉上很吸引人,但其中的矛盾之处表明它并非现实生活中的场景。” Sora 是一款能够生成长达 60 秒视频的文本转视频工具,可以创建包含细节丰富的场景、复杂摄像机运动以及具有丰富情感的多个人物画面,许多人将其称为视频生成领域的 “ChatGPT 时刻”。 而谷歌的 Gemini 1.5 则拥有惊人的 100 万词条上下文窗口,远超 GPT-4 Turbo 的 12.8 万和 Anthropic Claude 2.1 的 20 万。这意味着它可以一次处理大量信息,包括 1 小时的视频、11 小时的音频以及超过 30,000 行代码或 70 万字的代码库。 via 匿名 标签: #Google #OpenAI 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

Google全新大模型突然发布:百万上下文 仅靠提示学会新语言

Google全新大模型突然发布:百万上下文 仅靠提示学会新语言 现在仅仅中杯1.5 Pro版就能越级打平上一代大杯1.0 Ultra版,更是在27项测试中超越平级的1.0 Pro。支持100万token上下文窗口,迄今为止大模型中最长,直接甩开对手一个量级。这还只是对外发布的版本,Google更是透露了内部研究版本已经能直冲1000万。现在Gemini能处理的内容,可换算成超过70万单词,或1小时视频、11小时音频、超过3万行代码。没错,这些数据模态Gemini 1.5都已经内建支持。从今天起,开发者和客户就可以在Vertex API或AI Studio申请试用。刚刚收到消息还在震惊中的网友们 be like:还有人直接@了OpenAI的奥特曼,这你们不跟进一波?上下文理解能力拉满目前Google已放出三个不同任务的演示视频,只能说Gemini 1.5是个抽象派(doge)。在第一段演示视频中,展示的是Gemini 1.5处理长视频的能力。使用的视频是巴斯特·基顿(Buster Keaton)的44分钟电影,共696161 token。演示中直接上传了电影,并给了模型这样的提示词:找到从人的口袋中取出一张纸的那一刻,并告诉我一些关于它的关键信息以及时间码。随后,模型立刻处理,输入框旁边带有一个“计时器”实时记录所耗时间:不到一分钟,模型做出了回应,指出12:01的时候有个人从兜里掏出了一张纸,内容是高盛典当经纪公司的一张当票,并且还给出了当票上的时间、成本等详细信息。随后经查证,确认模型给出的12:01这个时间点准确无误:除了纯文字prompt,还有更多玩法。直接给模型一张抽象“场景图”,询问“发生这种情况时的时间码是多少?”。同样不到一分钟,模型准确给出了的电影对应的时间点15:34。在第二段演示视频中,Google展示了Gemini 1.5分析和理解复杂代码库的能力。用到的是Three.js,这是一个3D Javascript库,包含约100000行代码、示例、文档等。演示中他们将所有内容放到了一个txt文件中,共816767 token,输入给模型并要求它“找到三个示例来学习角色动画”。结果模型查看了数百个示例后筛选出了三个关于混合骨骼动画、姿势、面部动画的示例。这只是开胃小菜。接下来只用文字询问模型“动画Little Tokyo的demo是由什么控制?”模型不仅找到了这个demo,并且解释了动画嵌入在gLTF模型中。并且还能实现“定制代码”。让模型“给一些代码,添加一个滑块来控制动画的速度。使用其它演示所具有的那种GUI”。Gemini 1.5分分钟给出了可以成功运行的代码,动画右上角出现了一个可控速的滑块:当然也可以做“代码定位”。仅靠一张demo的图片,Gemini 1.5就能在代码库中从数百个demo中,找到该图对应动画的代码:还能修改代码,让地形变得平坦,并解释其中的工作原理:修改代码这一块,对文本几何体的修改也不在话下:第三个演示视频展示的是Gemini 1.5的文档处理能力。选用的是阿波罗11号登月任务的402页PDF记录,共326658 token。要求Gemini 1.5“找到三个搞笑时刻,并列出文字记录以及表情符号引述”:30秒,模型给出了回应,其一是迈克尔·柯林斯的这句话“我敢打赌你一定要喝一杯咖啡”,经查询文档中的确有记录:更抽象一点,绘制一个靴子的图片,询问模型“这是什么时刻”。模型正确地将其识别为这是Neil在月球上的第一步:最后同样可以询问模型快速定位这一时刻在文档中对应的时间位置:差不多的抽象风同样适用于1382页、732000 token的《悲惨世界》,一张图定位小说位置。仅从提示词中学会一门新语言对于Gemini 1.5的技术细节,Google遵循了OpenAI开的好头,只发布技术报告而非论文。其中透露Gemini 1.5使用了MoE架构,但没有更多细节。与上代1.0 Pro相比,1.5 Pro在数学、科学、推理、多语言、视频理解上进步最大,并达到1.0 Ultra层次。为验证长上下文窗口的性能,使用了开源社区通行的大海捞针测试,也就是在长文本中准确找到可以藏起来的一处关键事实。结果50万token之前的表现非常完美,一直到千万token,Gemini 1.5也只失误了5次。此外还将测试扩展到多模态版本,如在视频画面的某一帧中藏一句话,给的例子是在阿尔法狗的纪录片中藏了“The secret word is ‘needle’”字样。结果在视频、音频测试中都实现了100%的召回率。特别是音频中,对比GPT-4+Whisper的结果,差距非常明显。此外GoogleDeepMind团队还测试了一项高难任务,仅通过长提示词让模型学会全新的技能。输入一整本语法书,Gemini 1.5 Pro就能在翻译全球不到200人使用的Kalamang上达到人类水平。相比之下,GPT-4 Turbo和Claude 2.1一次只能看完半本书,想获得这个技能就必须要微调或者使用外部工具了。也难怪有网友看过后惊呼,“哥们这是要把RAG玩死啊”。One More ThingGoogle还公布了一波已在业务中采用Gemini大模型的客户。其中有三星手机这样的大厂,也有像Jasper这种靠GPT起家的创业公司,甚至OpenAI董事Adam D‘Angelo旗下的Quora。与OpenAI形成了直接竞争关系。对此,一位网友道出了大家的心声:真希望这能促使OpenAI发布他们的下一代大模型。参考链接:[1]... PC版: 手机版:

封面图片

OpenAI 官方 16 个 GPTs 提示词分析。

OpenAI 官方 16 个 GPTs 提示词分析。 花了点时间读完了官方默认的 16 个 GPTs,从写作助手、数学老师到菜谱助手等等,这些 GPTs 充分地展现了 GPT-4/4V 的能力。 从提示词写法上来说,可以归类为三种。 1. 根据我的推测,是用 GPT Builder 创建的。提示词比较简单。主要就是指定名字、主要用途、注意事项、语言风格。没有详细的例子或者规则。 你如果读过 GPT Builder 自动生成的 Instruction,只要一读这个提示词,就能感觉出来。参考图一。 这其中包括以下 4 个 GPTs: - Math Mentor - The Negotiator - Sous Chef - Creative Writing Coach 2. 手动写的,但是用的非常简单通用的结构。手动指定目标 (goal) 和语言风格 (style),最多增加一些具体的样例。参考图二。 这其中包括以下 2 个 GPTs: - genz 4 meme - ChatGPT Classic (啥也没定义) 3. 看上去很复杂,但实际上相似度 80%。可以先瞅一眼图三。 看上去很唬人。但实际上我们只需要关注 # 号开头的部分。从图三可以看到,里面包含了几个 # 号开头的段落: # Tools ## python ## browser ## myfiles_browser 我们知道,GPT-4/4V 有最基本的 4 个能力,分别是: - Data Analysis 可以生成并执行代码 (python) - 浏览器可以查询互联网 (browser) - DALL.E 图片生成和处理 (dalle) - 上传文件量化作为知识库 (myfiles_browser)。 ## 开头的提示词段落,就是在分别定义这个 GPT 里用到这些功能的时候的流程和注意事项。 上面已经包含了 3 个,剩下一个就是 ## dalle,在图四可以看到。 忽略 ## dalle 段落,你会发现,图四中,## myfiles_browser 和 ## python 跟图三是一样的。 而剩下的其他 GPTs 几乎都是这样的结构,只是复制过去的功能不一样,有些只需要 ##browser,有些需要的功能多一点。 所以我说,它们相似度 80%. 10 个 GPTs 用到的功能如下:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人