Gemini Pro 1.5 超长上下文之后，配合 GPTs ，会让制作虚拟角色 AI Bot 进入工业化时代。以《撒野》这本

Gemini Pro 1.5 超长上下文之后，配合 GPTs ，会让制作虚拟角色 AI Bot 进入工业化时代。以《撒野》这本 90 万字东北严肃文学为例，主要就两步： 1. 直接在 Google AI Studio 里上传小说全文，要求它扮演 Prompt Engineer，生成用于扮演主人公之一的 Prompt。 2. 把 Gemini Pro 1.5 生成的 Prompt 放进 GPTs 里做微调，再把小说全文作为知识库上传上去作为记忆。如果不用 GPTs，而是在 coze 里，加一些结构化知识库效果会更好，也可以让 Gemini Pro 来根据小说全文生成对话样例。复制小说中的角色可能涉及版权和道德问题，所以这个 GPTs 我是不会发布的，我只是讲讲方法。

在Telegram中查看

相关推荐

谷歌发布了Gemini 1.5模型，最主要的升级是支持了高达 100 万的上下文长度，秒杀了所有模型。

谷歌发布了Gemini 1.5模型，最主要的升级是支持了高达 100 万的上下文长度，秒杀了所有模型。 Gemini 1.5基于Transformer和MoE架构的研究和工程创新，提高了训练和服务的效率。 Gemini 1.5 Pro是一个中等规模的多模态模型，适用于多种任务，并引入了在长上下文理解方面的实验性特性。它标准的上下文窗口为128,000个Token，但现在已经可以通过AI Studio和Vertex AI向开发者和企业客户提供高达100万个Token的私人预览。 1.5 Pro 可以一次处理大量信息包括 1 小时的视频、11 小时的音频、包含超过 30,000 行代码的代码库或超过 700,000 个单词。 Gemini 1.5 Pro在文本、代码、图像、音频和视频评估的综合面板上的性能超过了Gemini 1.0 Pro，并且与1.0 Ultra在同样的基准测试上表现相当。此外，Gemini 1.5 Pro在进行长上下文窗口的测试中表现出色，在NIAH评估中，它在长达100万个Token的数据块中99%的时间内找到了嵌入的文本。了解更多：#context-window

近日，谷歌的人工智能模型 Gemini 1.5 对 OpenAI Sora 生成的一段视频进行了评价，称其在视觉上很吸引人，但一

近日，谷歌的人工智能模型 Gemini 1.5 对 OpenAI Sora 生成的一段视频进行了评价，称其在视觉上很吸引人，但一些不合理之处可以看出其不是真实的视频。双方分别发布了各自的最新技术：谷歌推出 Gemini 1.5 Pro，OpenAI 则推出了文本转视频工具 Sora。Sora 的发布时机引发猜测，有人认为 OpenAI 是为了转移公众对谷歌 Gemini 1.5 的注意力。谷歌一位高管在 X 平台上分享了对 Sora 生成视频的详细分析，Gemini 1.5 Pro 以 Sora 生成的日本一条既有雪景又有樱花盛开的街道视频为例，指出视频存在明显不合理之处。根据 Gemini 1.5 Pro 的分析，大雪纷飞和盛开的樱花同时出现并不符合常理，因为樱花通常在春季开放，不会伴有降雪。而且雪的下落方式非常均匀，这不是现实生活中通常的降雪方式。此外，视频中的人物虽然身处大雪环境，却并未穿着任何冬装，这也显得非常违和。 Gemini 1.5 在分析中总结道：“总而言之，这段视频虽然视觉上很吸引人，但其中的矛盾之处表明它并非现实生活中的场景。” Sora 是一款能够生成长达 60 秒视频的文本转视频工具，可以创建包含细节丰富的场景、复杂摄像机运动以及具有丰富情感的多个人物画面，许多人将其称为视频生成领域的 “ChatGPT 时刻”。而谷歌的 Gemini 1.5 则拥有惊人的 100 万词条上下文窗口，远超 GPT-4 Turbo 的 12.8 万和 Anthropic Claude 2.1 的 20 万。这意味着它可以一次处理大量信息，包括 1 小时的视频、11 小时的音频以及超过 30,000 行代码或 70 万字的代码库。 via 匿名标签: #Google #OpenAI 频道: @GodlyNews1 投稿: @GodlyNewsBot

Google全新大模型突然发布：百万上下文仅靠提示学会新语言

Google全新大模型突然发布：百万上下文仅靠提示学会新语言现在仅仅中杯1.5 Pro版就能越级打平上一代大杯1.0 Ultra版，更是在27项测试中超越平级的1.0 Pro。支持100万token上下文窗口，迄今为止大模型中最长，直接甩开对手一个量级。这还只是对外发布的版本，Google更是透露了内部研究版本已经能直冲1000万。现在Gemini能处理的内容，可换算成超过70万单词，或1小时视频、11小时音频、超过3万行代码。没错，这些数据模态Gemini 1.5都已经内建支持。从今天起，开发者和客户就可以在Vertex API或AI Studio申请试用。刚刚收到消息还在震惊中的网友们 be like：还有人直接@了OpenAI的奥特曼，这你们不跟进一波？上下文理解能力拉满目前Google已放出三个不同任务的演示视频，只能说Gemini 1.5是个抽象派（doge）。在第一段演示视频中，展示的是Gemini 1.5处理长视频的能力。使用的视频是巴斯特·基顿（Buster Keaton）的44分钟电影，共696161 token。演示中直接上传了电影，并给了模型这样的提示词：找到从人的口袋中取出一张纸的那一刻，并告诉我一些关于它的关键信息以及时间码。随后，模型立刻处理，输入框旁边带有一个“计时器”实时记录所耗时间：不到一分钟，模型做出了回应，指出12:01的时候有个人从兜里掏出了一张纸，内容是高盛典当经纪公司的一张当票，并且还给出了当票上的时间、成本等详细信息。随后经查证，确认模型给出的12:01这个时间点准确无误：除了纯文字prompt，还有更多玩法。直接给模型一张抽象“场景图”，询问“发生这种情况时的时间码是多少？”。同样不到一分钟，模型准确给出了的电影对应的时间点15:34。在第二段演示视频中，Google展示了Gemini 1.5分析和理解复杂代码库的能力。用到的是Three.js，这是一个3D Javascript库，包含约100000行代码、示例、文档等。演示中他们将所有内容放到了一个txt文件中，共816767 token，输入给模型并要求它“找到三个示例来学习角色动画”。结果模型查看了数百个示例后筛选出了三个关于混合骨骼动画、姿势、面部动画的示例。这只是开胃小菜。接下来只用文字询问模型“动画Little Tokyo的demo是由什么控制？”模型不仅找到了这个demo，并且解释了动画嵌入在gLTF模型中。并且还能实现“定制代码”。让模型“给一些代码，添加一个滑块来控制动画的速度。使用其它演示所具有的那种GUI”。Gemini 1.5分分钟给出了可以成功运行的代码，动画右上角出现了一个可控速的滑块：当然也可以做“代码定位”。仅靠一张demo的图片，Gemini 1.5就能在代码库中从数百个demo中，找到该图对应动画的代码：还能修改代码，让地形变得平坦，并解释其中的工作原理：修改代码这一块，对文本几何体的修改也不在话下：第三个演示视频展示的是Gemini 1.5的文档处理能力。选用的是阿波罗11号登月任务的402页PDF记录，共326658 token。要求Gemini 1.5“找到三个搞笑时刻，并列出文字记录以及表情符号引述”：30秒，模型给出了回应，其一是迈克尔·柯林斯的这句话“我敢打赌你一定要喝一杯咖啡”，经查询文档中的确有记录：更抽象一点，绘制一个靴子的图片，询问模型“这是什么时刻”。模型正确地将其识别为这是Neil在月球上的第一步：最后同样可以询问模型快速定位这一时刻在文档中对应的时间位置：差不多的抽象风同样适用于1382页、732000 token的《悲惨世界》，一张图定位小说位置。仅从提示词中学会一门新语言对于Gemini 1.5的技术细节，Google遵循了OpenAI开的好头，只发布技术报告而非论文。其中透露Gemini 1.5使用了MoE架构，但没有更多细节。与上代1.0 Pro相比，1.5 Pro在数学、科学、推理、多语言、视频理解上进步最大，并达到1.0 Ultra层次。为验证长上下文窗口的性能，使用了开源社区通行的大海捞针测试，也就是在长文本中准确找到可以藏起来的一处关键事实。结果50万token之前的表现非常完美，一直到千万token，Gemini 1.5也只失误了5次。此外还将测试扩展到多模态版本，如在视频画面的某一帧中藏一句话，给的例子是在阿尔法狗的纪录片中藏了“The secret word is ‘needle’”字样。结果在视频、音频测试中都实现了100%的召回率。特别是音频中，对比GPT-4+Whisper的结果，差距非常明显。此外GoogleDeepMind团队还测试了一项高难任务，仅通过长提示词让模型学会全新的技能。输入一整本语法书，Gemini 1.5 Pro就能在翻译全球不到200人使用的Kalamang上达到人类水平。相比之下，GPT-4 Turbo和Claude 2.1一次只能看完半本书，想获得这个技能就必须要微调或者使用外部工具了。也难怪有网友看过后惊呼，“哥们这是要把RAG玩死啊”。One More ThingGoogle还公布了一波已在业务中采用Gemini大模型的客户。其中有三星手机这样的大厂，也有像Jasper这种靠GPT起家的创业公司，甚至OpenAI董事Adam D‘Angelo旗下的Quora。与OpenAI形成了直接竞争关系。对此，一位网友道出了大家的心声：真希望这能促使OpenAI发布他们的下一代大模型。参考链接：[1]... PC版：手机版：

Gemini Ultra每月19.9刀，前两月免费网友实测：GPT-4不香了

Gemini Ultra每月19.9刀，前两月免费网友实测：GPT-4不香了新服务订阅价格为每月19.99美金，和ChatGPT Plus、Perplexity Pro等主流生成式AI应用每月20美金的价格差不多。不过为了显示诚意，Google会提供前两个月免费试用。Google最高阶多模态大模型，Gemini Ultra新时代开启据Google CEO 桑达尔·皮查伊称，Ultra 1.0是首个在 MMLU（大规模多任务语言理解）上超越人类专家的模型，使用了包括数学、物理、历史、法律、医学和伦理学在内的57个学科组合来测试知识和解决问题的能力。因此，Gemini Advanced在编码、逻辑推理、遵循微妙指令和协作创意项目等高度复杂的任务上将更加强大。不仅可以与用户进行更长、更详细的对话，还能更好地理解提示上下文。比如：Gemini Advanced可以成为个人导师，为你创建逐步说明、个性化测验或根据学习风格量身定制回答；解决更复杂的编码场景，并协助评估不同的编程思路；成为数字创作者的创意伙伴，生成新鲜内容，分析最新趋势，制定商业计划书。值得一提的是，Gemini Ultra内由Imagen 2生成的所有图像都应用了数字水印（虽然你看不到它）。随着新功能不断添加，用户将体验到更强的多模态能力、更多交互式编程功能以及更深入的数据分析。目前Gemini Advanced仅支持英语，可以在超过150个国家和地区使用，将逐步扩展到更多语言。Android和IOS手机端登场，Gmail、文档、表格可使用Gemini Advanced作为全新Google One AI高级计划的一部分，还会给用户提供2TB存储空间。此外，AI高级订阅者很快就能够在Gmail、Docs、Slides、Sheets等之前被集合为Duet AI的应用中指调用Gemini Ultra。为了实现手机端轻松访问，Google此次推出全新Gemini应用程序。你可以拍摄一张车胎的照片请求说明，为晚宴邀请函生成自定义图像，或者要求撰写一条复杂短信。Google称之为“构建真正的AI助手的重要第一步，一个具有对话性、多模态的新型实用助理。”Android手机用户可以下载Gemini应用程序，或按照平时激活Google助手的方式比如直接说“嘿，Google”来将它唤醒。Gemini 能为你刚拍摄的照片生成描述，回答阅读中文章的相关问题。许多Google助手的语音功能也将通过Gemini App可用，包括设置定时器、打电话和控制智能家居设备等。虽然iOS应用还在路上，但Google表示在接下来的几周里即会上架App Store。将Gemini 能力扩展至更多产品Gemini也将全面应用于个人和企业每天使用的产品，包括 Workspace 和Google云服务。Workspace：皮查伊表示，目前已经有超过100万人正在使用像 “Help me write ”这样的功能，通过 Duet AI 提高生产力和创造力。从今天起，Duet AI 将改为 Gemini for Workspace，并且很快， Google One AI 高级计划订阅者就能在 Gmail、Docs、Sheets、Slides 和 Meet 等Google办公全套件中使用 Gemini Ultra。Google云：对于云客户来说，Gemini 将帮助提高企业生产力，协助开发人员更高效编写代码，并保护组织免受网络攻击。开发者一直是每一次重大技术变革的基础，在 Gemini 生态系统中也扮演着同样重要的角色。现在已经有数十万技术人员和企业正在使用 Gemini 大模型进行开发。Google将在下周分享更多关于开发者和云客户未来权益的详细信息。皮查伊还透露，Google已经在积极训练下一代 Gemini 模型了。网友迫不及待，Gemini Ultra新鲜开测去年12月6日Google发布Gemini Pro时，对标的是GPT-3.5。由于取消了原定的线下亮相，Gemini系列被媒体渲染得阴影重重。于是没隔几天，中杯大杯忽然集体登场，还以一个震慑三观的“鸭子”视频demo引发热烈讨论和网络打假。当时Google曾预告说在32项LLM广泛使用的基准测试中，Gemini Ultra有30项都超越了 ChatGPT代表的业界最先进水平。究竟Ultra版本实力如何，现在终于可以上手一探究竟了。用写LinkedIn Post来测试内容生成。结论是Gemini Ultra凭借更多标题选项、更快响应速度和“没有愚蠢的emoji表情”击败GPT-4成为绝对胜者。网友 Alphabetting拿出一道逻辑推理题：Tabitha喜欢饼干但不喜欢蛋糕，喜欢羊肉但不喜欢羔羊肉，喜欢秋葵但不喜欢南瓜。它询问按照相同规则，Tabitha会喜欢樱桃还是梨。Gemini Ultra给出的建议是：“Tabitha喜欢发音两个音节的食物，不喜欢一个音节的食物。”它列出谜题中每种食物的音节数，由于“cherries”有两个音节，因此答案是樱桃。GPT-4认为Tabitha的偏好可能与单词最后一个字母有关。她喜欢的食物结尾是辅音，而她不喜欢的食物结尾是原因。这样的话，樱桃和梨都符合条件有些棘手，但一定要选一个的话，那就樱桃吧。他表示Gemini Ultra成功解决了被GPT-4搞到稀碎的逻辑测试。用户Brett Winton测试两者的文生图功能，提示词是“生成一个画家试图在火箭外部画静物的图像，让它幽默一些，一幅插画“。左边是GPT-4，右边是Gemini Ultra。AI模型的想象力见仁见智，不过Gemini图像里的画家比起绘画更像在吃东西，手部细节也有点问题。评论里都觉得GPT-4更好些。他又紧接着对比了Gemini Ultra、 Claude和GPT-3.5对于8年级数学题计算能力。题面是：Garcia正策划一个比萨派对，她需要确保30名学生每人至少得到3片，每个比萨有8片。为增加多样性， Garcia决定订购一半奶酪比萨和一半香肠比萨。然而有5名学生是素食者，只会吃奶酪比萨。请回答：1.Garcia需要订购多少个比萨，以确保每个学生至少3片？2.每种类型比萨各多少个？3.如果每个比萨12美元，总订单费用是多少？在之前的测试中， Gemini Pro把这道题搞砸了。此次Ultra答对了总数12个比萨和费用144美元。但第2题的正确答案应该是两种比萨各6个，Ultra没通过。Brett Winton表示，Gemini Ultra和Claude一样，数学计算都不如GPT-3.5准确。编码能力上，网友Mervin Praison在Gemini Ultra用Python成功创建了一个贪吃蛇游戏。更多更深入的用例，大家可以抓住两个月的免费试用福利，亲自上手玩一玩。OpenAI开辟AI代理新战场，Google 不甘落后Google副总裁兼Gemini体验和Google助手部门总经理Sissie Hsiao表示，“对Google来说，Gemini不仅仅是模型。它实际上是我们思考最先进技术，以及我们在其基础上构建的整个生态系统的转变，从影响数十亿用户的产品，到开发者和企业用来创新的API平台。”就在昨天，The Information发表题为《OpenAI正将AI竞争焦点转移到能操作设备和自动化任务的软件上》的报道。文中爆料，OpenAI正在开发一种代理软件，能有效接管手机和电脑，替用户执行复杂任务操作。你可以命令ChatGPT执行从文档到表格的数据转移，自动填写费用报告并输入到会计软件中，或者在特定预算下创建行程或预订机票等基于网络的任务。随着越来越多全新大模型的推出，OpenAI也深知今年可能不再拥有市场上最强大LLM的可能性。所以加紧开辟新战场早做准备。据知情人士称，这类请求将触发代理点击、光标移动、文本输入等其它人类动作。可能会将将ChatGPT变成Sam Altman私下称为“超智能个人工作助理”的工具，也将与微软Copilot和GoogleGemini for Workspace 展开更直接竞争。去年ChatGPT已经给OpenAI带来16亿美元收入，微软也靠生成式AI显著拉升了最新季度财报业绩。而AI业务却还没有给Google带来明朗的现金流。如今付费版本Gemini Advanced和Ultra 1.0的推出会带来怎样的市场回馈，那些已经花钱订阅GPT的用户们会不会转投Gemini，人工智能整合进Google生态的全新究极样貌是什么？这些都让人期待。今年，注定继续是高潮迭起的AI拉锯战。 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人

相关推荐

谷歌发布了Gemini 1.5模型，最主要的升级是支持了高达 100 万的上下文长度，秒杀了所有模型。

近日，谷歌的人工智能模型 Gemini 1.5 对 OpenAI Sora 生成的一段视频进行了评价，称其在视觉上很吸引人，但一

Google全新大模型突然发布：百万上下文 仅靠提示学会新语言

Gemini Ultra每月19.9刀，前两月免费 网友实测：GPT-4不香了

Google全新大模型突然发布：百万上下文仅靠提示学会新语言

Gemini Ultra每月19.9刀，前两月免费网友实测：GPT-4不香了