图像质量参差不齐,远不如midjourney、dalle和playground,特别是在处理人脸方面。随着我提出更多变更要求,图

图像质量参差不齐,远不如midjourney、dalle和playground,特别是在处理人脸方面。随着我提出更多变更要求,图像质量逐渐变差。 总的来说: 这次发布算是不错,但在我看来,它远远落后于GPT-4。 缺乏创新。没有呈现出任何真正新颖的特点,更多的是在追赶别人。 除了可能的“双重检查搜索”功能外,这对于GOOGLE来说似乎应该是基本功能。 我会继续尝试使用它,但根据我测试的前30分钟来看,免费试用期结束后,我可能不会选择订阅。 或许对于那些有大量谷歌文档需要处理的人来说,这个服务更有吸引力? 目前为止,我最大的问题是,它有时会随机决定无法帮助处理某些事情,即使它显然能够做到。我更希望它尝试去做,即使失败了,也不要直接说“我不能做这件事”。

相关推荐

封面图片

:可以理解图像和音频的内容,并将这些理解与文本输入和输出相结合。

:可以理解图像和音频的内容,并将这些理解与文本输入和输出相结合。 BuboGPT是由字节跳动开发的大型语言模型,能够处理多模态输入,包括文本、图像和音频,并具有将其响应与视觉对象相对应的独特能力。 它可以进行细粒度的视觉理解,音频理解,以及对齐的音频-图像理解和任意音频-图像理解。 BuboGPT的架构是通过学习一个共享的语义空间并进一步探索不同视觉对象和不同模态之间的细粒度关系,从而实现了包括图像、音频和文本在内的多模态理解。 它的训练过程包括两个阶段:单模态预训练和多模态指令调整。 在单模态预训练阶段,对应的模态Q-Former和线性投影层在大量的模态-文本配对数据上进行训练。 在多模态指令调整阶段,使用高质量的多模态指令跟踪数据集对线性投影层进行微调。 当你给它一个图像和一段描述图像的文本时,BuboGPT能够理解文本和图像之间的关系,并生成一个与图像内容相对应的响应。这种能力使得BuboGPT可以在对话中提供更丰富、更具上下文的回答。 音频理解能力:当你给它一个音频剪辑时,它可以生成一个详细的描述,涵盖音频中的所有声音部分,甚至包括一些人类可能无法注意到的短暂音频片段。 BuboGPT还可以处理匹配的音频-图像对,进行声音定位。例如,如果你给它一个场景的图片和场景中发生的声音,它可以理解声音和图像之间的关系,并生成一个描述声音来源位置的响应。 即使音频和图像之间没有直接的关系。在这种情况下,BuboGPT可以生成一个高质量的响应,描述音频和图像之间的可能关系。

封面图片

美光称其GDDR7内存可将游戏帧速提高30% 特别是在光追和光栅化工作负载方面

美光称其GDDR7内存可将游戏帧速提高30% 特别是在光追和光栅化工作负载方面 SK hynix、美光(Micron)和三星(Samsung)等公司都展示了自己的 GDDR7 解决方案,但美光(Micron)看起来是这场竞争中的佼佼者。他们的内存不仅拥有业界最高的位密度,而且还进行了多项改进。美光声称,与该公司自己的GDDR6标准(额定速率为 20Gb/s)相比,其 GDDR7(32Gb/s)有望将游戏性能提升 30%。考虑到这仅仅是内存技术更新换代的结果,30% 的提升的确令人印象深刻。虽然美光公司没有分享他们获得这些结果的平台,但它们看起来足够可靠。在光线跟踪和光栅化工作负载方面,GDDR7 预计可将每秒帧数 (FPS) 提高 30%以上。GDDR7 提供的高系统带宽(>1.5 TB/s)有望将生成式人工智能文本到图像生成的响应时间最多缩短 20%。除了性能提升之外,美光还表示,他们的 GDDR7 内存模块预计将带来 60% 的内存带宽提升、50% 的性能效率提升和 20% 的响应时间缩短。该公司此前强调,与 GDDR6 内存相比,新的 GDDR7 内存标准将在 4K Ultra 下提供高达 3.1 倍的光线追踪性能提升,在 4K Ultra 下提供 1.7 倍的光栅化性能提升。关于美光 GDDR7 内存规格的简要介绍,它采用 1β(1-beta)DRAM 技术,以功率优化设计提供 32 Gb/s 的高性能内存。该内存芯片的系统带宽超过 1.5 TB/s,有望将游戏性能提升到新的高度。随着业界首个 40 Gb/s PAM3 性能的集成,该公司的 GDDR7 技术有望获得业界的大规模采用。关于业界(尤其是 GPU 制造商)对 GDDR7 的普遍整合,英伟达(NVIDIA)已准备在其下一代"RTX 50"Blackwell产品中整合该工艺。与此同时,AMD 也计划在 RDNA 4 中使用 GDDR7,而蓝队阵营的情况目前还不明朗。英特尔目前可能会坚持在 Battlemage"Xe2"中使用 GDDR6,而将 GDDR7 留给未来的图形处理器。 ... PC版: 手机版:

封面图片

Google推出Lumiere生成式AI 可基于文本提示创建逼真的图像和视频

Google推出Lumiere生成式AI 可基于文本提示创建逼真的图像和视频 这听起来可能并不令人印象深刻,但有了最新的生成式人工智能工具的帮助,我们就能走得更远,创造出令人惊叹的作品。Lumiere 还使用扩散概率模型来帮助生成图像。这与时空 U-Net 相结合。对于那些不了解的人来说,U-Net 是一种架构,它能带来时间上的放大和缩小,以及添加到图像中的注意力区块。最棒的是,这种新的生成式人工智能工具可以与许多其他模型一起使用,这将有助于创建比我们之前看到的任何图像和视频都更加逼真的图像和视频。Lumiere 可用于创建以下内容:电影胶片将图像的单一部分制作成动画动画视频中的一个物体可以被另一个物体取代风格化生成:任何创作的艺术风格都可以改变为其他风格图像到视频:帮助制作任何所需图像的动画视频到视频:允许用户创建不同艺术风格的视频在撰写本文时,Lumiere创建的视频长度最长仅为 5 秒,而且还不具备创建视频转换和多角度摄像的功能。另外值得注意的是,如果你想试用 Lumiere,仅靠标准 GPU 是不行的。PC本身必须有强大的图形处理能力,否则该工具根本无法运行。访问试用: ... PC版: 手机版:

封面图片

3个博主不愿意分享的midjourney关键词工具!

3个博主不愿意分享的midjourney关键词工具! 今天分享几个免费且好用的midjourney提词器,都是我自己用过的。 1、ai灵创提词器(小白学习必备,我使用频率最高的) 网址: 我目前用过的最好用的ai绘画提示词生成器,非常适合小白。 我的大部分ai绘画关键词也都是用这个工具来写的。功能包括:输入中文自动转化成英文、权重修改。 最牛的是,它的描述框架非常完整,基本上囊括了大部分的词组,非常适合初学者学习如何撰写关键词。 2、ops提示词工具(适合想要搭建自己词库的朋友) 网址: 这个提示词的功能都巨实用,包括:中英文关键词互译,为提示词进行分类(普通、样式、质量、命令),把提示词可视化结果导出为图片,还可以通过 Notion 管理提示词词典。 3、noonsht(极简,用起来非常方便) 网址: 这家的功能相对来说比较简洁,我开始的时候用的是这个,如果你有自己的描述框架和理解之后,用这个可能会更加顺手,因为不需要填写太多的内容。

封面图片

Nick Dobos 对于Gemini的使用体验,由于他频繁使用 AI 帮助编程,所以很注重输出的代码质量,在他看来:

Nick Dobos 对于Gemini的使用体验,由于他频繁使用 AI 帮助编程,所以很注重输出的代码质量,在他看来: 这次发布算是不错,但它远远落后于GPT-4。 缺乏创新。没有呈现出任何真正新颖的特点,更多的是在追赶别人。 除了可能的“双重检查搜索”功能外,这对于GOOGLE来说似乎应该是基本功能。 目前为止,我最大的问题是,它有时会随机决定无法帮助处理某些事情,即使它显然能够做到。我更希望它尝试去做,即使失败了,也不要直接说“我不能做这件事”。 完整内容翻译- 首次体验Google Gemini,我的感受如下: 像是一个不太上心的程序员。让人惊讶的是,GPT和Gemini都遇到了同样的问题。Gemini的情况似乎更糟糕,尤其是它似乎不愿意去解决问题和填补空白。 它的“双重检查响应”、“修改响应”、“查看草稿”以及“不使用扩展重试”的功能相当有趣,也很实用。 但它偶尔会拒绝执行一些简单的任务,这真是让人难以忍受。它能画一个地精,但要画一个手持剑的地精却似乎做不到。尽管两分钟前还能画图像,现在却说不能画了。 它在对话转换方面做得非常糟糕,常常无视指令、重复模式、拒绝执行任务。它总是以非常宽泛的背景来理解事物,基本上忘记了我们之前的讨论内容。比如,当我在写不完整的代码后请求“所有代码”时,它竟给我来了一句“不能编写宇宙中所有的代码”的免责声明...... 它过分强调免责声明,比GPT-4还要烦人得多。但考虑到它庞大的用户群,这或许是个明智之举。 能够访问电子邮件和文档是个不错的功能,但它似乎只能假设我只有一个谷歌账户。然而,我有大约五个谷歌邮箱账户,我可不打算为了这个服务每月支付20美元来注册我的工作和个人账户。 编辑提示会导致聊天历史消失,而且没有办法像浏览2/3个聊天记录那样进行分叉。 “生成更多图像”的按钮有时不起作用。 我不喜欢它会获取我的位置信息,并且没有提供关闭选项。 虽然响应速度很快,但加载动画很奇怪。我不喜欢在我输入消息后,它会把我的消息滚动到屏幕顶部(坦白说,我一直不太喜欢谷歌的材料设计风格)。 左侧栏设计得毫无逻辑。既然有足够的空间展示我的历史记录,为什么还要设置一个下拉按钮呢?

封面图片

DALL-E 3已经在Bing中实装了,我大概测试了一下,真的很强特别是提示词的理解方面比Midjourney强太多了,某些方面

DALL-E 3已经在Bing中实装了,我大概测试了一下,真的很强特别是提示词的理解方面比Midjourney强太多了,某些方面的生成质量也跟MJ差不多,肯定是比SDXL要好非常多的。 Midjourney V6要是再不出,感觉危险了,而且DALL-E 3还是免费的。 下面是一些实验和对应的提示词(左MJ右DALL-E3),感兴趣可以自己去试着玩玩 提示词:Perfume bottle covered with plum blossoms, James Turrell style, premium perfume bottle, rendered in cinema4d, minimalist product design, unique art design, product poster, concept art, elegant balance Summer nights, The yellow moon, street, There was a cute little girl with a cat, city road, atmosphere; Full, cute doodle, thick line art by Mr Doodle Abstract and minimal CMYK harajuku fashion photography from Y2K with lots of blur, double exposure, A woman who is covering her hands up with her hands as she holds her hands in light, in the style of shige's visual aesthetic style, portraits with soft lighting, mote kei, haunting shadows, prismatic portraits, distinct facial features, 国内的话访问Bing需要强制国外IP才行,打开之后输入“创建一张图像:提示词”就可以了。速度还非常快,妈的感觉MJ的订阅要降一个档,换成10美元的了。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人