担心自己春节休息两周跟不上AI领域的节奏？听不懂朋友们说的新名词？一篇内容搞定春节期间你落掉的所有AI领域内容。

担心自己春节休息两周跟不上AI领域的节奏？听不懂朋友们说的新名词？一篇内容搞定春节期间你落掉的所有AI领域内容。 AIGC周刊59期更新了看了一下一共一万八千字，相当管饱，我尽量把两周发生的事情都塞进去了。感兴趣可以看看：主要内容有： OpenAI发布了视频生成模型Sora,可以生成1分钟长的高质量视频。Sora支持从图像和文本生成视频,并且可以扩展和编辑视频内容。谷歌发布了语言模型Gemini 1.5 Pro和Ultra 1.0,支持长达100万字的上下文理解能力。同时推出了付费会员计划Gemini Advanced。 Stability AI发布基于扩散模型的图片生成模型Stable Cascade,支持图像变化和生成。汇总了Midjourney图片生成模型的一些新功能,如默认版本升级和区域编辑能力增强。介绍了一些新的AI产品,如视频生成软件Deforum Studio,自动生成UI设计稿的工具Galileo AI,以及英伟达的本地语言模型软件Chat with RTX等。收录了一些AI领域的文章,如人工智能如何改变广告业,使用AI进行3D渲染以及Stable Diffusion潜在空间的解释等。

在Telegram中查看

相关推荐

终于有普通人可以立刻使用的类 Sora 视频生成工具了！#ai# #sora#

终于有普通人可以立刻使用的类 Sora 视频生成工具了！#ai视频# #sora# 海外产品 viva 发布了首个开放给全部用户使用的 Sora 同架构视频生成模型，而且现阶段免费。支持文本生成视频、图片生成视频以及 4K 分辨率放大功能，另外也支持提示词的自动优化。文生视频单次可以生成一条 5 秒的视频，图生视频是 4 秒视频我测试了一下应该是目前运动幅度最大的视频生成模型，同时图像分辨率也是现在可以用的视频生成产品中最大的。文生视频的效果比图生视频要更好，同时如果要是用的话建议把运动幅度调到 20 左右比较合适。 viva 优势领域就是可以生成比较好的竖屏视频，目前很多视频模型的演示都是横屏视频，竖屏的表现并不好，但是短视频又是视频内容的大头，所以竖屏视频的生成质量是个很重要的指标。但是一致性有一部分测试中保持的不是很好，同时没有表现出 Sora 那样强大的物理特性模拟以及 3D 一致性。跟谷歌刚发布的 Veo 模型对比来看在写实内容上其实以及差不多了。下面是 viva 的视频演示，15 秒开始有相同的提示词跟谷歌刚发布的 Veo 模型的对比。这里体验 viva：

微软的论文，基于已经发布的内容和他们自己的逆向工程，全面回顾了 Sora 的背景、相关技术、新兴应用、当前的局限性和未来的机遇。

微软的论文，基于已经发布的内容和他们自己的逆向工程，全面回顾了 Sora 的背景、相关技术、新兴应用、当前的局限性和未来的机遇。非常全面和条理，建议全文阅读。论文简介：本文基于公开的技术报告和对Sora的逆向工程分析，全面评述了该模型的发展背景、相关技术、应用领域、当前面临的挑战以及文字到视频AI模型的未来趋势。文章首先回顾了Sora的发展历程，并深入探讨了构建这一“虚拟世界模拟器”的关键技术。随后，文中详细介绍了Sora在电影制作、教育、市场营销等多个行业中的应用及其可能带来的影响。我们还讨论了要大规模部署Sora所需解决的主要挑战和限制因素，例如如何确保视频生成的安全性和公正性。最后，文章探讨了Sora以及视频生成模型的未来发展方向，以及该领域的进步如何可能为人类与AI的互动开辟新的方式，从而提高视频制作的效率和创造力。论文地址：

2024 年谷歌 I/O 大会：发布的全部内容

2024 年谷歌 I/O 大会：发布的全部内容 1⃣ 从下个月开始，Workspace 和 Google One AI Premium 的订阅用户将能够在 Gmail 应用内使用 Gemini 来为他们总结电子邮件 2⃣ 今年夏天，Google Photos 将推出自己的“询问照片”助手 3⃣ Google Lens 现在允许你通过录制视频来搜索内容。 4⃣ 谷歌又推出了一款新的 AI 模型：Gemini 1.5 Flash。它承诺将与 Pro 和谷歌的其他 Gemini 模型一样强大，但速度更快。 5⃣ 针对 OpenAI 的 Sora，Google推出了其新的生成式 AI 视频模型 Veo，，能够根据文本、图片和视频提示输出 1080p 视频 6⃣ 针对ChatGPT的GPTs，Google为Gemini推出了名为“Gems”的个性化选项，它允许用户创建具有不同个性的定制版 Gemini 助手。 7⃣ Google 将Gemini Nano AI 作为AI助手融入 Chrome 8⃣ 新推出的 Gemini Live 功能旨在使与 Gemini 的语音聊天更加自然 9⃣ 现在，Circle to Search 可以帮助解决数学问题了 1⃣0⃣ 安卓推出了 AI 驱动的诈骗检测功能 1⃣1⃣ 谷歌表示，Gemini 很快就能让用户对屏幕上的视频提问，并根据自动生成的字幕给出答案。对于付费的 Gemini Advanced 用户，它还可以处理 PDF 文件并提供信息。这些以及其他针对 Android 上 Gemini 的多模态更新将在接下来的几个月内推出。 1⃣2⃣ 谷歌升级了其 SynthID 人工智能水印技术，它将在其新的 Veo 视频生成器创建的内容中嵌入水印，并且现在也能检测出由 AI 生成的视频。 1⃣3⃣ Gemini将与日历、Tasks和 Keep 集成 1⃣4⃣ Gemini以在几秒钟内制定完整的度假行程标签: #Google 频道: @GodlyNews1 投稿: @GodlyNewsBot

a16z的一篇文章，详细盘点了现在人工智能视频生成领域的现状，看完就可以对这个领域有个大概的了解，感兴趣可以看看。

a16z的一篇文章，详细盘点了现在人工智能视频生成领域的现状，看完就可以对这个领域有个大概的了解，感兴趣可以看看。他们列出了 2023 视频生成产品的时间表以及对应产品的详细信息。同时对视频生成目前需要解决的问题以及视频生成领域的 ChatGPT 时刻到来需要具备的条件进行了探讨。下面是主要内容，也可以去链接看全文翻译： AI 视频领域目前需要解决的核心问题？控制：你能否控制场景中的事件以及“摄像机”的运动？对于后者，一些产品增加了可以让你进行缩放或平移摄像机，甚至添加特效的功能。至于前者即动作是否如所描述的那样这个问题更加棘手。这是一个关于基础模型质量的问题（模型是否能理解并执行你的提示）。时间连贯性：如何确保在视频的不同帧之间，角色、物体和背景的一致性，防止它们在画面中突变或扭曲？这是目前所有公开的模型普遍面临的问题。视频长度：如何制作时长超过几秒的视频片段？这个问题与时间连贯性密切相关。因为保持视频在几秒钟后仍具有一致性存在难度，许多公司限制了用户能生成的视频长度。 AI 视频领域的 ChatGPT 时刻何时到来，需要回答的几个问题？当前的扩散架构是否适合视频制作？目前的视频模型是基于扩散技术的：它们主要通过生成连续的帧并尝试创建时间上连贯的动画（采用多种策略实现）。这些模型没有对三维空间及物体间互动的内在理解，这就是扭曲或变形的原因。高质量的训练数据将从何而来？训练视频模型比训练其他内容模态更加困难，主要原因是缺乏足够的高质量、有标签的训练数据。这些用例将如何在不同平台或模型间区分开来？我们在几乎所有内容模态中观察到的现象是，没有一个模型能在所有用例中独占鳌头。谁将主导视频制作的工作流程？在目前的情况下，除了视频本身的生成，制作一段优质的视频或电影通常还需要进行编辑。我们预计视频生成平台将开始引入视频编辑需要的附加功能。翻译及原文链接：

Sora：探索大型视觉模型的前世今生、技术内核及未来趋势 |

Sora：探索大型视觉模型的前世今生、技术内核及未来趋势 | Sora，一款由 OpenAI 在 2024 年 2 月推出的创新性文转视频生成式 AI 模型，能够依据文字说明，创作出既真实又富有想象力的场景视频，展现了其在模拟现实世界方面的巨大潜能。本文基于公开技术文档和逆向工程分析，全面审视了 Sora 背后的技术背景、应用场景、当前面临的挑战以及文转视频 AI 技术的未来发展方向。文章首先回顾了 Sora 的开发历程，探索了支撑这一“数字世界构建者”的关键技术。接着探讨了 Sora 在电影制作、教育、市场营销等多个领域内的应用潜力及其可能带来的影响。文章还深入讨论了为实现 Sora 的广泛应用需克服的主要挑战，例如保证视频生成的安全性和公正性。最后展望了 Sora 乃至整个视频生成模型技术未来的发展趋势，以及这些技术进步如何开创人机互动的新方式，进而提升视频创作的效率和创新性。

字节辟谣推出中文版Sora：产品未完善距离国外还有很大差距

字节辟谣推出中文版Sora：产品未完善距离国外还有很大差距对此，字节跳动相关人士回应称，Boximator是视频生成领域控制对象运动的技术方法研究项目，目前还无法作为完善的产品落地。而且距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。根据此前报道，OpenAI前不久发布了首个视频生成模型Sora，只要输入提示词，就能生成1分钟的高清视频，已经被看作是改写整个视频生成领域的新王炸技术。据介绍，该模型能生成包含多个角色，以及特定类型运动的复杂场景，能精确生成物体和背景的细节在官网上已经更新了48个视频实例中，Sora能够准确呈现视频细节，还能深刻理解物体在现实世界中的存在状态，并生成具有丰富情感的角色。 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人