Sora 的图片生成能力也非常牛皮。

Midjourney 今天上线了/describe，也就是 V6 版本的图片提示词生成能力，图片分析能力比 V5 的强很多。

Midjourney 今天上线了/describe，也就是 V6 版本的图片提示词生成能力，图片分析能力比 V5 的强很多。然后发现 alpha 网站居然也可以使用/describe了，就是藏的比较深，于是录了一个视频演示一下。生成的提示词会包括三部分第一部分是主体，然后是艺术家风格和描述词。主体的部分通常会一次生成四条，不要全部用，描述词和艺术家的部分可以按需选择。这里使用 alpha 网站，需要用 MJ 生成超过 1000 张图：

OpenAI的Sora视频生成模型也能用来渲染游戏

OpenAI的Sora视频生成模型也能用来渲染视频游戏这篇题为《作为世界模拟器的视频生成模型》（Video generation models as world simulators）的论文由多位 OpenAI 研究人员共同撰写，揭开了 Sora 架构关键方面的神秘面纱例如，Sora 可以生成任意分辨率和长宽比（最高 1080p）的视频。根据论文所述，Sora 能够执行一系列图像和视频编辑任务，从创建循环视频、向前或向后延伸视频到更改现有视频的背景。但最吸引笔者的还是 Sora"模拟数字世界"的能力，OpenAI 的合著者如是说。在一次实验中，OpenAI 将 Sora 放到 Minecraft 上，让它在控制玩家的同时渲染世界及其动态（包括物理）。Sora 在 Minecraft 中控制一名玩家，并渲染视频游戏世界，请注意，颗粒感是由视频到 GIF 的转换工具造成的，而不是 Sora。图片来源：OpenAIOpenAI那么，Sora 是如何做到这一点的呢？正如 NVIDIA 高级研究员 Jim Fan（通过 Quartz）所说，与其说 Sora 是一个创意引擎，不如说它是一个"数据驱动的物理引擎"。它不仅能生成单张照片或视频，还能确定环境中每个物体的物理特性，并根据这些计算结果渲染照片或视频（或交互式 3D 世界，视情况而定）。合著者写道："这些功能表明，继续扩展视频模型是开发物理和数字世界以及其中的物体、动物和人的高能力模拟器的一条大有可为的途径。"现在，Sora在视频游戏领域也有其通常的局限性。该模型无法准确模拟玻璃碎裂等基本互动的物理过程。即使在可以建模的互动中，Sora 也经常出现不一致的情况，例如在渲染一个人吃汉堡时，却无法渲染汉堡上的咬痕。不过，如果我没看错的话，Sora 似乎可以为更逼真（甚至可能是逼真）的程序生成游戏铺平道路。这既令人兴奋，又令人恐惧（考虑到Deepfake的影响）这也许就是为什么 OpenAI 选择暂时将 Sora 关在一个非常有限的访问程序后面的原因。相关文章:OpenAI 推出文本到视频人工智能模型 SoraOpenAI首个视频生成模型发布能生成长达1分钟的高清视频 ... PC版：手机版：

终于有普通人可以立刻使用的类 Sora 视频生成工具了！#ai# #sora#

终于有普通人可以立刻使用的类 Sora 视频生成工具了！#ai视频# #sora# 海外产品 viva 发布了首个开放给全部用户使用的 Sora 同架构视频生成模型，而且现阶段免费。支持文本生成视频、图片生成视频以及 4K 分辨率放大功能，另外也支持提示词的自动优化。文生视频单次可以生成一条 5 秒的视频，图生视频是 4 秒视频我测试了一下应该是目前运动幅度最大的视频生成模型，同时图像分辨率也是现在可以用的视频生成产品中最大的。文生视频的效果比图生视频要更好，同时如果要是用的话建议把运动幅度调到 20 左右比较合适。 viva 优势领域就是可以生成比较好的竖屏视频，目前很多视频模型的演示都是横屏视频，竖屏的表现并不好，但是短视频又是视频内容的大头，所以竖屏视频的生成质量是个很重要的指标。但是一致性有一部分测试中保持的不是很好，同时没有表现出 Sora 那样强大的物理特性模拟以及 3D 一致性。跟谷歌刚发布的 Veo 模型对比来看在写实内容上其实以及差不多了。下面是 viva 的视频演示，15 秒开始有相同的提示词跟谷歌刚发布的 Veo 模型的对比。这里体验 viva：

早上尝试Stable Cascade的时候，试了几张图发现 SC 模型生成图片质量比 SDXL 刚发布的时候好不少。

早上尝试Stable Cascade的时候，试了几张图发现 SC 模型生成图片质量比 SDXL 刚发布的时候好不少。于是就做了一个更详细的测试，SC 和 Midjoureny 使用完全相同的提示词，Midjoureny不是用特殊的参数，一次生成 4 张，各选出一张比较好的进行测试。下面是对应的测试图，先说我的结论：在写实场景 SC 生成的内容在美学表现上和细节上跟 Midjourney 差别不是很大，细节上差一些，偶尔可以替代使用。 SC 由于模型规模的原因对于一些概念的理解不够，提示词响应比 SDXL 好但是比 Midjourney 要差。整体美学表现上相比 SDXL 更发布的时候有大幅提高，虽然还是不如 Midjourney，但是风格表现上很相似，估计拿 MJ 图片做的训练。

Sora 生成的 27 秒的视频，提示词理解也很好，右下角那个水印的动效非常漂亮。

Sora 生成的 27 秒的视频，提示词理解也很好，右下角那个水印的动效非常漂亮。提示：画面中，一只橙白相间的虎斑猫在茂密的花园里欢快地穿行，仿佛在追逐着什么。它的眼神中充满了喜悦，小跑着，一边观察着周围的树枝、花朵和叶子。它穿梭在狭窄的小径上，穿行于繁茂的植被间。整个场景从贴近地面的角度拍摄，紧跟着这只猫，营造出一种低角度但亲密的视觉效果。画面呈现出电影级的温暖色调和细腻的质感，透过树叶和植物间隙洒下的斑驳阳光与猫的橙色毛皮形成了迷人的对比。每个画面都清晰锐利，具有浅景深的效果，让观众感觉仿佛置身其间。

一个非常有意思的项目可以用 SD 直接生成透明的 PNG 图片，也可以直接生成带有透明度分层的图片。

一个非常有意思的项目可以用 SD 直接生成透明的 PNG 图片，也可以直接生成带有透明度分层的图片。这个想象力很大能带来很多玩法。也可以使用现有的 SD 社区模型。项目介绍： LayerDiffusion使得大型已经过预训练的潜在扩散模型（latent diffusion model）能够创造透明图像。这项技术不仅可以生成单独的透明图像，还能生成多层透明图层。它通过一种被称为“潜在透明度”的方法，将透明度（即 alpha 通道）整合到预训练的潜在扩散模型的潜在结构中。这样做的好处是，它通过以潜在偏移的形式加入透明度，几乎不改变模型原有的潜在分布，从而保持了模型的高质量输出能力。基于这种方法，任何一个潜在扩散模型都可以通过对潜在空间的微调，转化为透明图像生成器。我们训练这个模型时，使用了一种涉及人机互动的方法，收集了一百万组透明图像层数据。我们的研究显示，这种潜在透明技术不仅可以应用于不同的开源图像生成器，还可以适配多种条件控制系统，实现例如基于前景/背景条件的层生成、层的联合生成、对层内容进行结构控制等多种应用。一项用户研究发现，大多数情况下（97%），相比于之前的临时解决方案（如先生成图像再进行抠图处理），用户更喜欢我们直接生成的透明内容。用户还表示，我们生成的透明图像在质量上可媲美真实的商业级透明素材，例如 Adobe Stock 提供的素材。论文地址：

相关推荐

Midjourney 今天上线了/describe，也就是 V6 版本的图片提示词生成能力，图片分析能力比 V5 的强很多。

OpenAI的Sora视频生成模型也能用来渲染游戏

终于有普通人可以立刻使用的类 Sora 视频生成工具了！#ai# #sora#

早上尝试Stable Cascade的时候，试了几张图发现 SC 模型生成图片质量比 SDXL 刚发布的时候好不少。

Sora 生成的 27 秒的视频，提示词理解也很好，右下角那个水印的动效非常漂亮。

一个非常有意思的项目可以用 SD 直接生成透明的 PNG 图片，也可以直接生成带有透明度分层的图片。