RT 归藏Midjourney正式更新了模型的5.1版本，相较于V5他现在有这些变化：

RT 归藏 Midjourney正式更新了模型的5.1版本，相较于V5他现在有这些变化：更高的一致性对文本提示更准确更少的不需要的边框或文本痕迹改善了清晰度同时V5.1对于短提示的效果更好类似于V4，你还可以使用更精准的提示词描述，但是需要切换为Raw格式，在点击V5.1后在/settings下点击RAW Mode按钮或键入…

在Telegram中查看

相关推荐

Midjourney V5 正式发布了。

Midjourney V5 正式发布了。这次测试的是V5的专业模式，专业模式对提示词会有更高的有要求，比如你需要详细描述什么是“带有戏剧性照明效果”的电影照片。他们之后还会在增加一个友好模式让他的提示词书写难度低一些。下面是同样的提示词在V4和V5的区别（上面V4下面V5）。这里是一些主要特性： -更广泛的风格范围和更具响应性的提示 -更高质量的图像（2倍分辨率增加），动态范围改善 -图像更详细。细节更可能是正确的。不需要不想要的文本。 -改进了图像提示性能 -支持无缝平铺 tile 参数（实验） -支持大于 2:1 的纵横比 ar （实验） -支持权衡图像提示与文本提示 iw

Midjourney v5 正式发布

Midjourney v5 正式发布图:左边V4, 右边V5 主要特性： -更丰富的风格 -更高质量的图像（2倍分辨率增加） -动态范围改善 -图像细节更丰富更准确 -改进了图像提示性能，prompt优化 -支持无缝平铺 -支持大于 2:1 的纵横比 ar （实验）

Midjourney V5 深度剖析与测评

Midjourney V5 深度剖析与测评主要想详细介绍一下V5升级之后如何使用以及一些使用的注意事项。同时对V5在各个方面的能力做了详细的测试总结了一些要点。原文提供了流动金属的8K壁纸下载和图片的详细提示词。详细的内容在这里：下面是量子速度版本：如何使用V5版本一种是直接在提示词后面加上 v 5 命令；另一种是通过输入命令回车后，选择MJ version V5的模型版本 V5的新功能更广泛的风格范围：以前实现不了的一些风格V5会支持，比如非常明显的一个改变，以前V4版本在绘制照片风格的图片时总是有很明显的涂抹感现在生成的图片会更加逼真。更具响应性的提示：第一个就是官方在公告里说的这次测试的是V5的专业模式对提示词的输入非常敏感，简短的提示可能效果不佳。第二个是V5貌似可以更好的理解自然语言，自然语言书写的提示词会比原来V4的关键词分割效果更好。另一个提示词理解能力的提升可以很好的理解数学概念和空间关系。更高质量的图像：V5生成的图片在2倍分辨率放大时拥有更高的分辨率，这个因为目前 V5 的upsampler功能还没有开放。动态范围改善：当你拍摄的图像在光线上有巨大的差异时，更大的动态范围就能获得更大的影调空间。涉及到从室外拍摄室内的内容的时候如果动态范围不足的时候图片就很容易特别黑细节不足，V5就表现的很好。图像更详细：V5对于图像相关内容的细节会更加丰富，不需要加诸如“详细的”这类关键词，也可以生成正常的细节比如下面的图。改进了图像提示性能：性能上的明显感觉V5发送完提示词以后相应更快了，之前V4发送完会等待模型理解提示词才会开始生成图片，V5几乎是发送完立刻就会开始生成图片。支持无缝平铺：具体表现就是在提示词后加上tile 参数后可以生成无缝的纹理贴图。支持大于 2:1 的纵横比：代表着你可以输出4:1甚至5:1的超宽屏图像或者全景图。支持权衡图像提示与文本提示：在提示词后面输入 iw 加数字命令。数字越大生成的图片就会跟原图越像，数字越小就会跟原图差异越大。 V5我发现的新特性画手的成功率大幅提升：不只是张手这种简单的手势不会出问题，握手、OK之类的手势出问题的现象也变得很少。

#Midjourney V6上线

#Midjourney V6上线一些反馈发现（单簧管总结）： - 提示词长度现在是350+ - 您可以指定颜色和其他细节 - 你可以在画布上放置你想要的东西，如添加文本 - 您可以提示多个主题 - 你可以像ChatGPT一样和Midjourney聊天 - V6能够理解标点和语法的细微差别(即：熊猫吃、射、走） - 可以使用V6制作niji那样的漫画 - 可以通过描述图像来为其添加框架或边框如何启用：在 /settings 下拉菜单中选择 V6，或在提示后输入 v 6。官方对V6 模型的新特性： 1、更准确的提示跟随和更长的提示 •改进的响应能力：V6 模型对用户输入的响应更加准确，能够更好地理解和执行复杂的提示。 •处理更长的提示：V6 能够处理更长的文本提示，这意味着用户可以提供更详细的描述和指令，从而获得更精确的输出结果。 2、提升的连贯性和模型知识 •改善的连贯性：V6 在生成内容时的连贯性得到了显著提升，这使得输出结果更加流畅和自然。 •增强的模型知识：V6 拥有更丰富的知识库和更好的理解能力，能够更准确地处理复杂的查询和任务。 3、改进的图像提示和混合 •增强的图像生成：V6 在图像生成方面的能力得到了增强，能够根据文本提示创建更精细和逼真的图像。 •改善的图像混合：V6 提供了更好的图像混合功能，使得不同元素和风格的结合更加和谐自然。 4、文本绘制能力 •用户可以在他们的提示中指定要在图像上显示的文本，模型将会根据这些指示在生成的图像中包含相应的文本内容。 •绘制文本：V6 可以在图像中绘制文本。为了获得最佳效果，文本应该用引号标出。这样做可以帮助模型区分哪些是描述性的提示，哪些是实际要在图像中呈现的文本。 •风格调整：使用 style raw 或较低的 stylize 值可能有助于提高文本绘制的准确性和质量。这是因为不同的风格设置可能会影响文本在图像中的呈现方式。例如，如果用户想要生成一张图像，上面写着用马克笔在便利贴上写的“Hello World!”，他们可以使用类似于以下的提示：“/imagine a photo of the text 'Hello World!' written with a marker on a sticky note ar 16:9 v 6”。

RT 宝玉归藏老师这个总结很全面

RT 宝玉归藏老师这个总结很全面对于其中的Function calling这部分我展开说一下，这本质上是OpenAI让API直接支持了Agent或者Plugin！以前你需要通过Prompt里面加一堆描述支持Agent，现在简单多了，只要在API请求的时候，传入一个functions参数。 functions参数实际上就类似于你要指定的Agent。… 归藏: Open AI终于发力了，今天更新了一堆新的内容，每个都很重磅： - 16k 上下文 3.5 Turbo 模型（今天向所有人提供） - 新的 GPT-4 和 3.5 Turbo 模型 - Chat Completions API 中的新函数调用功能 - V2 嵌入模型降价 75% - GPT-4的API权限将开放给更多的人下面是详细介绍

全球首个类Sora开源复现方案来了全面公开所有训练细节和模型权重

全球首个类Sora开源复现方案来了全面公开所有训练细节和模型权重还能用航拍视角，展现悬崖海岸边，海水拍打着岩石的画面。亦或是延时摄影下的浩瀚星空。自Sora发布以来，由于效果惊艳但技术细节寥寥，揭秘、复现Sora成为了开发社区最热议话题之一。比如Colossal-AI团队推出成本直降46%的Sora训练推理复现流程。短短两周时间后，该团队再次发布最新进展，复现类Sora方案，并将技术方案及详细上手教程在GitHub上免费开源。那么问题来了，复现Sora如何实现？Open-Sora 开源地址： Transformer (DiT) 。它以采用DiT架构的高质量开源文生图模型PixArt-α为基座，在此基础上引入时间注意力层，将其扩展到视频数据上。具体来看，整个架构包括一个预训练好的VAE，一个文本编码器和一个利用空间-时间注意力机制的STDiT (Spatial Temporal Diffusion Transformer)模型。其中，STDiT 每层的结构如下图所示。它采用串行的方式在二维的空间注意力模块上叠加一维的时间注意力模块，用于建模时序关系。在时间注意力模块之后，交叉注意力模块用于对齐文本的语意。与全注意力机制相比，这样的结构大大降低了训练和推理开销。与同样使用空间-时间注意力机制的 Latte模型相比，STDiT 可以更好的利用已经预训练好的图像 DiT 的权重，从而在视频数据上继续训练。STDiT结构示意图整个模型的训练和推理流程如下。据了解，在训练阶段首先采用预训练好的Variational Autoencoder (VAE)的编码器将视频数据进行压缩，然后在压缩之后的潜在空间中与文本嵌入(text embedding)一起训练STDiT扩散模型。在推理阶段，从VAE的潜在空间中随机采样出一个高斯噪声，与提示词嵌入(prompt embedding)一起输入到STDiT中，得到去噪之后的特征，最后输入到VAE的解码器，解码得到视频。模型训练流程训练复现方案在训练复现部分，Open-Sora参考了Stable Video Diffusion (SVD)。一共分为3个阶段：大规模图像预训练；大规模视频预训练；高质量视频数据微调。每个阶段都会基于前一个阶段的权重继续训练。相比于从零开始单阶段训练，多阶段训练通过逐步扩展数据，更高效地达成高质量视频生成的目标。训练方案三阶段第一阶段是大规模图像预训练。团队利用互联网上丰富的图像数据和文生图技术，先训练出一个高质量的文生图模型，将该模型作为下一阶段视频预训练的初始化权重。同时，由于目前没有高质量的时空VAE，他们采用Stable Diffusion预训练好的图像VAE。这样不仅能保障初始模型的优越性能，还能显著降低视频预训练的整体成本。第二阶段是大规模视频预训练。这一阶段主要增加模型的泛化能力，有效掌握视频的时间序列关联。它需要使用大量视频数据训练，并且保障视频素材的多样性。同时，第二阶段的模型在第一阶段文生图模型的基础上加入了时序注意力模块，用于学习视频中的时序关系。其余模块与第一阶段保持一致，并加载第一阶段权重作为初始化，同时初始化时序注意力模块输出为零，以达到更高效更快速的收敛。Colossal-AI团队使用了PixArt-alpha的开源权重作为第二阶段STDiT模型的初始化，以及采用了T5模型作为文本编码器。他们采用了256x256的小分辨率进行预训练，进一步增加了收敛速度，降低训练成本。Open-Sora生成效果（提示词：水中世界的镜头，镜头中一只海龟在珊瑚礁间悠然游弋）第三阶段是高质量视频数据微调。据介绍，这一阶段能显著提升模型的生成质量。使用的数据规模比上一阶段降低一个量级，但是视频的时长、分辨率和质量都更高。通过这种方式进行微调，能实现视频生成从短到长、从低分辨率到高分辨率、从低保真度到高保真度的高效扩展。值得一提的是，Colossal-AI还详细透露了每阶段的资源使用情况。在Open-Sora的复现流程中，他们使用了64块H800进行训练。第二阶段的训练量一共是 2808 GPU hours，约合7000美元，第三阶段的训练量是1920 GPU hours，大约4500美元。经过初步估算，整个训练方案成功把Open-Sora复现流程控制在了1万美元左右。数据预处理为了进一步降低Sora复现的门槛和复杂度，Colossal-AI团队在代码仓库中还提供了便捷的视频数据预处理脚本，让大家可以轻松启动Sora复现预训练。包括公开视频数据集下载、长视频根据镜头连续性分割为短视频片段、使用开源大语言模型LLaVA生成精细的提示词。他们提供的批量视频标题生成代码可以用两卡 3 秒标注一个视频，并且质量接近于 GPT-4V。最终得到的视频/文本对可直接用于训练。借助他们在GitHub上提供的开源代码，可以轻松地在自己的数据集上快速生成训练所需的视频/文本对，显著降低了启动Sora复现项目的技术门槛和前期准备。高效训练加持除此之外，Colossal-AI团队还提供了训练加速方案。通过算子优化和混合并行等高效训练策略，在处理64帧、512x512分辨率视频的训练中，实现了1.55倍的加速效果。同时，得益于Colossal-AI的异构内存管理系统，在单台服务器上（8H800）可以无阻碍地进行1分钟的1080p高清视频训练任务。而且团队还发现STDiT模型架构在训练时也展现出卓越的高效性。和采用全注意力机制的DiT相比，随着帧数的增加，STDiT实现了高达5倍的加速效果，这在处理长视频序列等现实任务中尤为关键。最后，团队还放出了更多Open-Sora的生成效果。团队和量子位透露，他们将长期更新优化Open-Sora的相关解决方案和动态。未来将使用更多视频训练数据，以生成更高质量、更长时长的视频内容，并支持多分辨率特性。实际应用方面，团队透露将推进在电影、游戏、广告等领域落地。感兴趣的开发者们，可访问GitHub项目了解更多~Open-Sora 开源地址： Scalable Diffusion Models with Transformers[2] PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis[3] Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets[4] Latte: Latent Diffusion Transformer for Video Generation[5] ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人