Midjoureny 的角色一致性功能将会在本周推出,本来计划上周五但出了点问题。可以根据权重不同决定角色不同部分的相似度,角色

Midjoureny 的角色一致性功能将会在本周推出,本来计划上周五但出了点问题。可以根据权重不同决定角色不同部分的相似度,角色一致性初期不会允许外部图像,后面会考虑。 同时上周六某个使用 Stability 邮箱的账号尝试批量爬取 MJ 所有的图片和提示词导致了服务器长时间瘫痪,三方 API 需要注意,可能会被打击。 其他信息: 即将推出随机风格生成器方便探索风格; Turbo 模式可能今天推出; V7 会在最近两周开始训练; Contorlnet 依然没有进度; 考虑在 X 推出每日主题挑战; 3D 项目缺少数据,进度缓慢。 来源:

相关推荐

封面图片

昨晚 Midjoureny 的 Office Time 中说角色一致性可能会在下周推出,新的提示词提取也会开始测试。

昨晚 Midjoureny 的 Office Time 中说角色一致性可能会在下周推出,新的提示词提取也会开始测试。 完整的内容: 1⃣版本6 (v6) 更新 下周将推出全新的角色和风格参考功能,目前正在进行角色参考的测试。 用户将能在不同风格中保持角色的一致性。 注意,新的风格参考会取代旧的版本。 也即将开始测试全新的描述功能。 正在探索加入风格随机选项。 2⃣版本7 (v7) 动态 我们正在积极研发 v7 版本。 3⃣其他进展 正在升级服务器,以提供更快速、更高效的代码处理能力。 计划未来推出加速模式(涡轮模式)。 正在努力开发网站的社交互动功能,目前进度略有落后。 也在改进移动端体验。 Alpha 测试站点正在尝试一些灯箱界面的变化。 正在思考如何增加个性化功能。 计划将 v5 版本的风格调谐器功能迁移到 v6 版本。 可能会考虑向聊天软件公司开放 API 接口。 来源:

封面图片

终于来了! Midjourney角色一致性功能发布.

终于来了! Midjourney角色一致性功能发布. 下面视频是网站的使用方法和介绍: 这个功能和之前的风格参照很相似,不同之处在于它不是匹配一个特定风格,而是让角色与给定的角色参照图像相符合。 如何使用: 在你输入的指令后面加上 cref URL,URL是你选择的角色图像的链接。 你还可以用 cw 来调整参照的“强度”,范围从100到0。 默认的强度是100 (cw 100),这时会参考人物的脸部、发型和衣着。 如果设置为强度0 (cw 0),那么系统只会关注脸部(这对于更换服饰或发型很有帮助)。 适用范围: 这个功能最适合用于Midjourney创作的角色图像。不太适合用于真人照片(可能会产生一些扭曲,就像普通图像提示那样)。 Cref的工作方式类似于普通图像提示,但它更专注于角色的特征。 但请注意,这项技术的精确度是有限的,它无法复制极其细微的特征,比如特定的酒窝、雀斑或T恤上的标志。 Cref同样适用于Niji和普通MJ模型,并且可以与sref一起使用。 高级功能: 你可以使用多个URL,通过 cref URL1 URL2 的方式来结合多个图像中的角色信息(这和使用多重图像或风格提示类似)。 在web alpha版本中如何操作: 只需将图片拖动或粘贴到想象工具栏,你会看到三个图标。选择这些图标之一,可以设置图片用作图像提示、风格参照或角色参照。如果你想让一张图像同时用于多个类别,只需按住Shift键再选择。 请记住,由于MJ V6目前还处于alpha测试阶段,这个和其他功能可能会有所变化。但不久后,我们会推出官方的V6 beta版。

封面图片

昨天的 Midjourney 透露的一些消息,Midjourney 将会在六个月内开放 API,V7 模型可以生成视频,将会有产

昨天的 Midjourney 透露的一些消息,Midjourney 将会在六个月内开放 API,V7 模型可以生成视频,将会有产品在中国推出。一致性和 ControlNet 能力还在打磨。 -完整内容- 网站方面 正在开发网站的新社交功能 v6版本 正在完成 v6 版本的相关工作 正在开发用户最期待的角色一致性特性,尚需测试和确定监管策略 提升视觉美感 可能改进角色身体的一致性 提高 v6 的运行速度 即将推出的描述功能(预计1至2周内发布) 计划加入颜色参考功能,类似于现有的风格和角色参考 v6的加速模式 v7版本 在 v6 完成后将重点开发 v7 将打造更加清晰高效的系统 考虑将视频功能推迟到 v7 版本 其他动态 对目前的 ControlNet 进展不太满意,尤其是其外观方面 将继续推进视频功能的开发 未来六个月,我们可能会开始与一些顶尖 AI 实验室进行合作或建立伙伴关系(届时我们会拥有 MJ API)。我们也可能会与一些大型语言模型进行合作。 中国正在研发一个类似于 MJ 的项目,预计不久后将亮相。 来源:

封面图片

昨晚 Midjourney office time 透露的信息有点多:

昨晚 Midjourney office time 透露的信息有点多: Alpha 网站下周将会对生成 1000 张图片的用户开放; V6 马上会升级成 Beta 版本,质量会有校服提升; 角色一致性的工作会是接下来的重点,会在几周后发布; V 6.1 可能会增加类似 Controlnet 的功能; V7 版本的模型开始准备训练,可能还需要几个月; 社区反馈的需求排行,角色一致性和对自己的照片进行修复排名靠前。 Alie Jules整理的完整内容: Alpha 网站: 正在优化和简化创作流程。 下周将对制作了1000张以上图片的用户开放。 正在开发带有更丰富社交功能的新版本网站(具体内容目前还是个谜)。 功能完善且网站界面美观后,将增加网站上的入门指导和教育资料。 v6版本: 不久后将切换至v6测试版。 将成为默认使用版本。 将引入一些细微改进:性能提升、增强画面连贯性、纹理更加逼真(比如草地效果)。 可能会有小幅的视觉风格更新。 新功能“Describe”: 在提供与图像更匹配的创作提示方面表现更佳。 预计本周或下周初推出。 角色一致性: 用户最期待的下一个功能。 开发工作将持续几周。 Niji 6的区域变化: 预计下周发布。 v6.1版本? 正在探索一种新的“风格调节器”,类似于“模型调节器”,提供比默认MJ模型更个性化的选项。 或许会以v6.1的形式推出。 Controlnet和绘图功能:目前正在研究阶段。 v7版本开发: 还需数月时间。 将显著提升像素图像质量,使得细小部分展现更加清晰,减少图像瑕疵。 视频功能开发:还在初期阶段。 社区反馈排行榜: 角色一致性。 对用户自己的图片(非MJ图片)进行局部修复。 更精准的风格控制。 改进相机控制功能。 提供隐藏图片的选项作为图像删除功能。 在v7版本中改善远处物体的展示效果。 在v7版本中提升整体图像质量。

封面图片

LUMIERE 这是谷歌这段时间发布的第三个视频生成模型了,不过看起来是最重要的一个,演示的质量非常高,运动幅度和一致性表现

LUMIERE 这是谷歌这段时间发布的第三个视频生成模型了,不过看起来是最重要的一个,演示视频的质量非常高,运动幅度和一致性表现都很好。 整个模型的能力非常全面,除了视频生成之外支持各种视频编辑和生成控制能力。 支持各种内容创建任务和视频编辑应用程序,包括图像到视频、视频修复和风格化生成。 详细介绍: Lumiere 一款将文本转换为视频的先进模型,它专门用于制作展现真实、多样化及连贯动态的视频,这在视频合成领域是一大挑战。 为了实现这一目标,我们采用了一种创新的空间-时间 U-Net 架构(Space-Time U-Net architecture)。这种架构能够在模型中一次性完成整个视频时长的生成,这与传统视频模型不同。传统模型通常是先合成关键的远程帧,然后通过时间上的超级分辨率技术来处理,这种方法往往难以保持视频的全局时间连贯性。 Lumiere 通过在空间和关键的时间维度进行上下采样,并利用预先训练好的文本到图像扩散模型(text-to-image diffusion model),使我们的模型能够直接生成全帧率、低分辨率的视频,并且在多个空间-时间尺度上进行处理。 我们展现了该模型在将文本转换成视频方面的领先成果,并且证明了该设计能够轻松应用于各种内容创作和视频编辑任务,包括将图像转换为视频、视频修补和风格化视频创作。 项目地址: Invalid media:

封面图片

奥尔特曼选取网友提示词 用OpenAI新款大模型Sora生成视频

奥尔特曼选取网友提示词 用OpenAI新款大模型Sora生成视频 一位时髦女士漫步在东京街头,周围是温暖闪烁的霓虹灯和动感的城市标志。一名年约三十的宇航员戴着红色针织摩托头盔展开冒险之旅,电影预告片呈现其穿梭于蓝天白云与盐湖沙漠之间的精彩瞬间,独特的电影风格、采用35毫米胶片拍摄,色彩鲜艳。竖屏超近景视角下,这只蜥蜴细节拉满:OpenAI表示,公司正在教授人工智能理解和模拟运动中的物理世界,目标是训练出能够帮助人们解决需要与现实世界互动的问题的模型。在此,隆重推出文本到视频模型Sora。Sora可以生成长达一分钟的视频,同时保证视觉质量和符合用户提示的要求。OpenAI创始人兼CEOSam Altman(奥尔特曼)太会玩了,让网友评论回复Prompt(大语言模型中的提示词),他选一些用Sora生成视频。截至发稿,奥尔特曼连发多条根据网友提示词生成的视频,包括不同动物在海上进行自行车比赛、发布自制面疙瘩烹饪教学视频的祖母、两只金毛犬在山顶做播客、日落时分火星上进行的一场无人机竞赛等。但这些视频时长为9秒至17秒不等。技术层面,Sora采用扩散模型(diffusion probabilistic models)技术,基于Transformer架构,但为了解决Transformer架构核心组件注意力机制的长文本、高分辨率图像处理等问题,扩散模型用可扩展性更强的状态空间模型(SSM)主干替代了传统架构中的注意力机制,可以使用更少的算力,生成高分辨率图像。此前Midjourney与Stable Diffusion的图像与视频生成器同样基于扩散模型。同时,Sora也存在一定的技术不成熟之处。OpenAI表示,Sora可能难以准确模拟复杂场景的物理原理,可能无法理解因果关系,可能混淆提示的空间细节,可能难以精确描述随着时间推移发生的事件,如遵循特定的相机轨迹等。根据OpenAI关于Sora的技术报告《Video generation models as world simulators》(以下简称报告),跟大语言模型一样,Sora也有涌现的模拟能力。OpenAI方面在技术报告中表示,并未将Sora单纯视作视频模型,而是将视频生成模型作为“世界模拟器”,不仅可以在不同设备的原生宽高比直接创建内容,而且展示了一些有趣的模拟能力,如3D一致性、长期一致性和对象持久性等。目前Sora能够生成一分钟的高保真视频,OpenAI认为扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。报告指出,OpenAI研究了在视频数据上进行大规模训练的生成模型。具体而言,联合训练了文本条件扩散模型,该模型可处理不同持续时间、分辨率和长宽比的视频和图像。OpenAI利用了一种基于时空补丁的视频和图像潜在代码的变压器架构。最大的模型Sora能够生成一分钟的高保真视频。结果表明,扩展视频生成模型是构建通用物理世界模拟器的有前途的途径。报告重点介绍了OpenAI将各类型视觉数据转化为统一表示的方法,这种方法能够对生成模型进行大规模训练,并对Sora的能力与局限进行定性评估。先前的大量研究已经探索了使用多种方法对视频数据进行生成建模,包括循环网络、生成对抗网络、自回归转换器和扩散模型。这些研究往往只关注于狭窄类别的视觉数据、较短的视频或固定大小的视频。而Sora是一个通用的视觉数据模型,它能够生成跨越不同时长、纵横比和分辨率的视频和图像,甚至能够生成长达一分钟的高清视频。OpenAI从大型语言模型中汲取灵感,这些模型通过训练互联网规模的数据获得通用能力。LLM范式的成功在一定程度上得益于令牌的使用,这些令牌巧妙地统一了文本的不同模式代码、数学和各种自然语言。在这项工作中,OpenAI考虑视觉数据的生成模型如何继承这些优势。虽然LLM有文本令牌,但Sora有视觉补丁。之前已经证明,补丁是视觉数据模型的有效表示。补丁是一种高度可扩展且有效的表示,可用于在多种类型的视频和图像上训练生成模型。Sora支持采样多种分辨率视频,包括1920x1080p的宽屏视频、1080x1920的竖屏视频以及介于两者之间的所有分辨率。这使得Sora能够直接以原生纵横比为不同的设备创建内容。同时,它还允许在生成全分辨率内容之前,使用相同的模型快速制作较小尺寸的内容原型。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人