#阅读Google DeepMind 发布了生成视频模型Veo,可生成超过一分钟的高质量 1080p 分辨率,具有多种电影和视觉

None

相关推荐

封面图片

Google发布视频生成模型Veo 支持生成1080P

Google发布视频生成模型Veo 支持生成1080P视频 据了解,Veo能够根据文本、图像创建超过60秒的高质量1080P视频,用户可对光照、镜头语言、视频颜色风格等进行设定。用户仅需写出文本提示即可生成视频,比如文本提示:“在宁静的山地平移镜头,相机慢慢露出白雪皑皑的山峰、花岗岩岩石和倒映天空的清澈湖泊。”“一艘宇宙飞船在浩瀚的太空中穿梭,星星划过,高速,科幻”。 ... PC版: 手机版:

封面图片

Google DeepMind推出Gemma模型

Google DeepMind推出Gemma模型 这是一款轻量级、先进的开源模型,供开发者和研究人员用于AI构建。Gemma模型家族包括Gemma 2B和Gemma 7B两种尺寸,能够在不同的设备类型上运行,包括笔记本电脑、桌面电脑、IoT设备、移动设备和云端。 性能和设计 Gemma模型在技术和基础设施组件上与Gemini共享,这使得Gemma 2B和7B在其大小范围内相比其他开放模型具有最佳性能。 Gemma模型不仅可以直接在开发者的笔记本电脑或桌面电脑上运行,而且在关键基准测试中的表现超过了更大的模型,同时遵循严格的安全和负责任输出标准。 主要特点: 1.轻量级、高性能模型:Gemma模型家族包括Gemma 2B和Gemma 7B两种尺寸,提供预训练和指令调优的变体,针对其大小范围内相比其他开放模型具有最佳性能。 2.跨框架工具链支持:支持JAX、PyTorch和TensorFlow通过原生Keras 3.0进行推理和监督式微调(SFT),适应多种开发需求和环境。 3.易于入门和集成:提供准备就绪的Colab和Kaggle笔记本,以及与Hugging Face、MaxText、NVIDIA NeMo和TensorRT-LLM等流行工具的集成,方便开发者快速上手。 4.高效的运算能力:针对多个AI硬件平台上进行优化,确保在NVIDIA GPU和Google Cloud TPU上的行业领先性能。通过与NVIDIA的合作,无论是在数据中心、云端还是本地RTX AI PC上,都确保了行业领先的性能和与尖端技术的集成。 Gemma模型能够在不同的设备类型上运行,包括笔记本电脑、桌面电脑、IoT设备、移动设备和云端。这种广泛的兼容性使得模型能够适应各种应用场景和需求。 |

封面图片

Google DeepMind 公布 Genie 模型,可生成可交互的虚拟环境

Google DeepMind 公布 Genie 模型,可生成可交互的虚拟环境 Google DeepMind 今天介绍了 Genie ,一种根据互联网视频训练的基础世界模型,可以从合成图像、照片甚至草图生成无数种可玩(动作可控)的世界。 Genie 可以用它以前从未见过的图像来作为输入,使人们能够与生成的虚拟世界进行交互。它由一个时空视频标记器、一个自回归动力学模型和一个简单且可扩展的潜在行动模型组成。该模型可根据没有任何标注数据的公开互联网视频的大型数据集进行训练。该模型当前专注于 2D 平台游戏和机器人的视频,但其方法是通用的,并且可以扩展到任何类型的领域和更大的数据集。 团队还通过使用 Google 的 RT-1 机器人的摄像头视频数据训练模型,表明 Genie 能够学习与现实世界一致的动作空间。这可能产生一个现实世界模拟器,以便训练未来的通用智能体。 ,

封面图片

Google 正在利用 DeepMind AI语言模型为 YouTube Shorts 生成描述,使它们更易于搜索。

Google 正在利用 DeepMind AI语言模型为 YouTube Shorts 生成描述,使它们更易于搜索。 标签:#Google #AI #YouTube 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

华为发布 DiT 架构的图像生成模型,可以直出 4K 分辨率图像。

华为发布 DiT 架构的图像生成模型,可以直出 4K 分辨率图像。 论文简介: 我们引入了 PixArt-\Sigma,一个能够直接生成 4K 分辨率图像的 Diffusion Transformer (Diffusion Transformer, DiT) 模型。相比其前身 PixArt-\alpha,PixArt-\Sigma 有了显著进步,提供了明显更高保真度的图像,并改进了与文本提示的一致性。 PixArt-\Sigma 的一个关键特点是其训练效率。借助 PixArt-\alpha 的基础预训练,它通过合并更高质量的数据,从"较弱"的基线演变为"较强"的模型,我们将这个过程称为"弱到强训练"。PixArt-\Sigma 的进步主要体现在两个方面: 高质量训练数据:PixArt-\Sigma 结合了更高质量的图像数据,与更精确和详细的图像标题配对。 高效的 Token 压缩:我们在 DiT 框架内提出了一个新的注意力模块,可以压缩键 (Key) 和值 (Value),显著提高效率,并促进超高分辨率图像生成。 得益于这些改进,PixArt-\Sigma 以显著较小的模型规模 (6 亿参数) 实现了优于现有文本到图像扩散模型 (如 SDXL (26 亿参数) 和 SD Cascade (51 亿参数)) 的图像质量和用户提示遵从能力。 此外,PixArt-\Sigma 生成 4K 图像的能力支持创建高分辨率海报和壁纸,有效地增强了电影和游戏等行业中高质量视觉内容的制作。 项目地址:

封面图片

卧槽,Runway 放大招了。更新了文字和图片生成视频的模型。的分辨率和一致性都有了非常大的提升。这个生成分辨率和细节有点离谱的

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人