速报:DeepSeek 刚刚发布了另一个开源人工智能模型 Janus-Pro-7B。

速报:DeepSeek 刚刚发布了另一个开源人工智能模型 Janus-Pro-7B。 是的,刚刚。 它具有多模态功能(可生成图像),在 GenEval 和 DPG-Bench 基准测试中击败了 OpenAI 的 DALL-E 3 和 Stable Diffusion。 绝对是故意的! 绝逼下空单了

相关推荐

封面图片

Ai or Not 是一项免费服务,用于识别由人工智能创造的图像。

Ai or Not 是一项免费服务,用于识别由人工智能创造的图像。 - 它使用自己的AI来分析图像中是否存在人工痕迹; - 检测 Stable Diffusion、MidJourney、DALL-E 和 GAN神经网络的存在; - 检测精度88%至97%,有最新的MidJoureny更新。 #tools

封面图片

AIGC(AI-Generated Content 人工智能生成内容)是当前 AI 领域最热门的话题之一。尤其是伴随着 Stab

AIGC(AI-Generated Content 人工智能生成内容)是当前 AI 领域最热门的话题之一。尤其是伴随着 Stable Diffusion、DALL-E 等代表的文本生成图像的跨模态应用涌现,AIGC 更是火爆出圈,广受关注。 但是,高昂的硬件需求和训练成本仍严重阻碍着 AIGC 行业的快速发展。AIGC 应用的出色表现通常建立在 GPT-3 或 Stable Diffusion 等大模型之上,并针对特定下游任务和应用进行微调。 如何更好、更快和更便宜地实现训练、微调 AIGC 模型,已成为 AIGC 商业化和应用爆发的最大痛点。 近日,GitHub 上一款深度学习系统 Colossal-AI,开源了完整 Stable Diffusion 预训练和个性化微调方案,将预训练时间加速和经济成本降低 6.5 倍,个性化微调硬件成本降低 7 倍! 借助此项目,普通开发者即可在个人电脑的 RTX 2070/3050 上,快速完成微调任务流程,让 Stable Diffusion 等 AIGC 模型触手可及。目前,该技术解决方案已在 GitHub 开源。 此外,项目中有提供完整的中文教程,进一步降低学习门槛,让大家能更快上手开发 |||||

封面图片

中国有了据称比 DALL-E 2 更好的AI模型,却(好吧,应该是毫无疑问)进行愚蠢的政治内容审查。

中国有了据称比 DALL-E 2 更好的AI模型,却(好吧,应该是毫无疑问)进行愚蠢的政治内容审查。 2021年,中国科技公司百度已经开发了自己的跨模态生成模型,称为ERNIE-ViLG。 但是通过最近公开的演示,一些用户发现中国专有的神经网络会对政治用语进行审查。 例如,“中国的民主”、“翻墙”、“革命”、以及领导人的名字等任务,都不产生图像。 相反,如果你进行这样的操作,它们会给你产生了一个中文的警告:“输入的内容不符合相关规则,请更改后重试”。 在图像合成方面进行审查和限制不是中国独有的。就专有的 DALL-E 2 而言,该公司已经禁止用户使用某些形式的内容,如裸体、暴力和政治内容。DALL-E 2 也抵制了真实人物的生成。 专有的 Midjourney 模型也实施了完全相同的审查禁令。 但在免费开源的 Stable Diffusion 模型中,任何人都可以禁用所有的审查过滤器,生成想要的任何图像,没有任何禁止。 Stable Diffusion 的创造者明确表示,他们将自己的创造公开,以避免政府或企业对AI模型的审查。 自由软件的主导地位无可争议。 #AI #China #Censorship #OpenSourceFreeSoftware #Anti-Censorship

封面图片

Stability AI试图通过新的图像生成人工智能模型保持领先地位

Stability AI试图通过新的图像生成人工智能模型保持领先地位 Stable Cascade 可以生成照片,并对所创建的图片进行修改,或尝试提高现有图片的分辨率。其他文本到图片的编辑功能还包括内画和外画(模型只对图片的特定部分进行填充编辑),以及可视边缘(用户可利用现有图片的边缘制作新照片)。根据提示"一张拟人企鹅坐在咖啡馆里看书喝咖啡的电影照片"生成的Stable Cascade图像。新模型可在GitHub 上供研究人员使用,但不能用于商业用途。在Google甚至苹果等公司发布自己的图像生成模型时,新模型也带来了更多选择。与 Stability 的旗舰产品 Stable Diffusion 模型不同,Stable Cascade 并不是一个大型语言模型,而是三个不同的模型,它们都依赖于Würstchen 架构。Stable Cascade与其他模型的推理时间比较将请求分解成更小的比特后,请求所需的内存更少(在那些很难找到的 GPU 上训练的时间也更少),运行速度更快,同时在"提示对齐和美学质量"方面表现更佳。创建一幅图像大约需要 10 秒,而目前使用的 SDXL 模型需要 22 秒。Stability AI公司帮助普及了Stable Diffusion方法,同时也成为了几起诉讼的对象,这些诉讼指控Stable Diffusion公司在未经权利人许可的情况下对受版权保护的数据进行了训练 - Getty图片公司对Stability AI公司的诉讼将于 12 月开庭审理 。该公司于 12 月开始通过订阅的方式提供商业许可,并表示这是帮助其研究获得资金所必需的。 ... PC版: 手机版:

封面图片

Stable Diffusion 是人工智能公司 Stability AI 背后的文本到图像模型,于 2022 年 8 月发布。

Stable Diffusion 是人工智能公司 Stability AI 背后的文本到图像模型,于 2022 年 8 月发布。Stability AI 首席执行官 Emad Mostaque 表示,Stable Diffusion 在所有渠道拥有超过 1000 万用户。如果我们推断一下《Midjourney》的数据和趋势,就会发现,通过官方的 Stable Diffusion 渠道,用户每天会生成 200 万张图片,而在发布一年多的时间里,这个数字已经达到了 6.9 亿张图像。 如果加上其他流行模型(例如 Runway,我们单独统计)和 Stability AI 的官方渠道,使用 Stable Diffusion 创建的图像数量将增加到 125.9 亿张,占所有使用文本转文字创建的 AI 图像的 80%。 Adobe Firefly Adobe Adobe 推出了 Firefly,于 2023 年 3 月发布。上线 6 周内,用户创建了超过 1 亿资产。随着 Firefly 于 2023 年 5 月集成到 Adobe Photoshop,考虑到全球使用 Photoshop 的人数,图像数量呈指数级增长。 Adobe 在最新的新闻稿中分享了其 AI 图像统计数据:推出仅 3 个月,使用 Adobe Firefly 创建的图像数量就已达到 10 亿张。 使用 Stable Diffusion、Adobe Firefly、Midjourney 和 DALLE-2 总共生成了超过 150 亿张人工智能创建的图像。这比 Shutterstock 的整个照片、矢量图和插图库还要多,而且是 Instagram 上传的图片数量的三分之一。

封面图片

OpenAI 推出文本到视频人工智能模型 Sora

OpenAI 推出文本到视频人工智能模型 Sora 根据 OpenAI 的介绍博文,Sora 能够创建"具有多个角色、特定运动类型以及主体和背景准确细节的复杂场景"。该公司还指出,该模型能够理解物体"在物理世界中的存在方式",还能"准确解释道具并生成表达生动情感的引人注目的角色"。该模型还能根据静态图像生成视频,以及在现有视频中填充缺失的帧或扩展视频。OpenAI 的博文中包含的 Sora 生成的演示包括淘金热时期加利福尼亚州的空中场景、从东京火车内部拍摄的视频等。许多演示都有人工智能的痕迹比如在一段博物馆的视频中,地板疑似在移动。OpenAI 表示,该模型"可能难以准确模拟复杂场景的物理现象",但总体而言,演示结果令人印象深刻。几年前,像 Midjourney 这样的文本到图像生成器在模型将文字转化为图像的能力方面处于领先地位。但最近,视频技术开始飞速进步:Runway 和 Pika 等公司都展示了自己令人印象深刻的文字转视频模型,而Google的 Lumiere 也将成为 OpenAI 在这一领域的主要竞争对手之一。与 Sora 类似,Lumiere 也为用户提供了文字转换视频的工具,还能让用户通过静态图像创建视频。Sora 目前只对"红队"人员开放,他们负责评估模型的潜在危害和风险。OpenAI 还向一些视觉艺术家、设计师和电影制片人提供访问权限,以获得反馈意见。它指出,现有模型可能无法准确模拟复杂场景的物理现象,也可能无法正确解释某些因果关系。本月早些时候,OpenAI 宣布将在其文本到图像工具 DALL-E 3 中添加水印,但指出这些水印"很容易去除"。与其他人工智能产品一样,OpenAI 将不得不面对人工智能逼真视频被误认为是真实视频的后果。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人