Gary Marcus：文本生成图像系统理解不了世界离AGI还差得远

GaryMarcus：文本生成图像系统理解不了世界离AGI还差得远自从DALL-E2问世以来，很多人都认为，能够绘制逼真图像的AI是迈向通用人工智能（AGI）的一大步。OpenAI的CEO SamAltman曾在DALL-E2发布的时候宣称“AGIisgoingtobewild”，媒体也都在渲染这些系统对于通用智能进展的重大意义。PC版：https://www.cnbeta.com/articles/soft/1318377.htm手机版：https://m.cnbeta.com/view/1318377.htm

在Telegram中查看

相关推荐

TikTok开始在应用中提供一个基本款文本到图像AI生成器

TikTok开始在应用中提供一个基本款文本到图像AI生成器文本-图像人工智能系统目前在能力和受欢迎程度上都在蓬勃发展，还有什么比它们出现在世界最热门的应用程序中更好的证明？那就是TikTok。这个视频平台最近增加了一种新的效果，它称之为"人工智能绿屏"，允许用户输入文字提示，然后软件会生成一个图像。这张图片随后可以作为视频的背景--对创作者来说可能是一个非常有用的工具。与Google的Imagen、OpenAI的DALL-E2或Midjourney的同名软件等最先进的文本到图像模型相比，TikTok系统的输出相当基本。它只创建了相当抽象的图像；TikTok建议的提示如"海洋中的宇航员"和"鲜花星系"的案例就反映了这一做法。相比之下，其他模型既能产生逼真的图像，也能产生复杂而连贯的插图，看起来像是人类绘制或画的。不过，TikTok模型的局限性很可能是故意的。首先，更先进的模型需要更强的计算能力，对该公司来说，这将是昂贵和资源密集型的实施。其次，TikTok有超过10亿的用户，让所有这些人有能力创造他们能想象的任何东西的逼真图像，几乎能够肯定又会让一些人产生一些不安的想法。在媒体测试其模型创造裸体和血腥的能力时，文本到图像生成器往往会对这两种来自用户的意图施加限制。该模型输出的抽象性质意味着带有挑衅性语言的提示只能产生一些无意义的漩涡。同样，涉及裸体的要求只产生了一些合适的颜色，但不会有什么让人脸红的内容出现。TikTok的"人工智能绿屏"的出现值得注意的是，它显示了这项技术进入主流的速度正不断提升。文本到图像的人工智能的最新发展周期可以说始于2021年，OpenAI最初发布了DALL-E。不到两年后，这项技术已经通过TikTok这样的应用程序进入了数百万人的手中。PC版：https://www.cnbeta.com/articles/soft/1304693.htm手机版：https://m.cnbeta.com/view/1304693.htm

麻省理工学院AI图像生成系统让《DALL-E 2》等模型散发出创意

麻省理工学院AI图像生成系统让《DALL-E2》等模型散发出创意随着DALL-E的问世，互联网迎来了一个集体感觉良好的时刻。这个基于人工智能的图像生成器的灵感来自于艺术家萨尔瓦多-DALL-E和动画电影中可爱的机器人瓦力，它使用自然语言来生成你心中想要的任何神秘而美丽的图像。看到打出的输入信息，如"拿着冰激凌甜筒的微笑地鼠"，机器的灵感瞬间涌现出来，这种生动的人工智能生成的图像显然得到了世界的共鸣。PC版：https://www.cnbeta.com/articles/soft/1320411.htm手机版：https://m.cnbeta.com/view/1320411.htm

DALL-E 2 同源：机器学习研究员分享“文本到宝可梦”图像生成器

DALL-E2同源：机器学习研究员分享“文本到宝可梦”图像生成器在经历了九代《精灵宝可梦》之后，玩家们有时难免吐槽开发者只是从帽子里随机抽取单词，然后观察它们到底会在玩家群体中引发怎样的化学反应。对于抱着“这么搞我也行”心态的粉丝，这里有一款独特的人工智能生成器可以推荐给大家。PC版：https://www.cnbeta.com/articles/soft/1322341.htm手机版：https://m.cnbeta.com/view/1322341.htm

OpenAI的图像生成器DALL-E现在可以编辑人脸了

OpenAI的图像生成器DALL-E现在可以编辑人脸了OpenAI现在允许其人工智能艺术生成程序DALL-E的用户编辑带有人脸的图像。由于担心被滥用，这项功能以前是禁止使用的，但是，在发给DALL-E的100多万用户的一封信中，OpenAI说，在改进过滤器以去除含有"性、政治和暴力内容"的图像之后，他们开放了访问权限。PC版：https://www.cnbeta.com/articles/soft/1318521.htm手机版：https://m.cnbeta.com/view/1318521.htm

微软公布可以理解图像内容的 AI 模型

微软公布可以理解图像内容的AI模型微软的研究人员介绍了多模态模型，它可以分析图像内容，解决拼图问题，进行视觉文本识别，通过视觉智商测试，并理解自然语言指令。研究人员认为，整合了文本、音频、图像和视频等不同输入模式的多模态人工智能，是建立人工通用智能（AGI）的关键步骤，可以执行人类水平的一般任务。他们在一些测试中评估了Kosmos-1的能力，包括语言理解、语言生成、无光学字符识别的文本分类、图像说明、视觉问题回答、网页问题回答和零样本图像分类。微软称，在许多这些测试中，Kosmos-1的表现超过了目前最先进的模型。来源，来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

谷歌公布旗下高速AI图像生成系统Muse 速度远超主流竞品

谷歌公布旗下高速AI图像生成系统Muse速度远超主流竞品·目前AI图像生成软件火爆兴起，引发了包括电影、动漫、游戏、插绘等领域的传统作画震荡，甚至有的AI图像还战火人类艺术家大奖，引发社会性争议。·目前市场上的主流AI图像生成系统包括StableDiffusion、OpenAI的DALL-E2等等，各具优势，而谷歌表示旗下的Muse速度远超主流竞品，同样生成一副512X512级别画像，Muse仅需1.3秒，StableDiffusion1.4却需要3.7秒。·谷歌表示Muse速度这么快的原因是与其他主流AI图像软件的基础算法类别不同，能够大幅缩减因为反复计算样品目标图像的次数从而提高效率。...PC版：https://www.cnbeta.com.tw/articles/soft/1337665.htm手机版：https://m.cnbeta.com.tw/view/1337665.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人