AI绘画,为何听不懂人话?

AI绘画,为何听不懂人话?两个系统几乎同时发布,免不了被对比。深燃体验后发现,文心一言的图片生成功能,能够识别简单元素、文本没有歧义的人或事物,但涉及到成语、专有名词,以及字面意思和实际意义不同的表述,它就会跑偏。Midjourney在这方面几乎没什么问题。另外,Midjourney接收到的提示词(prompt)越详细精准,生成的图片越符合要求,但文心一言需求越多,系统越容易出错。调侃背后,AI生成图片其实不是一件简单的事情,需要在数据、算法、算力等方面综合发力,既对技术和硬件有高要求,还对数据采集和标注等苦活累活高度依赖。文心一言的AI绘图功能与Midjourney在以上三方面都有不小的差距。百度方面公开表示,“大家也会从接下来文生图能力的快速调优迭代,看到百度的自研实力。文心一言正在大家的使用过程中不断学习和成长,请大家给自研技术和产品一点信心和时间。”从业者预估,文心一言全力追赶,用一年左右的时间有希望达到国外80%以上的水平。AI绘图这个战场,枪声已经打响,追逐赛、排位赛都将一轮轮上演。搞不定成语和专有名词,提示词越多AI越废文心一言最近接受的最大考验,莫过于画一幅中餐菜名图。在网友们的热情创作下,驴肉火烧、红烧狮子头等菜品出来的画做一个比一个离谱,车水马龙的街道、虎头虎脑的大胖小子,同样惊掉了大家的下巴。网友体验文心一言时截图,目前已更新网民热心找bug,百度程序员应该也在背后发力,深燃测试发现,以上内容均已更新为可以正确显示对应图片。不过,像娃娃菜、脸盆、虎皮鸡蛋、三杯鸡,还有胸有成竹的男人、虎背熊腰的男人,文心一言仍然给出的是字面直译后的图片,画风一言难尽。深燃截图即便输入提示词时强调“画一个卫浴器材水龙头”,文心一言画出的仍然是水中龙的头像;当深燃输入“画一个风姿绰约的人”时,系统画出的是一位男士,显然AI没能理解风姿绰约形容的是女人。深燃截图程序员改bug的速度比不上网友找漏洞的速度。很快又有人发现,文心一言画图时有把提示词中译英之后根据英文意思生成图片的可能性,据此有人推测百度可能用国外的作图产品接口,套了一个自己的壳。深燃也验证了一下某用户的测试。比如输入“水瓜”,画出的是西瓜,这也对应西瓜的英文单词Watermelon;要求画树叶、封面、苹果,画出的图是树叶覆盖苹果,显然系统是把封面翻译成了Cover,这个单词也有覆盖的意思;画“土耳其张开翅膀”,出现的画面是张开翅膀的火鸡,我们都知道,Turkey是土耳其,也是火鸡。深燃截图对此,百度对外回应称,文心一言完全是百度自研的大语言模型,文生图能力来自文心跨模态大模型ERNIE-ViLG。“在大模型训练中,我们使用的是全球互联网公开数据,符合行业惯例。”亚洲视觉科技研发总监陈经也在接受媒体采访时表示,“百度的画图AI采用了英文标注的开源图片素材进行训练,因此需要中翻英来当prompt(提示词)。目前,全球AI研发有开源的传统,特别是训练数据库,不然收集图片效率太低了。”深燃体验后还发现,文心一言在单个需求描述时表现尚可,比如画一幅愤怒的小孩、开心的农民、一只很饿的流量猫,但一幅图一旦提出多个作图需求,AI就有点懵。比如请文心一言“生成一幅画,在一个下雨天,小红在植树,小王在看书”,系统生成的图片里只有背靠树看书的一个人;还有,“画一幅画,里面有大笑的年轻人、哭泣的小孩、愁容满面的老人”,系统把哭泣和愁容满面等表情集合在了一张脸上,画出了一个小孩和老人的结合体。如下图所示,还有一些类似的情况,系统同样没能准确完成给出的指令。深燃截图深燃又把上述提示词输入到MidjourneyV4测试了一下,如下图所示,即使是V4版本,表现也远高出文心一言。MidjourneyV4基本能理解句子中的意思,做出的图几乎可以包含所有的要素。深燃体验MidjourneyV4后截图深燃还测试了AI绘画领域一直以来难以攻克的画手指难的问题。在这方面,文心一言也没能经受住考验。比如“画一位30岁的女士,双手竖起大拇指”,文心一言生成的图片大拇指是竖起来了,但是其中一只手有7根手指;输入“画一个人,两只手做点赞姿势”时,系统也无法实现这一手部姿势。深燃截图Midjourney此前的版本同样存在手指误差的问题,最新发布的V5版本,已经能够正确画出五根手指,虽然有人依旧指出其绘出的大拇指有点长,但相比以往已经有不小的进步。有从业者评价:“Midjourney的此前版本就像是近视患者没有戴上眼镜,而MidjourneyV5就是戴上眼镜后的清晰效果,4K细节拉满”。比如MidjourneyV5画出的《三体》角色图,效果被网友评价为几乎要“成精了”。而文心一言画《三体》角色时,系统全然不顾描述里提到的留着黑色短发、戴着眼镜的要求,画出了一个扎着发髻,不戴眼镜,古风穿着的男士。上图为MidjourneyV5生成的三体角色图图片来源/Ai总编推书下图为文心一言作图/深燃截图最近MidjourneyV5画的一对情侣的图片掀起了业内一阵惊呼。作图的提示词是:“一对年轻的情侣穿着牛仔裤和夹克坐在楼顶上”,背景分别是2000年和2023年的北京。最后出图的效果大大超出很多人的想象。深燃把类似表述输入文心一言时,系统直接给出了毫不相关的图片。左图为MidjourneyV5作图 图片来源/量子位右为深燃对比体验文心一言截图对比来看,Midjourney作图已经在细节上几近完美了,文心一言还处在难以准确分辨字面意思和实际意思的初级阶段。Midjourney提示词描述越详细,生成的图片越精准,文心一言能理解的文字长度有限,过多描述会让它直接报错或者胡乱生成图片。AI文生图到底有多难?按出现时间来算,AI绘画算是AI领域的新事物。公开报道显示,2021年1月,OpenAI发布了两个连接文本与图像的神经网络:DALL・E和CLIP。DALL・E可以基于文本直接生成图像,CLIP能够完成图像与文本类别的匹配。DALL・E是基于GPT-3的120亿参数版本实现的。随后在2022年,DALL·E2、StableDiffusion等文生图底层大模型发布,带动了应用层的发展,出现了一大批爆款产品,包括Midjourney。2022年也被认为是“AI绘画元年”。StabilityAI的StableDiffusion是一个开源模型,很多开发者基于这个模型开发训练出了更多不同的生成模型。国内很多科技公司的AI绘画项目也是由StableDiffusion提供技术支撑。Midjourney是付费订阅的,公开信息显示,Midjourney每年的收入可能达到1亿美元左右。另外,有AI绘图业务的还有Google、Meta等公司。百度的文心一言和此前就发布的文心一格算是国内最早的具备AI绘画功能的大模型。文心一言的发布和升级了的MidjourneyV5更是将AI绘画行业推向高潮。这一次迭代是Midjourney自去年推出以来最大的更新,Midjourney也成了目前市面上最先进的AI图像生成器之一。热度还在继续。最近,行业内又有一系列企业跟进推出AI绘画功能。3月21日,微软宣布,必应搜索引擎接入了OpenAI的DALL·E模型,将AI图像生成功能引入新版必应和Edge浏览器,免费开放。就在同一天,Adobe发布AI模型Firefly,支持用文字生成图像、艺术字体。可以说,2023年,AI绘画行业迎来了真正的大爆发。调侃文心一言之余,客观来说,AI生成图片本身就不是一件容易实现的事情。系统的语义理解能力、充分的数据标注、细节处理、用户的提示词选择,都在AI作图中起着重要作用。AI领域资深从业者郭威告诉深燃,之前AI生成图片只需要确认风格、物品等,用...PC版:https://www.cnbeta.com.tw/articles/soft/1352091.htm手机版:https://m.cnbeta.com.tw/view/1352091.htm

相关推荐

封面图片

AI绘画Midjourney新手零基础系统教程

名称:AI绘画Midjourney新手零基础系统教程描述:Midjourney是一个AI生成图像的平台。它利用人工智能的技术,可以根据用户的输入,自动生成各种风格迥异的图片。用户只需要在Midjourney的输入框内输入一些简单的词,比如“小猫”、“森林”、“城堡”之类的,Midjourney的AI系统就会基于这些词生成一张图片。链接:https://pan.quark.cn/s/b0c04f61e13a大小:8.4G标签:#AI#Midjourney#quark频道:@yunpanshare群组:@yunpangroup

封面图片

AIdea ▎AI 聊天、协作、图像生成(全平台支持,免费开源,全网AI技术)

名称:AIdea▎AI聊天、协作、图像生成(全平台支持,免费开源,全网AI技术)描述:AIdea▎AI聊天、协作、图像生成(全平台支持,免费开源,全网AI技术)▎软件介绍:AIdea是一款支持GPT以及国产大语言模型通义千问、文心一言等,支持StableDiffusion文生图、图生图、SDXL1.0、超分辨率、图片上色的全能型APP。▎软件特点:-支持GPT-3.5/4问答聊天-支持国产模型:通义千问,文心一言-支持文生图、图生图、超分辨率、黑白图片上色等功能,集成StableDiffusion模型,支持SDXL1.0▎支持平台:#iOS#Android#MacOS#网站(Web)#Windows(需自行编译)链接:https://pan.quark.cn/s/ccffd9a87844大小:66.2MB标签:#AI聊天#AI绘画#全平台#AIdea#quark来自:雷锋频道:@yunpanshare群组:@yunpangroup投稿:@kejiqubot

封面图片

百度生成式AI服务文心一言即日起对公众开放

百度生成式AI服务文心一言即日起对公众开放中国科技巨头百度开发的生成式人工智能(AI)服务文心一言星期四(8月31日)起向公众开放。百度星期四在微信公众号“百度文心一言”发帖称,百度聊天机器人“文心一言”将从8月31日零时起正式向全社会开放。用户可在应用商店下载“文心一言APP”或登录“文心一言官网”体验。百度称,还将开放一批经过全新重构的AI原生应用,让广大用户充分体验生成式AI的理解、生成、逻辑、记忆四大核心能力。百度创始人、董事长兼首席执行官李彦宏说,当文心一言向数以亿计互联网用户大规模开放服务后,能够获得大量真实世界中的人工反馈,这将进一步改进基础模型,并以更快速度迭代文心一言,创造更好的用户体验。百度是在今年3月16日宣布正式推出文心一言,并开放测试邀请。李彦宏今年6月称,文心一言在多项关键指标都优于美国OpenAI开发的ChatGPT。百度宣布对外开放文心一言之际,彭博社星期四引述消息人士报道,中国网信办本周将批准一批初创企业和主要科技公司推出面向公众的生成式AI服务,以便百度等企业可放开手脚与OpenAI微软等对手同场竞争。其中一名消息人士说,百度可能在第一批之列。百度发言人同日也向路透社证实,文心一言已获得中国监管机构的批准。中国国家网信办今年7月联合国家发展改革委、教育部、科技部等部门发布文件,对生成式AI服务实行包容审慎和分类分级监管,要求生成式AI服务不得生成煽动颠覆国家政权、推翻社会主义制度,危害国家安全服务。条例也要求生成式AI服务在向国内用户开放须获得许可。报道称,鉴于这种技术本身的变革性,中国政府认为AI技术的商业和政治意义都很重大。百度3月份首次推出文心一言后,阿里巴巴、腾讯等一些初创企业也在迎头赶上,纷纷推出自己的基础模型。

封面图片

文心一言秒变毕加索 看看百度AI画的青春校园女孩

文心一言秒变毕加索看看百度AI画的青春校园女孩百度发布文心一言不过,在此次发布会上,百度董事长李彦宏也表示,这类大语言模型还远未到发展完善的阶段,进步空间很大。而在3月16日晚些时候,CNMO注意到,已经有部分网友使用了文心一言来生成图画,只是结果似乎一言难尽。以下是文心一言所生成的图画,大家可以重点关注一下脸部——文心一言所生成的图画(图源水印)有网友吐槽称,文心一言在生成图画这方面,有艺术大师毕加索的几分风韵……不过,根据相关信息,文心一言有很高的成长性。李彦宏也表示,未来这段时间它一定会飞速发展,日新月异。目前,用户已经可以通过邀请码在文心一言的官方网站上体验这款产品,百度也即将面向企业客户开放文心一言的API接口调用服务。此外,根据官方介绍,目前已经有超过650家企业宣布将接入文心一言生态。...PC版:https://www.cnbeta.com.tw/articles/soft/1349719.htm手机版:https://m.cnbeta.com.tw/view/1349719.htm

封面图片

百度推出AI文心一言 当日股价暴跌

百度推出AI文心一言当日股价暴跌3月16日下午,百度举行了主题为新一代大语言模型和生成式AI产品文心一言的新闻发布会。百度创始人、董事长兼首席执行官李彦宏展示了文心一言在文学创作、商业文案创作、数理推算、中文理解、多模态生成五个使用场景中的综合能力。目前,百度是全球第一家推出与ChatGPT竞争的产品的公司。发布会后一小时内,超过3万家企业排队申请文心一言企业版API调用服务测试。然而,一些媒体指出,发布会上的演示片段并非实时演示,而是采用预先录制的视频。有网民认为,视频中向文心一言提出的部分问题过于简单。《华尔街日报》报道,百度内部员工都对该产品的功能表示怀疑。发布会开始10分钟后,百度在香港上市的股价迅速下跌,一度跌幅超过10%,收盘跌幅收窄至逾6%。后补:花旗集团在内的证券公司测试刚刚公布的的文心一言服务并给予其初步批准后,百度公司周五飙升了14%以上。#AI#人工智能原文链接Baidu’sChatGPTRivalErnieBotDoesn’tGoLiveatItsLaunchParty

封面图片

百度文心一言推出会员:连续包月 49.9 元,可解锁文心大模型 4.0

百度文心一言推出会员:连续包月49.9元,可解锁文心大模型4.0百度大模型文心一言现已推出会员模式,开通后可解锁文心大模型4.0。据介绍,文心一言会员单月购买价格为59.9元,连续包月价格为49.9元(次月以49.9元/月自动续费,可随时取消)。此外,百度还推出了文心一言+文心一格(白银)的联合会员,价格为99元/月。文心一言会员权益:1.模型能力:文心大模型4.02.图片生成:文生图能力全面升级3.插件权益(网页端):高阶插件4.灵感值(App端):单月赠送600灵感值文心一格会员权益:1.极速生成多尺寸高清图像2.创作海报和艺术字3.白银会员权益:AI编辑改图修图来源:投稿:@ZaiHuaBot频道:@TestFlightCN

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人