AI制作的「意大利黑手党版《哈利波特》」1分钟短片

使用AI制作的「意大利黑手党版《哈利波特》」1分钟短片每位人物都很有《教父》那个味,斯内普看起来依然深不可测,马尔福的豪门少爷形象呼之欲出,罗恩和赫敏则很有西西里少男少女风情。你能认出来每个人是什么角色吗?视频具体制作方法:先用Midjourney设计人物图片,然后使用D-ID让图片动起来。全程只需要使用自然语言。#AI#视频(,)来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

相关推荐

封面图片

如何做一部风格化鲜明又统一的 AI 短片?

如何做一部风格化鲜明又统一的AI短片?「VISION」视频制作流程分享分享色彩统一、主题鲜明、流动感强的技巧原视频:https://m.okjike.com/originalPosts/666d7cd319d274e296add59d?s=ewoidSI6ICI2NDk0MzEwNDA1MDU0NDcyNjRkNmI3MDEiCn0=偶然在MJ中抽卡“MonumentValley”发现了这个色彩斑斓红色岩石般的风格便开启这次AI创作之旅,文案、配音、配乐、图片、视频均由AI制作,我提供灵感和剪辑。1⃣MJStylePrompt在MJ网页版更好操作,用第一张图作为风格参考图后,后面的prompt只需要描述物体意向即可。比如鸟、树、森林、月亮,是本次我想创作的主题。如图2。2⃣文案与配音想营造马丁卢瑟金充满希望向上的生命力,我使用11labs克隆自己的声音,用日语念独白。独白让GPT4o生成一份“模仿马丁Ihaveadream演讲,关于生活向往的文章”我上传了在干净环境下录制的4mins说话素材到11labs即可完成instantclonevoice,如图3。实测声音特别像我念日语!很惊艳3⃣配乐配乐用Suno,描绘创作想法就可以找到你想要的配乐,没抽卡几次。prompt很简单:flyingthroughamonumentvalley,relaxing,exciting,andalittlebithalariousandweird.因为想要一种向上,但又不是正能量向上的感觉。所以加上了“略微奇怪”4⃣动起来的视频Luma和Runway均使用了(为了分摊成本和时间)。从视频右上角水印你可以看出哪些是Luma的。Runway适合只有一点动感的场景,比如水波纹流动,略微场景透视变化。Luma适合开头飞跃山谷这种透视变化的3D/2.5D场景。Runway更稳定一些,Luma抽卡失败率较高,可以酌情考虑成本和抽卡时间。5⃣蒙太奇剪辑只需要使用textbased剪辑手法即可,根据音乐节奏调整素材速度。字幕和字体很关键,适当加一些转场特效。一个小tips,让画面与音乐变化或台词变化的节奏错开一点,会增加视频的有机程度,没那么像卡点剪辑。

封面图片

Adobe推出Express测试版 借助AI在移动设备上更便利地创建社交内容

Adobe推出Express测试版借助AI在移动设备上更便利地创建社交内容该应用的最新版本将使Adobe能够更好地与Canva竞争,后者去年推出了一套人工智能工具。AdobeExpress用户将可以使用新的"文本到图像"生成器,通过使用Firefly生成式人工智能快速生成图像,为项目快速创建新的外观。新的"生成填充"功能可让用户使用文本提示轻松插入、移除或替换人物或物体。此外,新的"文本效果"功能可以帮助用户通过使用不同的文本样式,快速使信息变得生动。Adobe指出,小企业可以使用这些功能来删除不需要的对象和照片,以增强其宣传内容,而创意专业人士则可以使用它们来加速其社交营销团队的移动内容创建。CreativeCloud会员可以使用该应用直接在AdobeExpress中访问和处理Photoshop和Illustrator中的创意资产。他们还可以添加链接文件,当他们在CreativeCloud应用程序中编辑时,这些文件会在AdobeExpress中同步。AdobeExpress应用程序可让用户预览内容并将其发布到TikTok和Instagram等社交媒体平台。还可以上传和共享品牌资产,使用特定品牌的颜色和徽标来加快设计过程。该应用可访问数千个视频和多页面模板,以及AdobeStock视频、音乐和图片。Android用户可以从GooglePlay商店下载新的AdobeExpress应用程序测试版。由于苹果公司限制应用程序的测试版用户数量,因此iOS用户需要注册才能访问测试版应用程序。在Adobe和TikTok宣布TikTok的人工智能创意助手现在可以直接在AdobeExpress中使用之后几周,今天的消息也随之发布。两家公司表示,这一整合将帮助企业和创作者更有效地制作和营销内容。下载与测试者报名地址:https://play.google.com/store/apps/details?id=com.adobe.spark.post.betahttps://survey.adobe.com/jfe/form/SV_4UW2cyRUnFcpBxI...PC版:https://www.cnbeta.com.tw/articles/soft/1422809.htm手机版:https://m.cnbeta.com.tw/view/1422809.htm

封面图片

最强绘图AI登陆QQ了 体验不比英文版差

最强绘图AI登陆QQ了体验不比英文版差一开始世超还以为,这个官方可能是某个国内公司仿制的,不过在经过多方求证后,世超可以确定这个应该是Midjourney官方自己运营的了。Midjourney的大名,相信也不用世超多介绍了。前段时间它的V5版本,不仅在写实度上升了一波级,就连 “ 画手难 ” 这个AI界难题,也得到了一定的解决。最后还因为效果太过炸裂,狠狠地出了一波圈。而最近Midjourney还升级成了V5.1版本,绘画质量也更上了一层楼。这家仅仅只有11位正式员工的公司,就这么轰炸着AI绘画圈。在之前,咱们如果想用Midjourney,只得想办法上Discord平台,不仅整个App多为英文,就连你输入的描述也得是英文,对英文苦手子来说,简直是折磨。后来Midjourney因为用户越来越多,顶不住了大伙们的薅羊毛,还直接限制了免费试用功能。国内用户想用就得付费,但付费,又得搞一张支持付外汇的卡。。。所以,想要够得着Midjourney这件神器,门槛还是不低的。好消息是这些门槛,在这个国内的 QQ 版本上,全部被撤了。和Discord版本的UI一样,QQ频道上,左边是各个功能的入口,从官方公告,到新手指南,再到创作区,各个模块分的清清楚楚。但最最重要的是,差友们!他们全都是中文啊!!不仅是各种索引是中文,就连你输入的指令也是建议使用中文!虽然咱不是不懂英文,但是,能有官方给的中文版,谁还愿意去啃那些生涩英文索引呢?在索引界面的右边就是Midjourney的具体功能页面,其中, “ 想象创建 ” 和 “ 主题创作 ” 区域就是用来AI绘画的地方了,只需要点击它们,就能直接开画了。具体试用方式也很简单,只需要输入关键字 “/ 想象 ”+ 生成指令,机器人会在一分钟以内生成4张图,然后还可以使用特定指令对图像做进一步的修改。百闻不如一试,聊了这么多,咱现在就来试试这个使用中文指令的Midjourney,到底咋样!世超之前也有使用过一些中文的文生图模型,但是它们都有一个普遍的缺点,由于它们大部分都是基于英文语料训练的,所以在生成图片时,会先翻译成英文,然后再进行绘图操作。比如之前使用的NewBing绘图功能,我让它尝试画一个中式菜系松鼠鳜鱼,结果,它确实画了出来,不过画的真的是一只松鼠一只鱼。。。那么中文版Midjourney呢?我直接用中文描述了一个一群年轻人在山洞里吃松鼠鳜鱼的场景。在几十秒后,图画了出来,不得不说,初看一眼,这图确实画得好,有一种奇幻风格,而且对年轻人围在餐桌旁和山洞的理解非常棒。但是松鼠鳜鱼这个中国菜,依旧还是没能给画出来,而且在图画中,它还把松鼠和鳜鱼的特征给融合起来了。。。不过现在也不好直接下结论,于是我尝试了换一种说法,让它直接画一道苏帮菜 “ 松鼠鳜鱼 ” 。诶!在经过数十秒等待后,图画了出来。这次出的图中,除了第三张图,其它的都是正儿八经的中式菜,也确实能称得上是松鼠鳜鱼,而且出图的效果也很棒。为了知道这个中文版Midjourney到底还有啥牛的,我之后继续试了试让它生成其它类型的图片。之前网上不是很流行画那些国外名人在中国的乡村的镜头嘛?也不知道这个中文版的Midjourney能不能知道那些外国人的中文名。我先是去了英文版的Midjourney,让它以写实风格画一个蜘蛛侠在中国小镇扶老奶奶过街,超人在用激光眼烤火腿肠,钢铁侠和蝙蝠侠在一边讨论收购这条美食街的图片。结果,不知道是不是因为我的描述太过复杂了,这个生成的图片首先就不符合写实的特征。。。其次,蜘蛛侠倒是蜘蛛侠,但是超人、钢铁侠还有蝙蝠侠都不见了。。。而且图3蜘蛛侠居然还穿上了女装,这是什么奇怪的癖好啊。总而言之,以上描述的一大段内容,只有一小部分被画了出来。然后我又来到中文版Midjourney这,还是一样的描述给到它。在经过一小段时间的计算后,图片画了出来,从风格上来看,中文版和英文版应该是用的同一个模型了。只不过在中文版中,问题还是一样,蜘蛛侠只是在和老奶奶聊天,并没有扶她过马路,而且超人,钢铁侠,蝙蝠侠也没有画出来。。。不过测试怎么能就这么结束,知道英文版和中文版模型一致后,我试着调整一下咱们的描述,至少得让它把这些超级英雄给画出来吧!于是我输入下面这段描述。经过短暂的等待后,这次出的图就更奇怪了,甚至连蜘蛛侠都不见了。。。反而多了几位中国超人。。。另一边,英文版的Midjourney风格突然写实了起来,不过和中文版一样的情况,它还是缺了蜘蛛侠。而且整个超级英雄服装还整了个混搭风,比如图3超人的胸前印的是蝙蝠图标,还有一个矮子超人带着蝙蝠头套,图二里蝙蝠侠胸前是超人的S标。。。看到这,世超觉得,这个Midjourney可能觉得中国本来就没有这类超级英雄,所以大部分都以Cosplay的形式来演绎。那我不画漫画人物了,画点真人又如何呢?于是我再次提出要求,这次呢,我让Midjourney画了一个这样的图。好吧,这图是画出来了,就是这图里的人,我咋一个都不认识呢,虽然里面确实有一个黑人,但看着也不像科比啊?而且篮球场也没有,他们也没有踢足球啊。。。然后我又去英文版的试了试,情况也好不了多少,不过至少在图3里,我认出了马斯克。。。不过咱们可别忘了,我们后续还是能微调画面的,于是我让它把图二中的篮球换成足球,然后还要在后面画一个篮球架。好家伙,这不调整不打紧,调整完后直接鬼畜了,画面我就不描述,大家自己看看就好,希望大家在半夜看的时候不要被吓到。。。经过以上测试,世超觉得和中文一样,想要真的让Midjourney按照我们的描述完完全全的实现出画面,目前还是需要大量的时间精力去调整描述词和修改的。如果你的描述写的好的话,Midjourney的生成效果还是挺不错的,比如有用户让Midjourney输出一个可爱女孩的图片,描述的非常详细。以此为基础的输出结果,也是完美符合描述的。除此之外,现在的Midjourney所体现出的生产力增强已经不容小觑了,比如,一些偏3D的平面设计图,如果使用Midjourney生成,那效率可比自己从建模到渲染快的多了。在测试中,我也看到了有用户输入的这一段描述。短短一句话,一个高大上的事务所logo就出现了,而且设计效果还挺好的。而且在选中自己喜欢的那款之后,还能让Midjourney对这个图标进行微调,更加的自定义化。在试用过后,世超不得不感叹,怪不得现在的那些画家和设计师们对于AI绘画这么害怕,毕竟只要你会说话,那你就可以随意使用这些AI绘图工具,设计出自己脑海中作品。照这样看来,现在的绘画和设计行业,真的不再需要初级的画师了。世超觉得,在AI时代,相对于那些绘画技巧,更为重要的是脑海中的创意。因为技术终将会被被更先进的 AI 取代,而那些能在AI浪潮中幸存下来 “ 职业人 ” ,除了拥有会使用技术的那双手之外,在长年累月对世界的思考中诞生的各种奇思妙想,才是他们最宝贵的财富。...PC版:https://www.cnbeta.com.tw/articles/soft/1360831.htm手机版:https://m.cnbeta.com.tw/view/1360831.htm

封面图片

新版Midjourney AI绘画再无Bug“有图有真相”时代彻底过去

新版MidjourneyAI绘画再无Bug“有图有真相”时代彻底过去去年曾因拿下艺术比赛大奖而名噪一时的Midjourney,近期在AI生成图片领域热度可以说堪比OpenAI。MidjourneyV4版本去年年底几乎跟ChatGPT同期上线,而就在上周GPT-4推出的时候,Midjourney也飞速推出了第五代版本,而这一次的更新堪称“炸裂”。一周以来,各种用Midjourney生成的神图层出不穷,国足夺冠、特朗普插秧、教皇打碟、异形下乡……只要你敢想AI就敢画,而且随便拿出一张都能做到以假乱真的程度。但可能有创作的伪照片过于真实,引起了太多争议,太多新用户涌入导致服务器不堪重负,本周二,Midjourney宣布关闭了其免费账户的使用通道。不过,另外一方面,在人们疯狂娱乐的同时,一些人也尝试着把ChatGPT和Midjourney结合起来使用,一些由人类构思、AI主导和操作的“人机合作”作品也逐渐显现出了商业化应用的轮廓。当图片向照片进化:一个由AI创造的平行世界诞生你有没有想象过这样的画面:在不久前落幕的卡塔尔世界杯上,整个绿茵球场变成了一片红色的海洋。大家欢呼雀跃,全场掌声雷动。图片来自小红书博主,账号:Ai船长爱因斯坦没有出现在实验室里,而是梳着标志性的发型,在音乐节上狂欢。图片来自Twitter马斯克没有在21世纪造火箭和电动汽车,而是穿越到了苏联工厂,真正当起了一名“钢铁侠”(工人)。图片来自Twitter这样的世界,你觉得怎么样?以上这些无比真实的照片,并不是由谁花了大量时间PS制作的,而是很多普通人通过动一动手指头,打几个关键字,就让人工智能在十几秒内所自动生成的。造就这以假乱真世界的幕后推手是一个名为Midjourney的AI生成图片工具。可以说, 目前在AIGC绘图领域,MidJourney是一个比OpenAI还神奇的存在。Midjourney没有任何巨头的重金支持,是一个自筹资金的独立研究实验室,它的发起人为曾两次拒绝苹果收购的LeapMotion公司的创始人DavidHolz,目前全职员工仅有11人。但就是这么一个超小型团队,却是当前AI绘图领域最炙手可热的明星,甚至将OpenAI的DALL-E、StableDiffusion、英伟达的GauGAN2等同类工具都甩在了身后。比肩GPT的更新速度,惊叹和争议相继到来Midjourney的迭代速度相较于OpenAI可以说是有过之而无不及。去年3月份第一版本首次上线,4月份便火速更新第二版本,接着7月份上线OpenBetaV3版本首次向公众开放,之后以其独特的艺术性风格吸引了一些用户。其中,最出圈的就是这张由普通人给出提示词、AI负责创作,跟人类艺术家同台比赛之后斩获金奖的油画。之后Midjourney并没有停下更新的脚步,11月又推出第四代版本添加了更多图片风格,紧接着今年3月份,MidjourneyV5版本登场。此次V5版本的更新之所以能引发大量关注,主要是因为它解决了一个技术难题和完成了一次跨越性的突破。其中,技术难题指的是——画手。让AI画出逼真的人类手部特征是一个看起来简单但却出奇复杂的任务。首先,在AI的训练图集中,手往往都不是图片的重点,同时人们握手、牵手、鼓掌等不同状态下手部形态各异,很难形成标准化的模版,这也就造成了AI学习难度的激增。此外,即便对于传统人类画师来说,画手也是最困难的地方之一。手的几何形状复杂,并没有一套标准的线条或形状,指关节上的皱纹和褶皱、手掌上的阴影等细节非常多,并且每个人的手都不一样,是独一无二的存在,并不能套用。因此正确并精细化地画手对于所有的AI工具来说都是一项困难的挑战,在Midjourney的V5之前,行业内的AI绘画工具都无法很好地完成。Midjourney(左)、StableDiffusion(右上)和DALL-E2(右下)此前生成的奇怪人手,图片来自buzzfeednews但现在,MidjourneyV5版本的已经完美解决了这个问题。图片来自Twitter不仅告别了六指或畸形,还能结合人物特点画出不同状态和年龄画出不同的手部细节,就连在光影中的手指纹路也能被完美呈现。图片来自于mpost而除了攻克了画手这个技术难题之外,MidjourneyV5此次另一跨越性的突破在于——能够生成照片级的图片,并且还是摄影大师拍的那种。在V5之前,Midjourney生成的图片总体以卡通或超现实风格为主,但V5版本能够支援包括真实、抽象、油画等更广泛的风格,图像解像度比上个版本提高2倍。而此次写实风格的上线,可以说直接到了让很多摄影师都要感叹“摄影学不存在了”的地步。比如,以“90年代大街上的模特”为主题,完美创造出真假难辨的照片。图片来自Twitter,账号NickSt.Pierre以“你好小朋友”为主题,用胶片质感完成童年重现。图片来自小红书博主,账号:逗比以“发生飓风的新闻报道”为主题,无中生有地去还原一个灾难现场等等。图片来自Twitter从以上这些照片示例中可以看出,Midjourney的写实图片生成并不局限于一种固定的风格,而是会根据你描述场景和想要的风格来智能化的调整色调、像素、镜头语言等。最近Midjourney产出的很多图片,甚至已经达到人的肉眼无法判别真伪的程度。如果从技术的角度,Midjourney的进步无疑是让人惊艳和赞叹的。但可能也因为这些照片太过于真实和太多新用户的涌入,本周二,Midjourney宣布关闭了其免费账户的使用通道。分析认为,此举也是为了防止更多离谱的“照片”出现,从而扰乱现实世界和散布有害信息。比如,此前真的就有媒体以把特朗普被捕的生成图片当成了真实现场照片,从而造成了虚假新闻的出现和发酵。此外,Midjourney目前的关键词审核机制并不严格,因此也存在产生大量有害照片的风险。Midjourney表示他们正在进一步加强对于AI生成内容的监管和审核。图片来自于TheVergeChatGPT+Midjourney强强联合,AI作品走向商业化应用目前,MidJourney仍然需要结合Discord使用,使用方法依然很简单,通过输入文字和一些参数要求描述即可。目前还支持用户上传自己的图片,再根据图片进行AI生成。目前,一段完整Midjourney的“咒语”示例大概如下:Amaninfuturisticarmorwithcyberpunkdetails(对想要呈现图片的文字描述,可以添加更多细节),shotonCanonR6with50mmf1.2(风格描述,可以提出是什么设备拍摄的、或者是以哪位知名艺术家或摄影师的风格),--v5(使用第五代版本技术)--ar4:6(画幅比例,V5版本中你可以自定义任何比例)--iw1(输入的参考图片的权重占比)虽然咒语的构成并不算复杂,但对于很多只有一个模糊想法的普通用户来说,如何让Midjourney来画出自己脑中图像仍然比较困难。于是,ChatGPT也登场了。ChatGPT能发挥什么作用呢?首先你可以模糊地描述你的构想,让ChatGPT拓展成一个充满细节的画面描述,接着让它从这段文字描述中提取关键词。然后,你可以将Midjourney的提示句的语法构成告诉ChatGPT,再通过几次训练让Midjounery记住如何通过你输入的关键词来创建Midjourney的命令语法。之后你只需要复制粘贴ChatGPT给你的指令粘贴到Midjourney的命令框里即可生成图片,如果你不满意还可以让ChatGPT来继续帮你修改完善关键词。目前,已经有很多人已经在尝试将ChatGPT和Midjourney结合产出的结果,应用于自己的工作中。比如,做电商的不再需要去花大价钱去找摄影师、设计师,而是只需要把产品图片和关键词提供给AI工具,就能直接生成商业大片。图片来自小红书博主,账号:阿汤娇娇啊、阿泰ATAI动态视觉未来甚至也不用找真人模特了,直接用AI生成就行。还有人将其用于室内家居设计领域,帮助自己来做网站、生成宣传图片等。可以预见的是,ChatGPT和Midjourney的合作可能...PC版:https://www.cnbeta.com.tw/articles/soft/1352089.htm手机版:https://m.cnbeta.com.tw/view/1352089.htm

封面图片

AI 新知: 像大脑一样学习的多模态(极简版起源故事)

AI新知:像大脑一样学习的多模态(极简版起源故事)近日,微软放出了多模态大语言模型的重要论文《LanguageIsNotAllYouNeed》。预示着今年AI的下一个重大突破。那么,什么是多模态学习,有没有一种人人皆可理解的方式,让更多人参与着技术民主化的浪潮呢?答案是乐观和肯定的。以下内容来自JeffDean去年在TED做的分享,面向所有人。无需担心技术理解力,更依赖你对大脑本身的好奇心。原始链接:https://youtu.be/J-FzHIQ7SOsJeffDean二十多年前加入谷歌,领导着谷歌的人工智能研究与健康部门。核心内容摘要如下:(这是我的几点解读,供非专业人士参考)神经网络的机器学习突破是来自科学界对大脑的运作规律的理解(它是自下而上的)算力是重要且有效的,深度学习突破了识别猫咪、机器翻译到AlphaGO等单一任务AI的单一任务导向的训练是极为低效的,可以请想象成我们从小失去听觉、嗅觉、味觉(去观看电影的感受)多模态的思想,是进一步模拟大脑运作,就像生物拥有多种感觉来整合认知世界像大脑一样多个区域进行超高效率的协作,是学习真正的「奥义」;AI的多模态即对大脑深度的模仿。部分讲稿如下(适当删减,以便于文字阅读):1/人工智能可以做什么?在过去的十年间,AI在帮助计算机识别物体、理解语言和谈话方面取得的巨大进步。以往的天方夜谭现在一一成为现实。计算机视觉来说,在过去的十年中,电脑快速地发展出了‘看’的能力。这在计算机运用上具有变革性的影响。还有一些了不起的实际应用。可以通过机器学习预测洪水、翻译一百多种语言、预测和诊断疾病。2/让我们来看看构成当代人工智能系统基础的两个关键元素。首先是神经网络,它是解决这些难题的一项重大突破。第二个是运算能力。驱动神经网络运作实际需要大量的运算能力,在过去的十五年,我们做到了使其减半,那也是整个人工智能得以发展至此的原因之一。JeffDean认为我们做错了几件事~3/AI小历史。数十年前几乎从计算机科学最早出现,人们就想建造可以识别语言及理解谈话的电脑。最初的方法一般是人们手动写下完成难题所需的算法,但成效一般。过去的十五年间,一个方法出其不意地一次性解决了所有难题:神经网络。神经网络并非一个新想法。背后的理念出现于1960和70年代。神经网络如同其字面意思一样,是一连串互相连接的神经元。它们大致上效仿了人体真正神经元的特性。4/神经网络如何计算?这种系统中的一个独立神经元,拥有一组输入信息,每组输入信息有对应的比重,神经元的信息输出就等于那些输入信息乘以它们对应的比重。其实挺简单的,无数神经元协同运作,就可以学习复杂的东西。我们如何在神经网络中学习的?其实,在学习过程中,比重在不断被微调,增强一些东西的影响,削弱其他的影响。5/JeffDean对神经网络的兴趣,始于1990年本科阶段时学到的一门相关课程。那时,神经网络在精细问题的解决上取得了惊人的成果,但还达不到完成真实世界中重要工作的程度。他觉得我们可能只是需要更强的运算能力。明尼苏达大学当时有一个32位处理器。JeffDean想:“如果有更强的运算能力,我们真能用神经网络干点大事。”所以决定以神经网络的并行训练作为毕业论文的课题,理念是将电脑或电脑系统中所有的处理器运用到同一件任务上,用来训练神经网络。32位处理器,哇,我们肯定能用它做点大事。但我错了。6/JeffDean意识到如果想用神经网络做些引人注目的事情,所需的算力大概是90年代算力的一百万倍。但从大概2005年开始,多亏了摩尔定律,我们真的开始拥有算力了,世界上一些大学里的研究员们开始成功用神经网络完成各种任务。和其他几个在谷歌的同事听闻了这些成功事例,于是决定启动一个项目,训练大型神经网络。7/用油管视频里随机截取的一千万帧照片对其进行训练。这个系统发展出了能够识别所有不同种类物体的能力,然后因为是油管的关系,所以它发展出了识别猫的能力。油管上全是猫。但让它如此引人注目的是从未有人告诉过这个系统猫到底是什么。仅仅依靠数据的形态规律,它就能自己琢磨出来猫究竟是什么。8/在那个时候,我们还对如何打造一个更适合神经网络运算所需的计算机硬件感兴趣。神经网络运算有两个特性。第一个是它们对精准度要求很低。几个有效位就够了,不需要六七个那么多。第二个是所有算法都普遍由多个不同的矩阵和向量的运算组成。它会非常适用于神经网络运算,虽然你无法用它做太多别的事,这是我们制作的第一个成品,TPUv1。“TPU”是张量处理器的意思。多年来,这一技术运用于谷歌搜索、翻译、以及AlphaGo围棋比赛,所以李世石和柯洁可能没意识到,他们其实是在和TPU架构比赛。9/我们仍然做错了很多事,讲三件我们做错的事情,以及如何修正他们。第一个是,现如今的大部分神经网络只被训练进行单一种类的任务。你训练它去做一件你很关心的事情,但这是一项非常繁重的工作。你需要搜索数据组,选择这个问题所需的网络架构,接着随机分配起始比重,然后为调整比重进行大量运算。到最后,如果你幸运的话,可以得到一个非常适用于你关心的问题的模型。但如果你一直这样做,到最后会得到几千个独立的模型,每个可能都很有用,但都只针对某个单一类型的问题。10/想一想人类是怎样学习的。想象我们沉浸于钻研园艺,尝试垂直水培园艺。无需为此重新学习一遍,我已经掌握的有关植物的知识。知道怎么把植物放进洞里,怎么浇水,以及植物需要光照,我只需要整合这些知识用以学习新的技术。(大脑整合了不同维度的知识和模型)11/电脑也可以这样运作,但目前还未实现。为了避免每次学习新东西时忘记之前的知识,我们可以训练一个多任务处理模型,该模型的每个部分都有自己的专长,能够完成成千上万种不同的任务。假设我们有一个能完成一千种任务的模型,当第一千零一种任务出现时,我们可以整合已有的和新任务相关的知识,更快地完成这项新任务。就像你面临新的问题时,能够快速识别已知并能够帮助解决这些新问题的知识一样。12/第二个问题是,大部分现今的模型只能应对一种形态的数据,图片、文字或语音,但无法做到一网打尽。但想一想人类如何在这世上生活。你不断地动用你所有的感官去学习,去做出反应,去搞清楚现在应该做什么。这样显然更加合理,我们也可以用同样的方式建造模型。13/我们可以建造一个可以接收所有不同种类数据的模型,文字,图像,语音,然后把它们融合在一起,这样无论这个模型看到文字“豹子”,看到豹子的视频,还是听到有人说出“豹子”这个词它都会触发同样的反应:一个豹子的概念可以应对很多种不同的数据输入项,甚至是非人工的输入项,例如基因序列,3D点云数据,当然也包括图片、文字和影像。14/第三个问题是现有人工智能模型过于稠密,这导致我们在执行某项任务时必须完全激活整个模型。与之相反,人脑的不同区块专注于不同的工作。我们可以制造一种激活反应较稀松的模型,训练时,模型可以学习哪个区块适用于哪个领域。此类模型高效,因为我们只使用完成任务所需的区块。解决这三个问题后,我们可以训练几个通用模型,能够应对成千上万件事情,并整合不同数据形态。我们已经制造了一种符合以上条件的模型,叫做“Pathways”。15/我们的理念是这个模型可以完成成千上万种不同类型的任务,然后我们可以逐步增加新的任务,它也可以同时处理各种形态的数据,然后逐步学习新技能,并按需为不同任务启动不同区块。我们对此感到非常兴奋,我们认为这将是人工智能系统建造迈出的重要一步。16/浅谈一下什么是可信赖的AI。我们要确保强大的人工智能系统造福所有人,但也要考虑公平性、可解释性、私密性和安全性。为训练这些模型完成成千上万种任务,我们需要大量数据,并确保数据的采集代表不同的社群和情况。数据担忧只是可靠人工智能这个议题的一部分。2018年,谷歌发表了开发此类科技时应注意的人工智能守则。17/这帮助指导了我们在研究领域和产品中使用人工智能。这对于思考复杂问题和在社会中应用人工智能非常有帮助和重要。我们不断更新这些准则,它们是现在研究的热点领域。从只能识别数据中的模式到通用智能系统,它们赋予我们解决人类面临的重大问题的能力。例如,我们可以诊断更多疾病,设计出更好的药品,优化教育系统,解决全球变暖等复杂问题。这些系统需要来自世界各地的多学科专家共同协作。18/将人工智能和你所在的领域相结合,从而推动产业的进程。我看到了许多计算机科学的优势,以及在过去的几十年中计算机科学如何帮助几百万人更好地理解世界。今天的人工智能拥有帮助数十亿人的潜力。我们真的生活在一个振奋人心的时代。谢谢。Invalidmedia:

封面图片

Sora炸裂科技圈:真神还是焦虑制造机?

Sora炸裂科技圈:真神还是焦虑制造机?▲图:主角出场镜头拉近,可以清晰看到小美修长的脖子和优美的下颌线,让整个画面充满了令人无法抗拒的神秘和美感。▲图:细节展示实际上,整个短视频中,从街景到行人,包括小美,在现实中根本不存在。这是OpenAI最新产品Sora制作的演示视频,而正是这个视频,让周鸿祎做出了AGI发展将会10倍提速的预言。传统方式制作这样一段1分钟的视频成本非常高。除了需要选址,选演员,提前进行分镜构图,架设机位外等,想要碰上如此理想的天气,还需要赌一赌运气。落日转瞬即逝,一旦失误就只能第二天重头来过。拍摄完成后,是非常耗时的后期制作。不仅要调整画面色调,还要仔细核对画面中是否有瑕疵,比如眼镜反射的画面会不会导致穿帮、路人中是否出现不协调元素等等。但Sora出马,全部流程就是(字面意义上的)一句话的事。Sora官网上公布了十几段“制作”精良的高清演示短片,从现实人物到3D动画,所有短片都是通过一句话生成的。▲图:Sora展示视频看过这些短片后,我科技圈的朋友集体表示“炸裂”;大众圈的朋友表示“AI都到了这种程度了吗”;而摄影圈的朋友表示,尽管还是能看出和人类摄影师有一点点差距,但依然被Sora的效果震撼了,进而纷纷开始和我讨论起失业以后,除了送外卖还可以从事什么工作。但如果我们抛开网上铺天盖地、对Sora近乎玄幻的赞誉,跳出官网演示视频的魅惑就会发现,Sora本质上是生成式AI在视频领域的一个应用,一个diffusiontransformer模型。而官方宣传的Sora所有功能,例如通过文字或者图片生成高清短视频,在此基础上进行扩展生成一段更长的视频等,其实很多公司都在做。比较知名的产品包括已经商用的Runway,免费的Pika,以及还在完善阶段的GoogleLumiere、MetaMake-A-Video,还有一些知名度稍低的产品如Leonardo,FinalFrame等等。这里就有一个很大的疑问:凭什么出圈的又是Sora,它真有网上说的那么神吗?凭借更逼真的效果OpenAI再次出圈1月24日,Google研究人员公布了一段Lumiere的演示视频。画质非常高清,且真实。▲图:由Lumiere生成的游泳海龟视频Lumiere除了可以生成真实图片外,还可以实现一键换装、根据图片和提示词生成动态视频等功能。▲图:一键换装▲图:通过图片生成视频2月15日,刚刚过完情人节的Google在疯狂星期四又重磅推出了下一代AI产品Gemini1.5。在此前的演示视频中,Gemini已经展现了其在图像识别和多轮对话中的逆天能力。演示视频中,演示人员画了一个类似鸭子的轮廓让Gemini辨认,Gemini表示它觉得像个鸟。▲图:Gemini演示但是当演示人员画上了波浪后,Gemini表示通过长脖子长嘴又会游泳这几个依据,判断这是只鸭子。▲图:Gemini演示随后演示人员拿了个玩具小鸭子问Gemini这个东西是什么材质做的,Gemini表示看起来可能是橡胶也可能是塑料。而当演示人员捏响橡胶鸭子后,Gemini立刻判断出是用柔软的橡胶做成的。▲图:Gemini演示就在圈内很多人认为Google将要凭借Lumiere和Gemini拿下今年头条的时候,OpenAI仅仅用Sora就轻松获得了更高的关注度。Sora这个词很有意思,它在韩语中表示海螺壳,在日语中表示天空,在芬兰语中表示砂砾。这就很难不让人想到《海底两万里》的鹦鹉螺号,《沙丘》,以及“我们的目标是星辰大海”的豪情壮志。而且Sora是一个比较常见的名字,比Lumiere(法语,光)更短、更好读。和GPT当年的故事如出一辙,Sora也是踩着竞争对手以碾压式的优势胜出。相比同类产品,Sora能抓住提示词的精髓,巧妙地生成具有多个角色和特定动作的场景。有人做过对比,使用同样的提示词,让AI生成一个在花园里、似乎正在追逐什么东西、快乐奔跑的黄白相间的猫,最终结果的差距十分明显。▲图:不同AI产品的效果对比上面由Sora生成的视频看起来非常真实,甚至在奔跑时候,猫腮帮子上的毛都会随着脑袋起伏。而下面通过Pika,Runway,Leonardo,FinalFrame生成的视频,猫不仅看起来不像真的,连动作都很诡异。在生成的视频时长上,Sora也碾压友商。Sora可以生成1分钟的视频,相对的,Pika是3秒,Runway是4秒,Lumiere是5秒。最重要的是,Sora有望解决一个生成式AI的痛点,那就是同样的提示词通常不会生成同样的结果,例如“黄白相间的猫”这个提示词,不同的视频里会出现不同模样的黄白相间的猫。导致的结果,就是无法通过拼接来创作更长的视频。尽管Sora一出道就秀出了远超同行的肌肉,但Sora并没有选择像Pika、Runway一样,开放给大众使用,而是采取了Google、Meta类似的保守策略,先官宣来吊足大家胃口,然后慢慢内测,等待一个合适的时机,再向大众开放。因为,有很多关键问题,大家都没有找到好的解决方案。AI一调皮人类就头疼生成式AI天生就有一个“不按物理定律出牌”的老毛病,即便是看起来已经非常接近真实世界的Sora也不例外。这个问题过于明显,以至于OpenAI都懒得去遮掩,干脆自己先大方的说了出来。从内测用户流出的视频可以发现,Sora无视物理法则随意发挥的意愿十分高涨,而这种意愿在“必须还原物理世界”的规则约束下,很容易生成像人类做梦一样的场景。有过做梦经历的朋友应该会这样的体会:明明梦是虚幻的,但在梦里你的感受又很“真实”。下面就是个很典型的例子。▲图:Sora的梦境物理注意看,视频中的这个杯子莫名其妙的跳了起来并侧翻在桌面上,杯中的液体在杯子跳起来的一瞬间穿透了杯底铺满桌面,而最终杯子连同里面剩余的液体一起,融进了桌面。▲图:融进桌面的杯子这样的视频显然无法应用在正式的场合,大概率只能出现在B站的鬼畜区,告诉你一个学了3年动画的人,是如何因为一个毕业作品被老师轰出门外的故事。此外,Sora对算力有很高的要求。下面这个视频演示了低算力和高算力之间的差距能有多可怕。▲图:算力差距而想要高算力,就得花更多的钱。以Runway为例,个人版收费模式分3档,标准版为每月15美元,可以制作一个125秒的Gen-1视频,或者44秒的Gen-2视频,相当于每秒1-2.4元人民币,超出部分需要额外付费。Pro版每月35美元,至尊版每月95美元。而用户如果希望加快视频的产出效率,也需要额外购买“时间”。能力越大危险越大生成式AI在社会层面有几个老生常谈的问题。首先就是造假问题。AI生成的视频越真实,造假就越容易。最直接的解决办法是将AI生成的内容打上一个特殊的标签,以便于平台将其和人工拍摄的视频进行区分,OpenAI和Google的确也在做这件事。但水印的问题在于,它可以在分享的过程中会被人恶意抹除。例如通过截图、录屏的方式获得视频副本,不会带有任何水印。其次是版权问题。版权问题比造假更加复杂,它既是一个形而上的宏大概念,又和每一个创作者的个人利益息息相关。目前对版权的争论主要集中在AI和人类对齐的过程中,比如,AI通过学习别的艺术家的风格在此基础上进行的创作,和人类以同样方式进行的创作,本质上有没有区别?而更直白的问题则是,AI到底是来帮我赚钱的,还是来跟我抢钱呢?这些问题一个比一个难解决,也就意味着Sora们至少在短时间内不会向公众开放。从某种角度来看,这或许对于视频制作者是一个好消息,至少有了更多的缓冲时间,来思考如何应对接下来Sora们带来的冲击。无论如何,Sora们向公众开放,只是时间问题,至于会不会像周鸿祎预言的那么快,可能还存在疑问。但有一点毫无疑问:那时候的Sora们,...PC版:https://www.cnbeta.com.tw/articles/soft/1419351.htm手机版:https://m.cnbeta.com.tw/view/1419351.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人