光线的折射和反射处理非常强:具体的表现比如光线照射在液体上的反光,以及物品在镜面物体或者液体上的倒影,或者阳光穿过树木的丁达尔效

光线的折射和反射处理非常强:具体的表现比如光线照射在液体上的反光,以及物品在镜面物体或者液体上的倒影,或者阳光穿过树木的丁达尔效应。 亚洲人像的生成更加自然:之前Midjourney生成的亚洲人像充满了欧美的刻板印象,五官非常的扁平,同时眼睛非常小,这次V5升级以后对于亚洲人或者中国人的人像不在是之前非常扁平的形象。 体积效果更加逼真:V5在生成体积效果时不再象是通过绘制出来的画面,反而像真的在一些3D或者特效软件通过运算生成的,非常的自然。 更好的生成地标建筑:现在V5能够很好的还原现实中的地标建筑和相关景色,比如下面这张图里的纽约中央公园和的帝国大厦。 对一些热门产品的还原非常好:对于现实中存在的一些热门的产品比如独特版式服饰、汽车等还原的非常好。 非常好的还原航拍场景:V5对于航拍场景下地面内容的细节还原的也非常好,跟其他照片的表现类似涂抹感大幅减少。 不同角度的同一个人像肖像还原的非常好:顾名思义,V5现在可以生成非常连续的同一个人不同角度的照片,我们直接看照片吧。 对于不同材质的细节处理更加好:现在V5能够准确理解对于不同材质的描述,从而非常好的还原各种材质的形状和表面特点,以及与环境交互的变化。 由于这个模型刚刚发布肯定还有很多没有来得及发现的新特性。也欢迎大家将自己发现的相关特性跟我沟通。

相关推荐

封面图片

一套非常简单的提示词效果却意外的好,可以生成八九十年代的电影质感照片,而且里面的人物装扮也非常复古和到位,MJ V6 真是太强大

一套非常简单的提示词效果却意外的好,可以生成八九十年代的电影质感照片,而且里面的人物装扮也非常复古和到位,MJ V6 真是太强大了,对画面氛围装扮和照片质感的把握都非常好。 把第一个逗号前面的提示词换掉就行,可以是中国道士,可以是刀客,也可以是将军女侠。 提示词: Chinese swordsman wearing robe and hat, DVD screengrab, 1980s fantasy cinema, ar 9:16 style raw

封面图片

看别人说国产的 Deepseek V3 模型蛮好用的,去试了试,整体感觉还可以,主要是 ChatGPT 对于中文的局限性还是蛮大

看别人说国产的 Deepseek V3 模型蛮好用的,去试了试,整体感觉还可以,主要是 ChatGPT 对于中文的局限性还是蛮大的,比如我问他活珠子是什么,他就开始说是植物啊什么的,我告诉他你说的不对,他还继续编造。 但是这个 DeepSeek 我发现就完全没这个问题,本土化的知识做的非常好,一问他就知道这个是南京的特产,是一种食物。

封面图片

Midjourney 的局部重绘功能即将在这周或者下周发布,Niji 新发布了一个预告来演示这些功能,从演示来看效果非常强大。

Midjourney 的局部重绘功能即将在这周或者下周发布,Niji 新发布了一个预告来演示这些功能,从演示来看效果非常强大。 局部重绘是一个 AI 画图非常重要的功能你可以只修改图片的部分内容,再配合已经发布的平移和放大能力 MJ 的可用性将更上一个台阶。 下面详细介绍一下MJ 的局部重绘功能和可以做的事情: 什么是局部重绘 局部重绘是选择一个区域并重新绘制这部分的一个功能,比如下面这张图他非常好,但是有三只手,我们可以选择多出来的那只手重新绘制,同时根据选择的区域不同生成的结果也会不同。 不仅可以修复错误 局部重绘不止可以用来修复问题,也可以添加额外的元素,比如给他更换动物伙伴以及添加背景。 修复多角色场景 下面这个案例里面使用制作的空教室作为背景,为教室添加了多个不同的角色。 或者你也可以把一个有很多人的教室变成一个空教室。 修复你的完美图片 你也可以用来不断调整你的图片直到他符合你想象中的样子。不需要再把有瑕疵的地方遮起来,也不会影响你的关键内容。 视觉控制的新泛式 生成式人工智能行业仍处于起步阶段。文本到图像功能是一个:它允许许多从未接触过图像编辑器的人将他们的想法变成美丽的图像。 随着该领域的成熟和用户在操作图像方面变得更加熟练,他们将希望更好地控制自己的画布。虽然文本是最容易使用的界面,无法实现更加精细的操作。 随着平移、缩放和局部重绘的引入,他们正在探索在更具有视觉感知的空间中操纵图像的方法。 他们还强调了功能最终实现的时候 UI 可能不是上面图片的样子。

封面图片

新一代的博士后们正在转变科学研究的范式

新一代的博士后们正在转变科学研究的范式 来自科学界权威期刊《自然》,近期的一项统计研究揭示了ChatGPT如何转变了博士后研究员的经验。以下是该研究的一些重要而有趣的发现: - 大约有三分之一的应答者使用对话式 AI 来帮助他们完善文本、生成或编辑代码、整理他们领域的文献等 。对话式 AI 最常见的用途是优化文本(63%)。最多的领域分别是工程学(44%)和社会科学(41%)。生物医学和临床科学的博士后(29%)紧随其后。 - 在日本生活了十多年后,来自巴西的Rafael Bretas的日语说得相当不错。但是,书面日语,如其严格的礼貌层次,难倒了这位博士后。当他发送一些经AI 修改的信件给日本朋友进行礼貌检查时,他们说写作很好。事实上,它非常好,以至于Bretas现在每天都使用聊天机器人来写正式的日语。这为他节省了时间,也减少了挫败感,因为他现在可以立刻明确自己的观点。他说:“这让我对我正在做的事情更有信心。” - 像Bretas 还使用AI的研究者明显受益于其即时反馈和灵活性。他用AI 生成的文本对一名日本同事说:“我喜欢ChatGPT,因为它能够为我提供及时的建议。”他说:“我可以看到不同的建议,然后选择最合适的。”这意味着他可以避免使用过于礼貌或过于直接的措辞。像Bretas 这样开始每日使用的博士后,在调查中至少17%。 - 还有56%的博士后研究员报告称他们使用聊天机器人来生成、编辑和解决代码问题。例如,丹麦奥胡斯大学的考古学博士后伊莎·罗曼诺夫斯卡(Iza Romanowska)使用计算模型研究古代社会。她自学编程,她的代码也有些特殊。她说,ChatGPT对此很有帮助。“它会加入我不知道的规范,一些对代码运行没有影响但有助于他人阅读的内容。” - 马萨诸塞大学阿默斯特分校的计算机科学家埃默里·伯杰(Rafael Bretas)来表示在学术界对ChatGPT等工具存在着“令人震惊的怀疑态度”。他指出,批评ChatGPT的人往往从未尝试过使用它们,而不是试图理解这项技术的革命性能力。“就像你挥一挥魔杖,自由女神就出现了。虽然有一只眉毛丢了,但你确实让自由女神出现了!”他还指出,对于母语不是英语的初级研究人员来说,对话还是可能非常有用。 这些编辑助手可能已经在改善学生的求职信和申请信,以及提交给期刊的论文摘要方面发挥了作用,并补充道:“你可以看出英语水平有了很大的提高。”

封面图片

前几天刷到了好几个用Pixverse做的好视频,刚好他们最近上线了网页版本和新模型就想顺便测试一下和 Runway 以及 Pik

前几天刷到了好几个用Pixverse做的好视频,刚好他们最近上线了网页版本和新模型就想顺便测试一下和 Runway 以及 Pika 的质量相比怎么样。 先说结论: 如果不考虑其他功能和交互我这次测试的结果Pixverse和 Pika 的质量接近分别是 74.5 分和 73.5 分。Runway 效果居然最差只有 64.5 分。 Pixverse的模型是这三者最为平衡的,可以有比较强的运动幅度,同时可以维持较好的一致性,模型可以比较好的对提示词进行响应,尤其是 2.5D 那个镜头非常的惊艳,但是纯二次元图片的效果也不是很好。 Pika 在动漫和 2.5D 风格上的优势巨大,但是只有 Pika 每次生成是 3秒钟,所以图像质量打分会比其他两个差,写实风格效果也不是很如意,图像质量以及一致性相对差一些。 Runway 的模型质量和上面两者差距较大,主要是二次元风格的还原度太差还有 2.5D 风格直接无法维持一致性,写实场景对复杂画面改动较大有时候无法维持画面一致性,但是 Runway 对生成内容的控制还是三者最强的,因为其他两个都没有所以这部分就不计入分数。 这里使用Pixverse: 说一下测试的内容这次只测试视频模型的质量,所以三者都会使用图生视频来测试,这样可以忽略各自的图像模型的差距。 另外每个都会使用物品特写、写实风景、写实人像、皮克斯 2.5D 风格、 2D 动画风格,这五种风格,然后每张图片生成的视频会从主题一致性、运动平滑度、运动程度以及成像质量这四个维度进行主观评分,每张图片随机一次,所以评分非常主观不保证复现,就是给大家使用的时候一个参考。 下面是具体每个测试的分数,视频是三者生成视频的对比: 物品特写-橘子落水: Runway 主题一致性4分、运动平滑度 4分、运动程度 4.5分、成像质量 3.5分 、总分: 16 Pixverse 主题一致性4分、运动平滑度 4分、运动程度 3.5分 、成像质量 4分 、总分:15.5 Pika 主题一致性 3.5分、运动平滑度 4分、运动程度 4分 、成像质量 3.5分、总分:15 写实风景-伦敦塔着火: Runway:主题一致性2分、运动平滑度 4分、运动程度 4分、成像质量 3.5分 、总分: 13.5 Pixverse:主题一致性4分、运动平滑度 4分、运动程度 3.5分 、成像质量 4分 、总分:15.5 Pika:主题一致性 3.5分、运动平滑度 3.5分、运动程度 3.5分 、成像质量 3.5分、总分:14 皮克斯 2.5D 风格-拟人狐狸: Runway:主题一致性2分、运动平滑度 3.5分、运动程度 4分、成像质量 2分 、总分: 11.5 Pixverse:主题一致性4分、运动平滑度 4分、运动程度 4分 、成像质量 4分 、总分:16 Pika:主题一致性 3.5分、运动平滑度 4分、运动程度 3.5分 、成像质量 3.5分、总分:14.5 写实人像-水面古装: Runway:主题一致性4分、运动平滑度 4分、运动程度 2分、成像质量 3.5分 、总分: 13.5 Pixverse:主题一致性4分、运动平滑度 4分、运动程度 4分 、成像质量 4分 、总分:16 Pika:主题一致性 3分、运动平滑度 3.5分、运动程度 4.5分 、成像质量 3分、总分:14 动漫场景-植物园女孩: Runway:主题一致性 1分、运动平滑度 2分、运动程度 4分、成像质量 3分 、总分:10 Pixverse:主题一致性3分、运动平滑度 3分、运动程度 2.5分 、成像质量 3分 、总分:11.5 Pika:主题一致性 4分、运动平滑度 4分、运动程度 4.5分 、成像质量 3.5分、总分:16 总分: Runway:64.5、Pixverse:74.5 、Pika:73.5 Invalid media:

封面图片

Sora炸裂科技圈:真神还是焦虑制造机?

Sora炸裂科技圈:真神还是焦虑制造机? ▲图:主角出场镜头拉近,可以清晰看到小美修长的脖子和优美的下颌线,让整个画面充满了令人无法抗拒的神秘和美感。▲图:细节展示实际上,整个短视频中,从街景到行人,包括小美,在现实中根本不存在。这是OpenAI最新产品Sora制作的演示视频,而正是这个视频,让周鸿祎做出了AGI发展将会10倍提速的预言。传统方式制作这样一段1分钟的视频成本非常高。除了需要选址,选演员,提前进行分镜构图,架设机位外等,想要碰上如此理想的天气,还需要赌一赌运气。落日转瞬即逝,一旦失误就只能第二天重头来过。拍摄完成后,是非常耗时的后期制作。不仅要调整画面色调,还要仔细核对画面中是否有瑕疵,比如眼镜反射的画面会不会导致穿帮、路人中是否出现不协调元素等等。但Sora出马,全部流程就是(字面意义上的)一句话的事。Sora官网上公布了十几段“制作”精良的高清演示短片, 从现实人物到3D动画,所有短片都是通过一句话生成的。▲图:Sora展示视频看过这些短片后,我科技圈的朋友集体表示“炸裂”;大众圈的朋友表示“AI都到了这种程度了吗”;而摄影圈的朋友表示,尽管还是能看出和人类摄影师有一点点差距,但依然被Sora的效果震撼了,进而纷纷开始和我讨论起失业以后,除了送外卖还可以从事什么工作。但如果我们抛开网上铺天盖地、对Sora近乎玄幻的赞誉,跳出官网演示视频的魅惑就会发现,Sora本质上是生成式AI在视频领域的一个应用,一个diffusion transformer模型。而官方宣传的Sora所有功能,例如通过文字或者图片生成高清短视频,在此基础上进行扩展生成一段更长的视频等,其实很多公司都在做。比较知名的产品包括已经商用的Runway,免费的Pika,以及还在完善阶段的Google Lumiere、Meta Make-A-Video,还有一些知名度稍低的产品如Leonardo,FinalFrame等等。这里就有一个很大的疑问:凭什么出圈的又是Sora,它真有网上说的那么神吗?凭借更逼真的效果OpenAI再次出圈1月24日,Google研究人员公布了一段Lumiere的演示视频。画质非常高清,且真实。▲图:由Lumiere生成的游泳海龟视频Lumiere除了可以生成真实图片外,还可以实现一键换装、根据图片和提示词生成动态视频等功能。▲图:一键换装▲图:通过图片生成视频2月15日,刚刚过完情人节的Google在疯狂星期四又重磅推出了下一代AI产品Gemini 1.5。在此前的演示视频中,Gemini已经展现了其在图像识别和多轮对话中的逆天能力。演示视频中,演示人员画了一个类似鸭子的轮廓让Gemini辨认,Gemini表示它觉得像个鸟。▲图:Gemini演示但是当演示人员画上了波浪后,Gemini表示通过长脖子长嘴又会游泳这几个依据,判断这是只鸭子。▲图:Gemini演示随后演示人员拿了个玩具小鸭子问Gemini这个东西是什么材质做的,Gemini表示看起来可能是橡胶也可能是塑料。而当演示人员捏响橡胶鸭子后,Gemini立刻判断出是用柔软的橡胶做成的。▲图:Gemini演示就在圈内很多人认为Google将要凭借Lumiere和Gemini拿下今年头条的时候,OpenAI仅仅用Sora就轻松获得了更高的关注度。Sora这个词很有意思,它在韩语中表示海螺壳,在日语中表示天空,在芬兰语中表示砂砾。这就很难不让人想到《海底两万里》的鹦鹉螺号,《沙丘》,以及“我们的目标是星辰大海”的豪情壮志。而且Sora是一个比较常见的名字,比Lumiere(法语,光)更短、更好读。和GPT当年的故事如出一辙,Sora也是踩着竞争对手以碾压式的优势胜出。相比同类产品,Sora能抓住提示词的精髓,巧妙地生成具有多个角色和特定动作的场景。有人做过对比,使用同样的提示词,让AI生成一个在花园里、似乎正在追逐什么东西、快乐奔跑的黄白相间的猫,最终结果的差距十分明显。▲图:不同AI产品的效果对比上面由Sora生成的视频看起来非常真实,甚至在奔跑时候,猫腮帮子上的毛都会随着脑袋起伏。而下面通过Pika, Runway, Leonardo, FinalFrame生成的视频,猫不仅看起来不像真的,连动作都很诡异。在生成的视频时长上,Sora也碾压友商。Sora可以生成1分钟的视频,相对的,Pika是3秒,Runway是4秒,Lumiere是5秒。最重要的是,Sora有望解决一个生成式AI的痛点,那就是同样的提示词通常不会生成同样的结果,例如“黄白相间的猫”这个提示词,不同的视频里会出现不同模样的黄白相间的猫。导致的结果,就是无法通过拼接来创作更长的视频。尽管Sora一出道就秀出了远超同行的肌肉,但Sora并没有选择像Pika、Runway一样,开放给大众使用,而是采取了Google、Meta类似的保守策略,先官宣来吊足大家胃口,然后慢慢内测,等待一个合适的时机,再向大众开放。因为,有很多关键问题,大家都没有找到好的解决方案。AI一调皮人类就头疼生成式AI天生就有一个“不按物理定律出牌”的老毛病,即便是看起来已经非常接近真实世界的Sora也不例外。这个问题过于明显,以至于OpenAI都懒得去遮掩,干脆自己先大方的说了出来。从内测用户流出的视频可以发现,Sora无视物理法则随意发挥的意愿十分高涨,而这种意愿在“必须还原物理世界”的规则约束下,很容易生成像人类做梦一样的场景。有过做梦经历的朋友应该会这样的体会:明明梦是虚幻的,但在梦里你的感受又很“真实”。下面就是个很典型的例子。▲图:Sora的梦境物理注意看,视频中的这个杯子莫名其妙的跳了起来并侧翻在桌面上,杯中的液体在杯子跳起来的一瞬间穿透了杯底铺满桌面,而最终杯子连同里面剩余的液体一起,融进了桌面。▲图:融进桌面的杯子这样的视频显然无法应用在正式的场合,大概率只能出现在B站的鬼畜区,告诉你一个学了3年动画的人,是如何因为一个毕业作品被老师轰出门外的故事。此外,Sora对算力有很高的要求。下面这个视频演示了低算力和高算力之间的差距能有多可怕。▲图:算力差距而想要高算力,就得花更多的钱。以Runway为例,个人版收费模式分3档,标准版为每月15美元,可以制作一个125秒的Gen-1视频,或者44秒的Gen-2视频,相当于每秒1-2.4元人民币,超出部分需要额外付费。Pro版每月35美元,至尊版每月95美元。而用户如果希望加快视频的产出效率,也需要额外购买“时间”。能力越大危险越大生成式AI在社会层面有几个老生常谈的问题。首先就是造假问题。AI生成的视频越真实,造假就越容易。最直接的解决办法是将AI生成的内容打上一个特殊的标签,以便于平台将其和人工拍摄的视频进行区分,OpenAI和Google的确也在做这件事。但水印的问题在于,它可以在分享的过程中会被人恶意抹除。例如通过截图、录屏的方式获得视频副本,不会带有任何水印。其次是版权问题。版权问题比造假更加复杂,它既是一个形而上的宏大概念,又和每一个创作者的个人利益息息相关。目前对版权的争论主要集中在AI和人类对齐的过程中,比如,AI通过学习别的艺术家的风格在此基础上进行的创作,和人类以同样方式进行的创作,本质上有没有区别?而更直白的问题则是,AI到底是来帮我赚钱的,还是来跟我抢钱呢?这些问题一个比一个难解决,也就意味着Sora们至少在短时间内不会向公众开放。从某种角度来看,这或许对于视频制作者是一个好消息,至少有了更多的缓冲时间,来思考如何应对接下来Sora们带来的冲击。无论如何,Sora们向公众开放,只是时间问题,至于会不会像周鸿祎预言的那么快,可能还存在疑问。但有一点毫无疑问:那时候的Sora们,... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人