#AI 能搞黄色的模型才是好模型 没想到AI出来后第一个失业的是AV女星。

#AI 能搞黄色的模型才是好模型 没想到AI出来后第一个失业的是AV女星。 推荐体验下阿里今天开源的那个文生视频的 质量贼高……关键词还不受限制 直接可以拍片了!用马斯克的 grok 写内容,用阿里的 wan 出视频……

相关推荐

封面图片

万万没想到,美国人搞AI缺的竟然是变压器

万万没想到,美国人搞AI缺的竟然是变压器 AI 导致芯片和电力资源紧缺,基本是都被大伙们聊烂了。和不少朋友一样,世超这次的关注点倒集中在了变压器上,这玩意儿,怎么就突然上了马斯克口中的 “ 稀缺榜 ” ?其实严格来讲,上榜的并不是所有的变压器,而是降压变压器。咱们小时候科学课也讲过,为了减少损耗,电网运电一般都是几百万伏的高压,要转换成日常用的几十伏,得降个好几轮,而这中间,就需要降压变压器的助力。按照马斯克的逻辑,缺变压器,是因为未来咱用的电会越来越多,而用电激增,主要是 AI 和新能源的锅。关于 AI ,马斯克玩起了谐音梗,说是 Transformers ( 大部分大模型的底层架构 )导致 Transformers ( 变压器 )紧缺……毕竟按他的逻辑, AI 用电大头在数据中心上,随着算力需求的增长,未来数据中心的耗电量很可能是呈指数级增长的。而这只是一方面,另外大伙们可能想不到, CPU 和 GPU 的运行,还得用到不少的降压变压器。这是因为,低电压高电流,一直都是数据中心的用电主流方案。这么说吧,之前很长一段时间,对处理器的输入电压要求都是1 伏,这两年,随着芯片制程越来越高,已经有不少处理器的电压降到 1 伏以下了。而处理器在电压上吹毛求疵,是为了整个数据中心的能耗考虑。对于单个处理器来说,它的功耗( P )可以用这么一个公式来表示:其中, C 是和制程相关的一个常数, f 是频率,大家都希望它够高,但能耗 P 又不能太高,所以只能从电压 V 入手了。但降电压也不是什么轻松活,还得考虑到数据中心的特殊性,它得持续通着电,不然指不定有什么数据损失。所以,数据中心一般会先用降压变压器把电压降到12 V ,以便停电时启动备用电池供电,后续再用特定的转换器把电压降到 1 V 。而在中间加个 12 伏的电压,有两种选择。一种是给每台服务器,都配个 12 伏的降压变压器。另一种是集中式降压,搞个更牛的变压器,先把电压降到 12 伏,再去分配给多台服务器。而且好巧不巧,这两年 AI 大爆发,还正赶上野蛮扩张的时候了。像是阿里云在河北的数据中心,前两年的服务器规模就已经达到 30 万台了,未来还准备加到 100 万台。碰到这种状况,只有两个法子,要么用第一种方法多买些变压器,要么用第二种方法,换成电压相对高一点( 不少数据中心都打算用 48 伏替换 12 伏 )的变压器。无论是那种法子,咱也能看到,都挺耗变压器的。另外,马斯克还提到了电动汽车耗电,中国汽车工业协会做过一个统计,大概到 2030 年的时候,我国的电动汽车,每年都能耗掉1400 亿度电左右,用电量的激增,在一定程度上,也会让降压变压器的需求涨了不少,这部分,世超就不多赘述了。不过世超也查了下,变压器确实不像芯片一样,有着那么高的技术门槛,而且现在最难造的是几百、甚至上千千伏的特高压变压器。照理说咱们提到的那些变压器,造起来都不难,但它依旧能上马斯克的稀缺榜,是因为这玩意儿在美国确实缺。整个美国市场,变压器非常依赖进口,前两年都已经一跃成了全球最大的变压器进口国。在 AI 和新能源没爆火前,他们的变压器进口一直都挺顺利,所以压根儿没想搞本地的供应链,就变压器里很关键的材料电工钢,都不怎么生产。还有个更尴尬的点,美国电网的变压器,大概有七成都该退休了,即便这样,他们为了制裁中国,还下了变压器进口禁令,所以到现在还买不到新的,在超长服役呢。原来美国进口变压器,最多等上个几周,而去年一些地方都得等个一年以上了,并且价格也飙了4 倍不止。又因为供应链没搞起来,劳动人口也不太够,短时间内,建起本地变压器生产线几乎是天方夜谭。像是美国本地一个头部企业,想扩张一下变压器产线,给出的预计周期就长达 4 年。连经济评议会都看不下去了,发了份报告呼吁美国政府开启国防生产法,开启官方施压, PUSH 厂商们建立变压器生产链条。相反在国内,变压器的 “ 稀缺难题 ” 就没那么严重了。因为无论是研究还是生产线,国内就没停过,而咱们一直都是世界变压器的第一出口大国,说不定美国这次的变压器缺口,还能成为咱继续扩张的一个机会。所以,对于马斯克的那个稀缺排行榜,咱就别太担心了。最后,在经过耗水、耗电、耗变压器和耗芯片之后,你觉得下个上榜的会是啥? ... PC版: 手机版:

封面图片

阿里巴巴开源能理解图像的 AI 模型 Qwen-VL

阿里巴巴开源能理解图像的 AI 模型 Qwen-VL 阿里巴巴周五开源了能理解图像和完成更复杂对话的 AI 模型和 Qwen-VL-Chat。阿里巴巴称,Qwen-VL 基于 Qwen-7B,可以以图像、文本、检测框作为输入,并以文本和检测框作为输出,它使用了约 1.5B 的图文数据训练。在四大类多模态任务的标准英文测评中上,Qwen-VL 均取得同等通用模型大小下最好效果;支持英文、中文等多语言对话,端到端支持图片里中英双语的长文本识别;支持多图输入和比较,指定图片问答,多图文学创作等;相比于目前其它开源 LVLM使用的 224 分辨率,Qwen-VL 是首个开源的 448 分辨率的 LVLM 模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。Qwen-VL 和 Qwen-VL-Chat 使用名为 Tongyi Qianwen LICENSE AGREEMENT 的许可证,有限制条件,如果商业使用,则需要从阿里巴巴获得授权。来源 , 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

腾讯四季度研发投入 164.33 亿,AI 大模型助力多业务升级

腾讯四季度研发投入 164.33 亿,AI 大模型助力多业务升级 3 月 20 日,腾讯发布 2023 年第四季度及全年业绩报告,全年研发投入达到 640.78 亿元。自 2018 年以来,腾讯累计研发投入超过 2696.54 亿元。在全球范围内,腾讯专利申请总数超过 7.5 万件,授权专利数量超过 3.7 万件。 技术驱动带来的业务增长在腾讯最新财报中得到体现。 腾讯混元自去年 9 月推出后,已发展成为领先的基础模型。腾讯混元功能持续拓展,包括文生图、文生视频等,目前已在内部 400 多个业务中内测,并已在腾讯会议和腾讯文档推出 AI 助手服务。 另外,广告业务依托 AI 技术显著提升广告定向能力,Q4 收入同比增长 21% 至 297.94 亿元,创季度新高。 曝光/澄清:  @toutiaoal

封面图片

美图昨天发布了他们的MiracleVision 4.0图像模型,野心很大啊,几乎上线了现在 AI 画图和视频能做的所有事情,

美图昨天发布了他们的MiracleVision 4.0图像模型,野心很大啊,几乎上线了现在 AI 画图和视频能做的所有事情, 但是除了 AI 画图之外,AI 视频我没找到体验的地方,又是个期货发布会。下面是所有主要能力: AI 画图-矢量图形:画布中选一个区域,输入提示词,就可以生成匹配设计风格的矢量图形。 AI 画图-文字特效:输入任意想要的字形,如“MV”,同时输入“半透明玻璃,灯泡”就能生成对应的文字特效。 AI 画图-智能抠图:只需涂抹对象,AI就能够快速识别,自动提取,再转换成独立的图层。 AI 画图 -智能排版:可以帮你轻松排版。通过自然语言交互,对文字的布局、图像和元素的组合进行设计。 模型商店:用户可以自己创建对应的 AI 画图风格模型并上架。 AI 视频-文生视频:输入提示词,就能生成一段视频。 AI 视频-图生视频:上传图片,让图片动起来。 AI视频-视频运镜:提供了推、拉、摇、移等八种电影级运镜模式。 AI视频-视频生视频:对已有视频提供风格转换的能力。 AI视频-商品展示:让商品展示图片动起来,变成视频。

封面图片

重磅: Open AI 正式推出文生视频模型 Sora

重磅: Open AI 正式推出文生视频模型 Sora 名为Sora 视频模型突然降临,Open AI 目前提供的情报,所揭示的一些惊人能力: - Sora 根据用户提示可以生成长达一分钟的视频,同时保持视觉质量。(在这部电影预告片的提示词,非常简介:讲述 30 岁的太空人头戴红色羊毛针织摩托车头盔的冒险故事,蓝天、盐碱沙漠、电影风格、35 毫米胶片拍摄、色彩鲜明。) - Sora 能够生成包含多个角色、特定运动类型以及主体和背景准确细节的复杂场景。 - Sora 将理解你。这意味着和Dall·E 3有着类似的体验,它具有非凡的语言理解力。 - Sora 还能理解这些事物在物理世界中是如何存在的;换句话说,Sora 理解关于世界如何通过知识和规律进行表征,这可能是重大突破之一。(Hans注,这并不代表它是完美理解世界) - Sora 还能在单个生成的视频中创建多个镜头,准确地体现角色和视觉风格。 - Sora 是一种采取了Transformer架构的扩散模型,不仅能生成还能延长,让模型一次性预测多帧画面,确保主体一致性。 - 更多官方案例参考 安全方面的声明和步骤: Open A 正在与红队人员(错误信息、仇恨内容和偏见等领域的专家)合作,他们将对模型进行对抗性测试。还在开发一些工具来帮助检测误导性内容,例如检测分类器,它可以分辨出视频是由 Sora 生成的。 Open AI相信,从现实世界的使用中学习,是随着时间的推移创建和发布越来越安全的人工智能系统的重要组成部分。 Text 2 Video 的生态位 差不多在去年这个时候,Runway 所引爆的 Text 2 Video相关的生态位开启了重构好莱坞的想象空间。不到一年 Sora 的横空出生,其必将带来难以想像的变革力量。这是山峰再一次的快速攀升。 从多模态的深远意义来说,我强烈意识到 Open AI 描述的野心: 「Sora 是能够理解和模拟现实世界的模型的基础,我们相信这种能力将是实现 AGI 的重要里程碑。」 Invalid media:

封面图片

周鸿祎谈Sora模型:中美AI差距可能还在加大

周鸿祎谈Sora模型:中美AI差距可能还在加大 周鸿祎表示,AI不一定那么快颠覆所有行业,但它能激发更多人的创作力。今天 Sora 可能给广告业、电影预告片、短视频行业带来巨大的颠覆,但它不一定那么快击败 TikTok,更可能成为 TikTok的创作工具。同时,周鸿祎还谈到中美AI差距,他认为:OpenAl手里应该还藏着一些秘密武器,无论是 GPT-5,还是机器自我学习自动产生内容,包括 AIGC。他们手里的武器并没有全拿出来。这样看来中国跟美国的 AI 差距可能还在加大。以下为全文:Sora意味着 AGI实现将从10年缩短到1年年前我在风马牛演讲上分享了大模型十大趋势预测,没想到年还没过完,就验证了好几个从 Gemini、英伟达的 Chat With RTX到 OpenA!发布 Sora,大家都觉得很炸裂。朋友问我怎么看 Sora,我谈几个观点,总体来说就是我认为AGI很快会实现,就这几年的事儿了:第一,科技竞争最终比拼的是让人才密度和深厚积累。很多人说 Sora的效果吊打 Pika和Runway。这很正常,和创业者团队比OpenAl 这种有核心技术的公司实力还是非常强劲的。有人认为有了 AI以后创业公司只需要做个体户就行,实际今天再次证明这种想法是非常可笑的。第二,AI不一定那么快颠覆所有行业,但它能激发更多人的创作力。今天很多人谈到 Sora 对影视工业的打击,我倒不觉得是这样,因为机器能生产一个好视频,但视频的主题、脚本和分镜头策划、台词的配合,都需要人的创意至少需要人给提示词。一个视频或者电影是由无数个 60 秒组成的。今天 Sora 可能给广告业、电影预告片、短视频行业带来巨大的颠覆,但它不一定那么快击败 TikTok,更可能成为 TikTok的创作工具。第三,我一直说国内大模型发展水平表面看已经接近 GPT-3.5 了,但实际上跟 4.0 比还有一年半的差距。而且我相信 OpenAl手里应该还藏着一些秘密武器,无论是 GPT-5,还是机器自我学习自动产生内容,包括 AIGC。奥特曼是个营销大师,知道怎样掌握节奏,他们手里的武器并没有全拿出来。这样看来中国跟美国的 AI 差距可能还在加大。第四,大语言模型最牛的是,它不是填空机,而是能完整地理解这个世界的知识。这次很多人从技术上、从产品体验上分析Sora,强调它能输出 60 秒视频,保持多镜头的一致性,模拟自然世界和物理规律,实际这些都比较表象,最重要的是 Sora 的技术思路完全不一样。因为这之前我们做视频做图用的都是 Diffusion,你可以把视频看成是多个真实图片的组合,它并没有真正掌握这个世界的知识。现在所有的文生图、文生视频都是在 2D 平面上对图形元素进行操作,并没有适用物理定律。但 Sora 产生的视频里,它能像人一样理解坦克是有巨大冲击力的,坦克能撞毁汽车,而不会出现汽车撞毁坦克这样的情况。所以我理解这次 OpenAl 利用它的大语言模型优势,把LLM 和 Diffusion 结合起来训练,让 Sora 实现了对现实世界的理解和对世界的模拟两层能力,这样产生的视频才是真实的,才能跳出 2D 的范围模拟真实的物理世界。这都是大模型的功劳。这也代表未来的方向。有强劲的大模型做底子,基于对人类语言的理解,对人类知识和世界模型的了解,再叠加很多其他的技术,就可以创造各个领域的超级工具,比如生物医学蛋白质和基因研究,包括物理、化学、数学的学科研究上,大模型都会发挥作用。这次 Sora对物理世界的模拟,至少将会对机器人具身智能和自动驾驶带来巨大的影响。原来的自动驾驶技术过度强调感知层面,而没有工作在认知层面。其实人在驾驶汽车的时候,很多判断是基于对这个世界的理解。比如对方的速度怎么样,能否发生碰撞,碰撞严重性如何,如果没有对世界的理解就很难做出一个真正的无人驾驶。所以这次 Sora 只是小试牛刀,它展现的不仅仅是一个视频制作的能力,它展现的是大模型对真实世界有了理解和模拟之后,会带来新的成果和突破。第五,Open Al训练这个模型应该会阅读大量视频。大模型加上 Diffusion 技术需要对这个世界进行进一步了解,学习样本就会以视频和摄像头捕捉到的画面为主。一旦人工智能接上摄像头,把所有的电影都看一遍,把YouTube 上和 TikTok 的视频都看一遍,对世界的理解将远远超过文字学习,一幅图胜过千言万语,而视频传递的信息量又远远超过一幅图,这就离AGI真的就不远了,不是10年20年的问题,可能一两年很快就可以实现。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人