昨晚和一位 OpenAi Candidate 的聊天,聊了 nerf, AI 3D, AI 动画, AI 服装模特… 是我近期信

昨晚和一位 OpenAi Candidate 的聊天,聊了 nerf, AI 3D, AI 动画, AI 服装模特… 是我近期信息量最大的对话了。给我最大震撼的是,我们发现 AI 动画这个事学术界感兴趣的方向和工业界需要的竟然完全不一样。 ▶ 对于工业界来说,img2img 比 txt2img 重要,因为业内的工作流程一直是从草稿细化到成品;而 txt2img 由于可控性太低,相对于 img2img 来说真的太低效了。 制作电影/动画也是同理,讲故事的是视觉,分镜脚本是比剧本更重要的存在,一些 case 我们是直接跳过剧本直接写分镜脚本的(比如广告)。基础的工作流是:分镜脚本 -> 预演 -> 成片。 放到 AI 时代的视角来看,从电影分镜到成片,本质是一种 style transfer. 不是给视频套一个滤镜的那种 style transfer,是真的改变画面内容 structure 的 style transfer. 而这就是 Gen-1 在干的事情。 所以我们期待类似 Gen-1 的产品比期待 Gen-2 (txt2video) 要多很多,能预想到 txt2video 出来了以后融入实际工作流肯定会各种因为可控性太低而被各种诟病,但更完善更好的 Gen-1 可以很快地进入实际的工作生成中。 ▶ 对于学术界来说,Gen-2 在技术含量上比 Gen-1 要有趣得多,带 structure 改变的 style transfer 是已经解决了很长一段时间的问题,Gen-1 的技术是没有秘密的。学术界的重心基本都铺在了 txt2video 上。 我:@#¥%…&* I dont really give a damn to txt2video _(:ι」∠)_

相关推荐

封面图片

AIGC Weekly #11更新了,本期主要介绍了ChatGPT API发布的内容以及相关工具,AI生成动画短片的工作流程。下

AIGC Weekly #11更新了,本期主要介绍了ChatGPT API发布的内容以及相关工具,AI生成动画短片的工作流程。下面是上周一些行业动态和产品推荐,更多详细的内容可以去图里的竹白查看: 本周精选: ChatGPT API上周正式发布了下面是一些相关信息: 官方介绍文章: 官方API文档: Token计数规则文档: Token可视化计数工具: 官方Playground页面: 同时开放的API 还有Open AI已经开源的Whisper语音识别模型: ANIME ROCK, PAPER, SCISSORS-完全使用AI绘图技术制作的高水平动画: 他们使用的主要工具为: Stable Diffusion模型+DreamBooth微调 ControlNet 匹配动捕画面姿势 虚幻引擎+资产存储3D模型 Img2Img + DeFlickering效果 大量的老式的VFX合成 产品推荐: OpenCat-ChatGPT Mac桌面客户端: bob-plugin-openai-translator-BOB ChatGPT翻译插件:

封面图片

OpenAI 现允许网站阻止其网络爬虫抓取数据,避免数据被用于训练 AI 模型

OpenAI 现允许网站阻止其网络爬虫抓取数据,避免数据被用于训练 AI 模型 OpenAI 在其博客文章中表示,网站运营者可以通过在其网站的 Robots.txt 文件中禁止 GPTBot 的访问,或者通过屏蔽其 IP 地址,来阻止 GPTBot 从其网站上抓取数据。 GPTBot是OpenAI的网络爬虫,可以通过以下用户代理和字符串来识别。 User agent token: GPTBot Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot) 禁止 GPTBot User-agent: GPTBot Disallow: / 自定义 GPTBot 访问 User-agent: GPTBot Allow: /directory-1/ Disallow: /directory-2/ IP 出口范围 40.83.2.64/28

封面图片

Figure与OpenAI合作13天 AI机器人惊艳面世 能对话、能思考、会学习

Figure与OpenAI合作13天 AI机器人惊艳面世 能对话、能思考、会学习 Figure3月初宣布,其已从亚马逊创始人贝索斯、英伟达、OpenAI和微软等巨头那里筹集了约6.75亿美元的资金,使其公司估值达到了26亿美元。首个OpenAI机器人来了!在Figure发布的视频里显示,机器人Figure 01可以听懂人类的命令和提问,动作流畅且有逻辑地递给人类苹果、将垃圾收拾进框子里、将杯子和盘子归置放在沥水架上。而最重点的是,Figure 01的很多举动和回答是根据提问者的一些开放性问题和要求,基于逻辑思考而得出的这意味着它能对话、能思考、能学习,比一般的机器人更“像人”。视频开头强调,这个机器人的行为都是基于语音的逻辑推理,使用端对端神经网络,且视频全程1倍速,没有经过加速。接下来,正片开始,提问者开始在视频中给Figure 01提出多个问题和要求,且难度越来越高。当一开始被问到“Figure 01,你现在能看到什么?”时,Figure 01给出了准确的回答:“我看到一个桌子中间有个红苹果,一个沥水篮和一些杯子和盘子,还有你站在桌子旁,手放在桌子上。”提问者接着问道:“我有什么能吃的吗?”Figure 01动作流畅地把红苹果递给了提问者。接下来,提问者往桌上倒了几个黑色塑料袋团,并给出了更高难度的要求:“你能一边解释你刚刚为什么这么做,一边把垃圾收起来吗?”Figure 01继续做出了完美的反应:他一边动作流畅地将塑料袋团收到篮子里,一边回答道:“我刚刚给了你个苹果,因为这是桌子上唯一能吃的东西。”接着提问者给出了更开放性的问题:“你看看你现在面前的场景,你觉得你面前的盘子该去哪?”Figure 01基于人类常识作出了回答:“盘子和杯子可能该放在沥水篮里。”然后在提问者的下一句要求“那你把它们能放到那边去吗?”后,准确的将杯子和盘子放进了沥水篮。值得注意的是,提问者提出的“那你能把它们放到那边去吗(Can you put them there)?”并没有准确的提出“杯子”“盘子”和“沥水篮”等关键词,而是只用代称,这表明Figure 01有联系上下文思考和记忆的能力。提问者最后让Figure 01对自己的表现给出评价:“你觉得自己做得怎么样?”Figure 01回答:“我觉得我做得很好。苹果找到了新主人,垃圾都被扔掉了,餐具也放到了该放的地方。”OpenAI所提供的超强大脑尽管视频只有短短2分钟,但其包含的信息量却巨大:这个名为Figure 01的机器人已经可以完全与人类流畅对话,理解人类的自然语言指令和意图并进行动作,同时解释原因。它甚至可以对自身行为做出主观的评价。这在这背后提供支持的,就是OpenAI所提供的“大脑”。就在3月1日,,Figure才刚刚宣布将与OpenAI合作,开发下一代人形机器人的人工智能(AI)模型。Figure将基于OpenAI最新的GPT模型开发AI模型,并专门训练Figure收集的机器人动作数据,以便其人形机器人可以与人交谈,看到东西并执行复杂任务。而才刚刚过去13天,这个具备人工智能的人形机器人便火速面世并惊艳科技圈AI模型的成长速度真的令人震撼。在视频发布后,创建Figure 01的高级AI工程师(也是视频中出镜的提问人)科里·林奇(Corey Lynch)对Figure 01的表现作出了更多的解释。“我们的机器人可以描述它的视觉体验,计划未来的行动,反思它的记忆,并口头解释它的推理,”他在X上写道。根据林奇的说法,他们从机器人的摄像头中输入图像,并将车载麦克风捕获的语音文本转录到OpenAI训练的大型多模式模型中。林奇强调,Figure 01的行为都是通过学习而习得的,绝不是远程控制。根据官网介绍,Figure 01机器人身高5英尺6英寸(约1.67米),体重60公斤,可载重20公斤,续航5小时,前进速度1.2米/秒。在OpenAI的技术支持下,Figure 01仅用13天就能完成这样令人惊艳的学习和思考能力。这不禁让人期待,在未来,更加“聪明”的机器人恐怕会比我们想象的更早到来。 ... PC版: 手机版:

封面图片

估值800亿美元AI巨头OpenAI管理层揭秘:9位年轻高管掌舵

估值800亿美元AI巨头OpenAI管理层揭秘:9位年轻高管掌舵 OpenAI 成立于 2015 年 12 月,创始人包括 Altman 和其他三位联合创始人:Greg Brockman、Ilya Sutskever和Elon Musk。风险投资家 Peter Thiel 以及亚马逊和 Infosys 等企业投资者是 OpenAI 的早期支持者, 他们以 10 亿美元的资金帮助该公司启动研究和运营。2019 年,OpenAI 拆分为非营利性 OpenAI, Inc. 及其营利性子公司 OpenAI Global, LLC。我们今天所知道的 OpenAI 采用的是上限利润模式,该模式为投资者从投资中获得的利润设定了最高限额。6 月初,有报道称 OpenAI 正在考虑从上限利润模式转向完全营利模式。同时,非营利性部门使其能够承担昂贵的长期研究项目。近年来,随着业务的飞速发展,OpenAI 的领导层经历了重大变动,最引人注目的是Altman于 2023 年 11 月突然被解雇又复职,以及随后的董事会改组。OpenAI 的前董事会成员包括 Altman、马斯克(2018 年初离职)、Sutskever 以及几位非创始投资者和人工智能专家。如今,该公司由一个全新的董事会管理,由来自技术、政策和学术界不同背景的七名成员组成。以下是 OpenAI 的 9 位知名高管和 7 位董事会董事:萨姆·奥特曼(Sam Altman),39 岁,首席执行官2019 年,OpenAI 的营利性实体成立时,阿尔特曼就担任其首席执行官。2023 年 11 月,他曾被短暂解雇,几天后,在超过 95% 的 OpenAI 员工签署公开信要求他回归后,他又恢复了原职。19 岁时,阿尔特曼从斯坦福大学辍学,与他人共同创立了 Loopt,这是一款基于位置的社交网络移动应用,并成功销售。2011 年,他以合伙人的身份加入了创业加速器Y Combinator,最初他只是兼职,以便与兄弟杰克·阿尔特曼共同创立风险投资公司 Hydrazine Capital ,并于 2014 年晋升为总裁。2019年,他因在 OpenAI 等非公司项目上花费太多时间而 被迫从 Y Combinator 辞职。除了OpenAI,Altman还担任清洁能源公司Oklo Inc.和Helion Energy的董事长。据报道,Altman参与外部商业活动是OpenAI前董事会想将他赶走的原因之一。格雷格·布罗克曼,36 岁,总裁兼董事长格雷格·布罗克曼 (Greg Brockman) 是 OpenAI 的联合创始人,并领导了该公司的研究和工程工作,包括产品开发。布罗克曼于 2023 年 11 月与阿尔特曼一起被解雇,并在阿尔特曼复职后不久回归。此前,他是杰克·多西 (Jack Dorsey ) 领导的金融科技公司Stripe 的首席技术官。Mira Murati,35 岁,首席技术官Mira Murati于 2018 年 6 月开始在 OpenAI 工作,担任应用 AI 和合作伙伴关系副总裁。后来,她于 2022 年晋升为研究、产品和合作伙伴关系高级副总裁兼首席技术官。Murati 拥有商业和工程方面的混合背景。在加入 OpenAI 之前,她曾担任特斯拉的高级产品经理,专注于其 Model X 汽车。在此之前,她曾在航空航天公司 Zodiac Aerospace 担任工程师,并担任虚拟和增强现实开发公司 Leap Motion(后来与 Ultrahaptics 合并成为 Unleap)的产品和工程副总裁。雅库布·帕乔基(Jakub Pachocki),33 岁,首席科学家OpenAI 致力于研究和 AI 产品,因此公司设有首席科学家和首席技术官。首席科学家专注于研究,而 CTO 则专注于应用和产品开发。雅库布·帕乔基(Jakub Pachocki)在前任苏茨克弗(Sutskever)于 2024 年 5 月辞职后成为首席科学家。这位波兰科学家曾担任 OpenAI 的研究主管,领导了 GPT-4 和 OpenAI Five 的开发。帕乔基于 2017 年初加入 OpenAI,此前他在卡内基梅隆大学获得博士学位,并在哈佛大学担任博士后研究员。他因在 OpenAI 大规模强化学习(RL)和深度学习优化研究方面的贡献而受到赞扬。萨拉·弗莱尔(Sarah Friar),51 岁,首席财务官作为 OpenAI 高管团队的最新成员之一,Sarah Friar于 2024 年 6 月加入该公司,担任首任首席财务官。Friar 最近担任社区社交网络应用 Nextdoor 的首席执行官。在此之前,她曾是高盛的一名银行家,并在 2012 年至 2018 年期间为 Salesforce 和 Square 工作。Friar 是区块链公司 ConsenSys的董事会成员,之前曾担任 Slack 和 New Relic 的董事会成员。Jason Kwon,46 至 48 岁,首席战略官Jason Kwon在担任 OpenAI 总法律顾问两年多后,于 2023 年 7 月成为首席战略官。他负责监督公司的战略,尤其是投资,并制定公司在日益激烈的竞争中的发展方向。Kwon 拥有丰富的法律背景,曾担任 Y Combinator 的总法律顾问,专注于 YC Continuity Fund,担任 Khosla Ventures 的助理总法律顾问,并担任 Goodwin 全球律师事务所的合伙人。张哲 (Che Chang) 总法律顾问在 OpenAI 面临多起法律纠纷的情况下,该公司拥有不断壮大的内部法律团队也就不足为奇了。Che Chang之前曾担任亚马逊的高级企业法律顾问,因此在技术方面拥有丰富的法律专业知识。Chang 是 OpenAI 内部团队的首席律师,为公司提供法律建议和指导,包括降低风险、确保法律合规以及在法庭上担任其官方法律代表等。Hannah Wong,39 或 40 岁,通讯主管汉娜·黄 (Hannah Wong)于 2021 年 2 月加入 OpenAI,此前她曾在苹果公司从事了七年的公关工作。2023 年,她成为 OpenAI 的公关主管,后来担任副总裁。黄的职业生涯始于全球传播公司爱德曼 (Edelman),主要负责 Xbox 和 Xbox LIVE、嘉信理财 (Charles Schwab) 和 Twitter 账户。在 Gap 担任企业传播自由职业者一段时间后,她最终担任苹果的公关经理,然后担任高级经理,主要负责 iPad、Apple Pay、Apple Card 和 iCloud。在 OpenAI,她负责领导沟通策略和公关,并负责监督员工沟通和品牌设计团队。艾丽莎·罗森塔尔(Alissa Rosenthal),40 岁,销售主管Alissa Rosenthal 在 S&P Global 开始了自己的科技职业生涯,并担任 Quid 人工智能市场情报战略合作伙伴总监。她的第一份销售工作是在 Mixpanel 担任销售总监,然后在 InVisionApp Inc. 工作。在 2022 年 6 月加入 OpenAI 之前,Alissa Rosenthal 最近担任 SaaS 公司 WalkMe 的销售副总裁。在 2 月份接受 VentureBeat 采访时,Rosenthal 透露她目前管理着一支 150 人的团队。她将销售团队的主要目的描述为帮助用户过渡到人工智能(AGI),尽管 AGI 在整个行业中仍未定义。现任董事会成员亚当·德安杰洛(Adam D’Angelo),39 岁,Quora 联合创始人兼首席执行官布雷特·泰勒(Bret Taylor),43 岁,人工智能初创公司 Sierra 联合创始人劳伦斯·萨默斯(Lawrence Summers),69 岁,前总统奥巴马政府国家经济委员会主任苏·德斯蒙德-赫尔曼,66 岁, 辉瑞董事会成员、比尔和梅琳达·盖茨基金会前首席执行官妮可·塞利格曼(67 岁) 索尼公司前执行副总裁兼总法律顾问、索尼美国公司前总裁Fidji Simo ,38 岁, Instacart首席执行官兼 Metrodora 研究所联合创始人保罗·M·中曾根(Paul M. Nakasone),60 岁,美国陆军退役将军,曾领导创建美国网络司令部,并担任美国网络司令部领导人 ... PC版: 手机版:

封面图片

“阉割版”AI芯片,也能让英伟达赚疯?

“阉割版”AI芯片,也能让英伟达赚疯? 不过,H20在中国市场的实际情况,可能并没有如咨询机构预估的那般乐观。一位服务器经销商向虎嗅表示,目前一台H20八卡服务器,定价大约在120万元,而性能大幅领先的满配H100 NVLink版本的八卡服务器价格为270万元上下,而且是现货。尽管后者早早被列入禁止对华出售的名单中,但在非官方渠道中,这款芯片的货源基本没有断过,甚至在今年二季度H200开售后,这款芯片的价格还下跌了约10%。“无论怎么看,H20的性价比都还是太低。”这位服务器经销商提到,即便是同国内的解决方案相比,H20都难言有多大的竞争优势。“阉割版”,但还挺良心的?与同系列芯片不同,H20是一枚“赶工”性质非常明显的产品。在去年10月美国升级芯片禁令后,原本就被视为阉割版芯片的A800/H800,甚至是消费级产品RTX4090都被纳入禁令的管制范围。但仅在一个月后,就有台湾地区媒体报道称,英伟达向代工厂下了H20芯片的订单。在如此短的时间内,英伟达不可能重新设计一款芯片,最大的可能是基于既有型号进行有针对性的调整。比如新规中取消了将“互联带宽”作为限制芯片的识别参数,英伟达就将H20的HBM3显存容量拉高到96Gb,使显存带宽提高到4.0Tb/s;又比如新规新增了“性能密度”的限制,英伟达就向算力规格大砍一刀,使其理论性能仅为296TFLOP,相当于H100芯片的15%。至于那些新规没有提到的,比如PCIe Gen5扩展卡、八路HGX,英伟达全部保留了下来。值得一提的是,H20还有非常高的卡间互联速度,其NV Link带宽达到900Gb/s,很适合组建大规模集群。但这些特征组合在一起,却形成了一个很尴尬的事实:在算力大幅削减的情况下,H20的BOM很可能跟H100齐平,甚至高于后者。原因在于,存储颗粒一直是高性能计算卡成本的“大头”,比如H100芯片中,HBM3颗粒的采购就要占到60%左右,而在H20芯片上,英伟达又不得不为其配备更高规格的显存容量,以弥补算力不足的缺陷。基本可以断定,H20在英伟达高性能计算卡中,属于利润率最低的存在。相较于1.2-1.3万美元的售价,与它同成本的H100目前定价为2.5-3万美元。从这个角度来看,H20算是英伟达的一款良心产品了。英伟达自然不甘心于让一款单品拉低公司整体的毛利表现,但自去年芯片禁令升级后,英伟达四季度在中国大陆的营收,从上一季度的40.3亿降低至19.46亿,其中国区数据中心营收占比也从22%滑落至8%,英伟达急需用一款产品去稳住在中国的市场份额。H20就是英伟达拿出的诚意之作,但还是那个问题,H20的算力实在羸弱,这个硬伤无法被忽视。华为或与之一战?实际上,英伟达曾在今年2月进行过一次官方调价,在调价之前H20芯片的价格为2.3万美元,尽管英伟达表示降价的原因是“供货充足”,但如此大幅的价格调整,主要原因大概率还是销量没有达到预期。“国内大厂基本不会考虑H20服务器,都是闭眼买H100,而那些体量相对小的厂商也认为有点划不来。”有服务器经销商向笔者算了一笔账,现在H100的服务器单机租赁费用大概是8-9万元/月,而算力仅有前者六分之一的H20服务器价格为120万元上下,即便不考虑算力损耗的问题,厂商也需要购买6台H20服务器,才能与H100服务器相齐平。这样一对比,H20虽然是英伟达利润率最低的产品,但对于客户来说,实在称不上有性价比。而对于英伟达来说,还有一个不可忽视的因素是国内同类型竞品,比如华为升腾910B。与H20相比,910B在单卡算力(FP16)上几乎相当于前者的一倍。相应地,910B价格也要高于H20,服务器经销商向笔者表示,目前910B的服务器价格已经超过170万元。抛开价格,从实际表现来看,二者的竞争互有胜负手。910B强在算力和能效比上,H20则胜在软件生态与互联上。最直接的例子就是,H20兼容所有的英伟达H系列卡,而且具备极高的访存能力,在搭建算力集群时,能够更好地避免算力损耗。当然,这个集群规模是有上限的,比如各地筹划的“万P计算集群”,如果用H20搭建,那么0.15P单卡运算能力就意味着十万颗级别的GPU,组网难度极大。另外一个值得关注的问题是,英伟达与华为谁能更加稳定地供应产品?此前,就有业内人士向笔者提到过,对于那些急于购买搭建算力中心的厂商来说,H20可能是更现实的选择。一方面,英伟达的软件生态更加成熟,厂商的适配工作量要小得多;另一方面,目前无论是政策还是资本方,都对于算力中心的芯片国产化率有一定要求,910B的需求量非常大,相应地交付周期也比较长。这一说法笔者也在服务器经销商处得到了验证,对方向笔者表示,“在英伟达调价前,行业内客户对于910B的咨询要远大于H20,但现在也有客户对H20展现出了兴趣,因为有充足的现货。”有趣的是,二者可能并不是完全意义上的竞争关系,因为有业内人士向笔者表示,在他所在的公司,910B和H20被归为不同分级,在采购上并不冲突。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人