Google人工智能技术“Transframer”可根据一张图片创建短视频

Google人工智能技术“Transframer”可根据一张图片创建短视频随着技术的发展，研究人员继续寻找新的方法来利用人工智能和机器学习能力。本周早些时候，Google科学家宣布创建了Transframer，这是一个新的框架，它能根据单一的图像输入来生成短视频。这项新技术有朝一日可以增强传统的渲染解决方案并使开发者能够基于机器学习能力创建虚拟环境。这个新框架的名称（及在某些方面的概念）是对另一个基于人工智能的模型Transformer的点赞。Transformer最初于2017年推出，是一个新颖的神经网络架构，它有能力通过建模和比较句子中的其他词来生成文本。此后，该模型被纳入了标准的深度学习框架如TensorFlow和PyTorch。据悉，Transframer使用具有类似属性的背景图像，结合查询注释来创建短视频。尽管在原始图像输入中没有提供任何几何数据，但产生的视频在目标图像周围移动并将准确的视角可视化。这项新技术使用Google的DeepMind人工智能平台进行了演示，其功能是分析单一的照片背景图像以此来获得关键的图像数据并生成额外的图像。在这一分析过程中，系统确定了图片的框架，这反过来又帮助系统预测图片的周围环境。然后，语境图像被用来进一步预测图片从不同角度会出现的情况。预测根据数据、注释及语境框架中的任何其他信息对额外图像框架的概率进行建模。该框架通过提供基于非常有限的数据集生成合理准确的视频的能力，这标志着视频技术的巨大进步。Transframer任务在其他跟视频有关的任务和基准上也显示出极有前景的结果，如语义分割、图像分类和光流预测。对基于视频的行业如游戏开发可能具有潜在的巨大影响。目前的游戏开发环境依赖于核心渲染技术，如着色、纹理映射、景深和光线追踪。像Transframer这样的技术有可能通过使用人工智能和机器学习来构建他们的环境并与此同时来减少创建环境所需的时间、资源和精力以为开发者提供一个全新的开发路径。PC版：https://www.cnbeta.com/articles/soft/1306793.htm手机版：https://m.cnbeta.com/view/1306793.htm

在Telegram中查看

相关推荐

苹果发布人工智能模型MGIE 可根据自然语言输入编辑图片

苹果发布人工智能模型MGIE可根据自然语言输入编辑图片该模型能够编辑图像的各个方面。全局照片增强可包括亮度、对比度或锐利度，或应用素描等艺术效果。局部编辑可以修改图像中特定区域或对象的形状、大小、颜色或纹理，而Photoshop风格的修改则包括裁剪、调整大小、旋转和添加滤镜，甚至是更改背景和混合图像。用户对一张披萨照片的输入可能是"让它看起来更健康"。利用常识推理，模型可以添加蔬菜配料，如西红柿和香草。全局优化输入请求的形式可以是"增加对比度，模拟更多光线"，而Photoshop风格的修改可以是要求模型将人物从照片背景中移除，将图像的焦点转移到拍摄对象的面部表情上。苹果公司与加州大学的研究人员合作创建了MGIE，并在2024年国际学习表征会议（ICLR）上发表了一篇论文。该模型可在GitHub上获取，包括代码、数据和预训练模型。这是苹果公司几个月来在人工智能研究领域取得的第二次突破。12月底，苹果公司透露，通过发明一种创新的闪存利用技术，它在iPhone和其他内存有限的苹果设备上部署大型语言模型(LLM)方面取得了长足进步。在过去的几个月里，苹果一直在测试一种可以与ChatGPT竞争的"AppleGPT"。据彭博社的马克-古尔曼（MarkGurman）称，人工智能工作是苹果公司的一个优先事项，该公司正在为大型语言模型设计一个"Ajax"框架。TheInformation和分析师杰夫-普（JeffPu）都声称，苹果将在2024年底左右在iPhone和iPad上推出某种生成式人工智能功能，也就是iOS18上市的时候。据古尔曼称，iOS18据说将包括一个增强版Siri，具有类似ChatGPT的生成式人工智能功能，并有可能成为iPhone历史上"最大的"软件更新。...PC版：https://www.cnbeta.com.tw/articles/soft/1416801.htm手机版：https://m.cnbeta.com.tw/view/1416801.htm

Google重组智能助手部门解雇部分员工，利用生成式人工智能技术增强

Google重组智能助手部门解雇部分员工，利用生成式人工智能技术增强兰詹还称，Google将寻求将大语言模型(LLM)技术引入到Google的语音驱动软件Assistant中，后者类似于苹果的Siri或亚马逊的Alexa。“作为一个团队，我们需要专注于为我们的用户提供高质量、关键的产品体验，”兰詹在这封电子邮件中写道。“我们看到了生成式人工智能改变人们生活的巨大潜力，也看到了探索LLM技术增强智能助手的巨大机遇。”兰詹补充说，智能助手团队的改组已经显示出效果，被解雇的员工将有60天的时间在Google内部寻找转岗机会。作为重组的一部分，高管们宣布对该公司负责监督语音指令的“语音”团队进行十几项改变。始终担任语音识别部门主管的弗朗索瓦·博法斯（FrancoiseBeaufays）将向萧茜茜（SissieHsiao）汇报工作，后者是主管Bard和Assistant的产品副总裁。博法斯在另一封宣布对智能助手部门进行重组的电子邮件中写道：“对于人工智能来说，这是一个令人兴奋的时刻，几乎每一款产品都需要世界级的人工智能驱动的语音。”她还称，语音识别团队的部分成员将专注于改进Bard。Google智能助手部门的高管们表示，这些变化将使该部门能够“快速而专注地”开展工作。生成式人工智能的快速发展正在推动Google将这项技术嵌入尽可能多的产品中。这项技术可以用智能和创造性的答案回应基于文本的查询，并可以将文本转换为图像。对于较旧版本的GoogleAssistant来说，这意味着需要经常进行改进。GoogleAssistant被用于Google的移动和家庭设备中，包括其Pixel智能手机和Nest智能音箱等。它还通过AndroidAuto平台被用于智能手表、智能显示器、电视和汽车中。今年3月，萧茜茜宣布了对Google智能助手部门进行改组，并强调了Bard的优先性。根据一份内部文件，曾担任Google商务副总裁的兰詹开始担任该部门的工程主管，管理着1700多名全职员工。自OpenAI在去年年底推出ChatGPT以来，亚马逊也强调了生成式人工智能的重要性，并将其添加到Alexa产品中。对于主导互联网搜索领域长达20年之久的Google来说，更重要的是，ChatGPT和使用OpenAI模型的微软必应为人们提供了另一种搜索答案的方式。Google在3月份公开推出Bard后，始终在对其进行更新。上个月，该公司表示，由于其最新的大语言模型Palm2取得进展，Bard将在更多国家扩展到40多种语言，并将包括语音响应等功能。（小小）...PC版：https://www.cnbeta.com.tw/articles/soft/1374445.htm手机版：https://m.cnbeta.com.tw/view/1374445.htm

壳牌将利用人工智能技术进行深海油气勘探

壳牌将利用人工智能技术进行深海油气勘探两家公司计划利用先进的生成式人工智能技术来处理大数据并自动分析，加快地下结构成像和勘探的步伐。壳牌计划靠AI找油壳牌公司称，将通过SparkCognition的人工智能算法，处理和分析大量地震数据，以寻找壳牌的新油藏。两家公司表示，新技术可以将勘探时间从9个月缩短至不到9天。在深海勘探和生产过程中，传统的地下成像和数据分析方法耗时且成本高昂，依赖于海量级数据、高性能计算和复杂的算法来分析和识别勘探机会。而壳牌和SparkCognition共同开发的生成式人工智能方法，利用深度学习技术，在保证地下图像质量的同时，使用比传统方法更少的地震镜头来生成地下图像，从而大大提高作业效率和速度，节省高性能计算的成本，增加产量和勘探成功率，同时也有助于深海保护。此次合作是壳牌更广泛的数字化转型战略的一部分。壳牌希望通过数字化转型，利用技术提高其业务的安全性、效率和可持续性。壳牌负责创新和绩效的副总裁GabrielGuerra表示：“我们致力于寻找新的创新方法，重塑我们的勘探工作方式……与SparkCognition合作，利用他们在生成式人工智能方面的专业知识，将为壳牌带来一个令人兴奋的机会，为壳牌带来新一轮的创新浪潮。”“创新对于追求零排放的未来至关重要，石油和天然气行业将在这一努力中发挥至关重要的作用。SparkCognition董事长约翰·布朗（LordJohnBrowne）表示，“在我们努力减少未来的碳足迹的同时，利用人工智能进行勘探等突破，有助于满足今天不断增长的能源需求。”AI也可用于其他勘探问题除了深海油气勘探以外，生成式人工智能技术正被应用于其他复杂问题，比如陆上勘探、气象模式卫星成像、国家安全和威胁评估等。在这些问题中，人工智能技术可以有效减少数据和时间成本。SparkCognition首席科学官BrucePorter表示：“用于地震成像的生成式人工智能可以积极地颠覆勘探过程，并对整个行业产生广泛而深远的影响——提高效率、降低成本，并强调可持续发展举措。”...PC版：https://www.cnbeta.com.tw/articles/soft/1360551.htm手机版：https://m.cnbeta.com.tw/view/1360551.htm

Google新型人工智能可将图像转化为可玩的小游戏

Google新型人工智能可将图像转化为可玩的小游戏GoogleDeepMind最近发布了一款人工智能模型Genie，它可以利用静态图像制作小型互动游戏。Google表示，这项技术背后的基础可以促进其他应用，比如训练人工智能机器人。Genie是在大约20万小时的公开游戏画面（可能来自Google子公司YouTube）基础上训练出来的。目前还不清楚使用它的人是否会与这些游戏的创作者发生版权纠纷。值得注意的是，人工智能不需要文本或动作标签来解释它所看到的内容，它只需通过视频帧来解读哪些元素应作为地形，哪些元素应作为可控制的头像。Genie还能解读图像中的三维深度，从而在游戏中模拟视差滚动。该工具可以根据绘画、草图、渲染图、照片和其他类型的图像构建小型视频游戏关卡。由于Genie可以处理它以前从未见过的图片，因此它还可以根据人工智能生成的内容构建环境，从而为使用一个人工智能的内容在另一个人工智能中创造新事物开辟了前景。不过，还有改进的余地。与其他人工智能模型一样，Genie也会产生幻觉。此外，最初的迭代版本只能记忆多达16个帧，这严重限制了它在保持一致的情况下构建关卡的大小。该模型1fps的运行速度也有很大的改进空间。为确保准确性，Genie的初步演示侧重于复制2D平台游戏。不过，Google表示，可以训练它创建其他类型的游戏和虚拟内容。例如，Google表示，Genie可以帮助更有效地训练某些机器人。使用人工模拟进行的训练只能提供有限的场景，而Genie可以构建更广泛的虚拟环境和对象，供机器人学习。通过进一步开发，Genie可以将交互式布景变成生成式人工智能的下一个主要领域。目前，视频正成为人们关注的焦点，尤其是OpenAI在上个月推出了Sora，它可以制作逼真的60秒1080p短片。不出所料，人工智能生成的视频并不完美，但它代表了该技术的重大飞跃。...PC版：https://www.cnbeta.com.tw/articles/soft/1422805.htm手机版：https://m.cnbeta.com.tw/view/1422805.htm

《Leonardo AI,DALL-E 如何创建AI人工智能图形和图像课程（17节课程）》

名称：《LeonardoAI,DALL-E如何创建AI人工智能图形和图像课程（17节课程）》描述：英文+中英字幕\1080P，使用LeonardoAI、DALL-E技术和PromptEngineering魔法学习AI文本到图像创建的艺术。链接：https://www.alipan.com/s/WNZjYgKhrAE大小：1.02GB标签：#LeonardoAI#人工智能#ai来自：雷锋版权：频道：@shareAliyun群组：@aliyundriveShare投稿：@aliyun_share_bot

北京：加快以医疗大模型为代表的人工智能技术赋能产业发展

北京：加快以医疗大模型为代表的人工智能技术赋能产业发展北京市人民政府办公厅印发《北京市加快医药健康协同创新行动计划（2024-2026年）》。其中提出，加快以医疗大模型为代表的人工智能技术赋能产业发展。支持医疗大模型开发和落地应用，推进数字疗法、人工智能辅助治疗等产品的研发应用，推动人工智能技术赋能新药研发。加快医疗、医保、药监等数据底座建设，精细化开展数据清洗和治理，推动数据流通。引导算力企业加大对人工智能医疗的支持，探索配置建设可信计算环境。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人