DeepMind AI在复杂游戏西洋陆军棋中挺进专家级

DeepMindAI在复杂游戏西洋陆军棋中挺进专家级12月1日的《科学》杂志描述了这一成就,紧接着一项研究报告称人工智能可以玩《强权外交》,其中玩家必须在合作和竞争中进行谈判。研究战略推理和游戏理论的计算机科学家迈克尔-韦尔曼(MichaelWellman)说:"近年来,人工智能在质量上不同的游戏特征被征服--或掌握到新的水平--的速度相当惊人。《西洋陆军棋》和《强权外交》彼此之间有很大的不同,而且还拥有与已经达到类似里程碑的游戏明显不同的挑战性特征。"《西洋陆军棋》的特点使其比国际象棋、围棋或扑克复杂得多,所有这些游戏都已被人工智能所掌握。在战略游戏中,两名玩家在棋盘上各放40个棋子,但不能看到对手的棋子是什么。目标是轮流移动棋子以消除对手的棋子并夺取旗帜。战略游戏的游戏树--所有可能的游戏方式的图形--有10535个状态,而围棋是10360个。游戏开始时,Stratego就有1066个可能的走法,这使双人德州扑克中的106个这样的开始情况相形见绌。位于巴黎的DeepMind研究员朱利安-佩罗拉(JulienPerolat)说:"Stratego中可能出现的结果数量之复杂,意味着在完全信息游戏上表现良好的算法,甚至那些对扑克有用的算法都不起作用。"自学成才的人工智能在战略游戏围棋方面表现最好因此,佩罗拉特和同事们开发了DeepNash。这个人工智能的名字是对美国数学家约翰-纳什(JohnNash)的致敬,他的工作导致了纳什均衡这一术语的出现,这是一组稳定的策略,所有的游戏参与者都可以遵循,这样就没有玩家通过改变自己的策略而获益。游戏可以有零个、一个或多个纳什均衡。DeepNash将强化学习算法与深度神经网络相结合,以找到纳什均衡。强化学习涉及寻找最佳政策,以决定游戏的每个状态的行动。为了学习一个最佳政策,DeepNash与自己进行了55亿次游戏。如果一方获得奖励,另一方就会受到惩罚,而神经网络的参数--代表政策--也会相应地进行调整。最终,DeepNash收敛于一个近似的纳什均衡状态。与AlphaGo等之前的游戏AI不同,DeepNash不会通过游戏树搜索来优化自己。在4月份的两个星期里,DeepNash在网络游戏平台Gravon上与人类战略家进行了竞争。在50场比赛之后,DeepNash在2002年以来所有Gravon战略游戏玩家中排名第三。"我们的工作表明,像Stratego这样复杂的游戏,涉及不完美的信息,不需要搜索技术来解决,"团队成员、驻巴黎的DeepMind研究员卡尔-图伊斯说。"这真是人工智能的一大进步。""结果令人印象深刻,"总部位于纽约的MetaAI的研究员诺姆-布朗同意,他领导的团队在2019年报告了玩起了基于扑克的AIPluribus4。《强权外交》游戏的表现布朗和他在MetaAI的同事将目光投向了一个不同的挑战:建立一个能玩外交的人工智能,这是一个最多有七个玩家的游戏,每个玩家代表一战前欧洲的一个大国。目标是通过移动单位(舰队和军队)获得对供应中心的控制。重要的是,该游戏需要玩家之间的私下交流和积极合作,与围棋或战略游戏等双人游戏不同。"当你超越双人零和游戏时,纳什均衡的概念对于与人类打好关系不再那么有用,"布朗说。因此,该团队根据涉及人类玩家的在线版《强权外交》游戏的125261场数据训练其人工智能--名为Cicero。结合这些数据和一些自我游戏数据,Cicero的战略推理模块(SRM)学会了预测,对于给定的游戏状态和累积的信息,其他玩家的可能政策。利用这种预测,SRM选择了一个最佳的行动,并向Cicero的对话模块发出了它的"意图"。对话模块建立在一个27亿个参数的语言模型上,该模型在互联网的文本上进行了预训练,然后利用人们玩的外交游戏的信息进行微调。考虑到来自SRM的意图,该模块产生了一个对话信息(例如,代表英国的西塞罗可能会问法国。"你想支持我加入比利时一方吗?")。在11月22日的《科学》论文中,该团队报告说,在40场在线游戏中,"CiceroAI取得了比人类玩家的平均分数高一倍以上的成绩,并在参加过多场游戏的参与者中排名前10%"。真实世界的行为布朗认为,能够与人类互动并对人类的次优甚至非理性行为进行解释的玩游戏的人工智能可以为现实世界的应用铺平道路。他说:"如果你正在制造一辆自动驾驶汽车,你不想假设道路上的所有其他司机都是完全理性的,并且会表现得很好。Cicero是朝着这个方向迈出的一大步。我们仍然有一只脚在游戏世界里,但现在我们也有一只脚在现实世界里。"威尔曼同意这一看法,但他说还需要更多的工作。他说:"这些技术中的许多确实与娱乐游戏之外的现实世界应用有关,尽管如此,在某些时候,领先的人工智能研究实验室需要超越娱乐环境,并找出如何衡量我们真正关心的更小的现实世界'游戏'的科学进展。"...PC版:https://www.cnbeta.com.tw/articles/soft/1334237.htm手机版:https://m.cnbeta.com.tw/view/1334237.htm

相关推荐

封面图片

DeepMind人工智能可以在各种游戏中击败人类

DeepMind人工智能可以在各种游戏中击败人类曾在DeepMind从事人工智能研究的MartinSchmid现在就职于一家名为均衡技术的初创公司。他表示,SoG模型可以追溯到两个项目。其中一个是DeepStack,这是由加拿大阿尔伯塔大学的Schmid等团队开发的人工智能,是第一个在扑克比赛中击败人类职业选手的人工智能。另一个是DeepMind的AlphaZero,它在国际象棋和围棋等游戏中击败了最优秀的人类棋手。这两种模型的不同之处在于,一种专注于不完美的知识游戏——玩家不知道其他玩家的状态,比如扑克游戏中的手牌;另一种专注于完美的知识游戏,比如国际象棋,双方玩家在任何时候都能看到所有棋子的位置。这两者需要根本不同的方法。DeepMind雇佣了整个DeepStack团队,目的是建立一个可以推广两种类型游戏的模型,从而诞生了SoG。Schmid表示,SoG最初是一份如何学习游戏的“蓝图”,然后通过实践来改进游戏。然后,这个初学者模型可以在不同的游戏中自由发挥,并教会自己如何与另一个版本的自己对抗,学习新的策略,逐渐变得更有能力。尽管DeepMind之前的AlphaZero可以适应完美的知识游戏,但SoG可以适应完美和不完美知识游戏,使其更具通用性。研究人员在国际象棋、围棋、扑克和一款名为“苏格兰场”的棋盘游戏上测试了SoG,还在Leduc扑克和一款定制版的“苏格兰场”上测试了SoG,结果发现它可以击败几个现有的人工智能模型和人类玩家。Schmid说,它应该也能学会玩其他游戏。“有很多游戏你可以直接扔给它,它真的非常非常擅长。”与DeepMind更专业的算法相比,这种广泛的能力在性能上略有下降,但SoG在学习的大多数游戏中都可以轻松击败最优秀的人类玩家。Schmid说,SoG学会了与自己对抗,以便在游戏中提高水平,但也要从游戏的当前状态探索可能出现的情况,即使它在玩一个不完美的知识游戏。“当你在玩像扑克这样的游戏时,你很难弄清楚,如果不知道对手持有什么牌,该如何找到最佳的下一步策略。”Schmid说,“所以有一些来自AlphaZero的想法,还有一些来自DeepStack的想法,形成了这个庞大的想法组合,这就是游戏学生。”未参与这项研究的英国爱丁堡大学的MichaelRovatsos表示,尽管这一研究成果令人印象深刻,但要想将人工智能视为普遍智能,还有很长的路要走,因为游戏是一种所有规则和行为都被明确定义的环境,而不是现实世界。“这里要强调的重要一点是,这是一个受控的、独立的人工环境,在这个环境中,每件事的意义和每一个动作的结果都是非常清楚的。”Rovatsos说,“这个问题是一个玩具问题,因为尽管它可能非常复杂,但它不是真实的。”相关论文信息:https://doi.org/10.1126/sciadv.adg3256...PC版:https://www.cnbeta.com.tw/articles/soft/1399535.htm手机版:https://m.cnbeta.com.tw/view/1399535.htm

封面图片

研究人员发现了弱点 人类在围棋比赛中击败顶级AI KataGo

研究人员发现了弱点人类在围棋比赛中击败顶级AIKataGo这一结果主要得益于研究人员利用特定计算机程序发现人工智能系统中存在的一个弱点。据报道,总共进行的15场比赛中,美国业余四段棋手凯琳·佩林(KellinPelrine)在没有计算机直接支持的前提下,利用这一弱点赢得了其中的14场。开发这一程序的美国加州研究公司FARAI首席执行官亚当·格利夫(AdamGleave)表示:“对我们人类来说,利用这个系统弱点出奇地容易。”佩林说,计算机程序所提出的击败人工智能策略“并非很常见,但对人类来说也不是特别难”。他补充说,中等水平的棋手就可以用这种方法来击败人工智能。他还用这种方法战胜了另一个顶级人工智能下棋系统LeelaZero。格利夫补充说,计算机先是与KataGo下了100多万盘围棋,发现了人类棋手可以利用的漏洞。7年前,世界围棋冠军李世石以1比4的比分输给了谷歌设计的AlphaGo系统。退役3年后,李世石曾表示,人工智能“无法击败”。现在看来,这一说法过于悲观。虽然佩林没有与AlphaGo直接交锋,但所击败的两个人工智能系统与AlphaGo不相上下。他在实战中采用的是一种“声东击西”的策略,人类棋手很容易识破的这种诡计似乎让人工智能束手无策。加州大学伯克利分校计算机科学教授斯图尔特·拉塞尔(StuartRussell)表示,在一些最先进的围棋人工智能系统上发现弱点,表明支撑当今最先进人工智能的深度学习系统存在根本缺陷。他补充说,这些系统只能“理解”它们过去接触过的特定情况,无法像人类一样进行概括。罗素说:“这再次表明,我们过于草率地将超人智力水平归功于机器。”研究人员表示,让围棋人工智能系统失灵的确切原因还只是一个猜测。格利夫说,一个可能原因是佩林所使用的战术很少被使用,这意味着人工智能系统没有接受过足够多的类似训练,无法意识到自己的弱点。他补充说,当受到针对围棋计算机的那种“对抗性攻击”时,发现人工智能系统缺陷是很常见的。尽管如此,“我们看到非常大的(人工智能)系统在几乎没有验证的情况下被大规模部署”。...PC版:https://www.cnbeta.com.tw/articles/soft/1345187.htm手机版:https://m.cnbeta.com.tw/view/1345187.htm

封面图片

微软聘请DeepMind联合创始人穆斯塔法·苏莱曼 将负责消费级AI部门

微软聘请DeepMind联合创始人穆斯塔法·苏莱曼将负责消费级AI部门"作为过渡的一部分,米哈伊尔-帕拉欣(MikhailParakhin)和他的整个团队,包括Copilot、必应和Edge,以及米沙-比连科(MishaBilenko)和GenAI团队,将转而向穆斯塔法汇报工作。人工智能公司Inflection的联合创始人兼首席科学家KarénSimonyan也将作为首席科学家加入加入Mustafa和Karén在微软的团队。以下是微软CEO的内部信件全文:今天,我想与大家分享一个激动人心的重要组织更新。我们正处于人工智能平台转变的第二年,必须确保我们具备大胆创新的能力和实力。我们的行业没有特许经营价值,我们此刻推动的工作和产品创新将决定下一个十年乃至更远的未来。让我们利用这个机会,打造世界一流的人工智能产品,如Copilot,深受最终用户的喜爱!这需要科学、工程、产品和设计人员齐心协力,抱着学习的心态,从根本上推动我们的创新文化和产品制造流程向前发展。在此背景下,我非常兴奋地宣布,穆斯塔法-苏莱曼(MustafaSuleyman)和卡伦-西蒙尼扬(KarénSimonyan)将加入微软,组建一个名为微软人工智能(MicrosoftAI)的新组织,专注于推进Copilot和我们的其他消费类人工智能产品和研究。Mustafa将担任微软人工智能执行副总裁兼首席执行官,并加入高级领导团队(SLT),向我汇报工作。Karén将作为首席科学家加入该团队,向Mustafa汇报工作。我认识Mustafa已经有好几年了,他是DeepMind和Inflection的创始人,也是一位有远见的人,产品的创造者,以及开拓团队的建设者,我非常钦佩他。Karén是Inflection的联合创始人和首席科学家,他是著名的人工智能研究员和思想领袖,在过去十年中领导了包括AlphaZero在内的一些人工智能重大突破的开发。Inflection团队的一些成员选择加入Mustafa和Karén在微软的团队。他们中不乏世界上最有成就的人工智能工程师、研究人员和建设者。在过去的五年中,他们设计、领导、启动并共同撰写了许多推动人工智能发展的最重要的贡献。我很高兴他们能为我们的消费者人工智能研究和产品制造贡献自己的知识、才能和专长。我们的核心一直是以平台和合作伙伴为主导的公司,我们将继续把这一理念贯彻到我们的所有工作中。我们的人工智能创新将继续建立在与OpenAI最具战略性的重要合作伙伴关系的基础上。我们将继续构建人工智能基础架构,包括定制系统和芯片工作,以支持OpenAI的基础模型路线图,并在其基础模型之上进行创新和构建产品。今天的声明进一步加强了我们的合作伙伴关系结构和原则。作为过渡的一部分,MikhailParakhin和他的整个团队,包括Copilot、Bing和Edge,以及MishaBilenko和GenAI团队,都将向Mustafa汇报工作。这些团队是微软创新的先锋,为人工智能平台转变所推动的不断变化的消费产品格局带来了新的活力和精神。这些组织变革将帮助我们加倍推进创新。凯文-斯科特(KevinScott)继续担任首席技术官兼人工智能执行副总裁,负责全面的人工智能战略,包括所有系统架构决策、合作伙伴关系和跨公司协调。凯文是我第一个依靠的人,他帮助我们管理向人工智能优先公司的转型,我将继续依靠他,确保我们的人工智能战略和计划在整个微软范围内保持一致。拉杰什-贾(RajeshJha)继续担任体验与设备执行副总裁,我非常感谢他的领导,他将与穆斯塔法和团队密切合作,继续为微软365打造Copilot。高级领导团队或其他组织没有其他变动。我们的运营速度和强度一直很高,新人才的注入将使我们再次加快步伐。我们有机会打造曾被认为不可能实现的技术,实现我们的使命,确保人工智能的益处安全、负责任地惠及地球上的每一个人和组织。我期待着与你们一起实现这一目标。萨提亚...PC版:https://www.cnbeta.com.tw/articles/soft/1424292.htm手机版:https://m.cnbeta.com.tw/view/1424292.htm

封面图片

谷歌开门放“狗”:AlphaGo研发部门DeepMind CEO表示其下一个算法将超越 ChatGPT

谷歌开门放“狗”:AlphaGo研发部门DeepMindCEO表示其下一个算法将超越ChatGPTDemisHassabis表示,该公司正在开发一种名为Gemini的系统,该系统的技术曾帮助阿尔法狗(AlphaGo)在2016年击败人类围棋冠军。2016年,一个来自谷歌DeepMind人工智能实验室的名为阿尔法狗(AlphaGo)的人工智能程序在棋盘游戏围棋中击败了人类冠军选手,创造了历史。现在,DeepMind联合创始人兼首席执行官DemisHassabis表示,他的工程师正在使用AlphaGo的技术来制造一个名为Gemini的人工智能系统,该系统将比OpenAI的ChatGPT背后的系统更强大。DeepMind的Gemini仍在开发中,是一种处理文本的大型语言模型,本质上与为ChatGPT提供支持的GPT-4类似。但哈萨比斯表示,他的团队将现有技术与AlphaGo中使用的技术结合起来,旨在赋予系统新的功能,例如规划或解决问题的能力。——,

封面图片

人类棋手击败了AI围棋机器人,使用的战术是由探测AI系统弱点的计算机程序建议的

人类棋手击败了AI围棋机器人,使用的战术是由探测AI系统弱点的计算机程序建议的一名人类棋手在棋盘游戏围棋中全面击败了排名第一的人工智能系统,这与2016年被视为人工智能崛起里程碑的计算机胜利大相径庭。美国选手KellinPelrine比顶级业余选手排名低一级,他利用另一台计算机发现的先前未知的缺陷击败了机器。但他赢得15场比赛中的14场的正面交锋是在没有直接计算机支持的情况下进行的。这一此前未曾报道过的胜利凸显了当今大多数广泛使用的人工智能系统所共有的最佳围棋计算机程序的弱点,包括总部位于旧金山的OpenAI创建的ChatGPT聊天机器人。让人类重新登上围棋棋盘榜首的策略是由一个计算机程序提出的,该程序探索了人工智能系统以寻找弱点。该程序建议的计划随后被佩林所采用。“我们利用这个系统出奇地容易,”设计该程序的加利福尼亚研究公司FARAI的首席执行官AdamGleave说。他补充说,该软件与顶级围棋系统之一的KataGo进行了超过100万场比赛,以找到人类棋手可以利用的“盲点”。——

封面图片

Google将两个AI团队Brain和DeepMind合并成一个

Google将两个AI团队Brain和DeepMind合并成一个在今天的一篇博文中,GoogleCEO桑达尔-皮查伊表示,Brain和DeepMind现在将成为一个集团,最终称为GoogleDeepMind。他表示:过去十年,他们在人工智能方面的集体成就涵盖了AlphaGo、变形金刚、word2vec、WaveNet、AlphaFold、序列到序列模型、知识蒸馏、深度强化学习,以及用于表达、训练和部署大规模ML模型的分布式系统和软件框架,如TensorFlow和JAX。在Google计算资源的支持下,将所有这些人才整合到一个专注的团队,将大大加快我们在人工智能方面的进展。DeepMind的领导人DemisHassabis现在将成为GoogleDeepMind的CEO。现在的前Google人工智能部门负责人杰夫-迪安(JeffDean)现在将成为Google的首席科学家,并向皮查伊报告。Google最近在人工智能创新方面一直在加速追赶微软的步伐。3月,它宣布了其名为Bard的聊天人工智能机器人。然而,它的推出并非没有争议,本周一份新的报告称,Google不顾一些员工的反对,包括许多人工智能伦理团队的反对,匆匆推出了Bard公开版本。一方面,Google也在开发自己的人工智能艺术和视频生成器。...PC版:https://www.cnbeta.com.tw/articles/soft/1355957.htm手机版:https://m.cnbeta.com.tw/view/1355957.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人