(注:神经突触与神经元的动作电位触发时间的先后关系,决定了它们连接强度是增强还是减弱。如果突触的激活时序领先于神经元的动作电位,
(注:神经突触与神经元的动作电位触发时间的先后关系,决定了它们连接强度是增强还是减弱。如果突触的激活时序领先于神经元的动作电位,那么该连接获得强化;如果突触的激活时序滞后于神经元的动作电位,那么该连接获得削弱。It'saparticularlearningrulethatusesSpiketimingtofigureouthowtotodeterminehowtoupdatethesynapses.Soit'skindoflikeifthesynapticfiresintotheneuronbeforetheneuronfires,thenitstrengthensthesynapse.Andifthesignalsfireintotheneuronsshortlyaftertheneuronfired,thenitweakensthesynapse.)神经网络另一个重要的点在于loss函数的提出,它为深度学习提供了可行的训练方法。很有趣的一点是,在现实世界中,我们并没有看到对应loss函数的东西-进化论是以loss的方式来迭代的吗?经济系统或社会系统存在loss吗?似乎都不是。2.神经网络的本质Ilya认为,大脑也好,大模型也好,本质上都是把知识压缩到一个高维的隐空间当中。每一个新的观测数据到来的时候,它就会通过连接来更新隐空间中的一些参数。知识就存储在这些连接的权重里。(Iguesswhatisarecurringrolethatyouhaveaneuralnetworkwhichmaintainsahighdimensional,hiddenstate,andthenwithinobservationarrives.Itupdatesitshighdimensional,hiddenstatethroughitsconnectionsinsomeway.Youcouldsaytheknowledgeisstoredintheconnections.)压缩的过程有点类似于人类的记忆和遗忘过程,你忘掉了绝大部分没用的信息,而只是记住了那些有用的,并且将它们整合记忆。压缩的过程就是“寻找最小回路”(searchforsmallcircuits)的过程。在数学上,有一种理论是“最短描述长度”原则,即如果你能够找到能够产生所需数据的最小程序,那么你就能够用这个程序做出最好的预测。(Ifyoucanfindtheshortestprogramthatoutputsthedatainyourdisposal,thenyouwillbeabletouseittomakethebestpredictionpossible.)这是数学上可以被证明的。但“最短描述长度”原则是一个理论原则,在实践中很难准确实现。所以在实践中,针对给定的数据集,我们只能使用神经网络找到“尽量短小”的回路。因此,可以将神经网络的训练过程理解为,慢慢将训练数据集里的信息熵迁移到神经网络的参数中,而最终沉淀下来的这些回路刚好不算太大。(Ifyouimainethetrainingprocessofaneuralnetworkasyouslowlytransmitentropyfromthedatasettotheparameters,thensomehowtheamountofinformationintheweightsendsupbeingnotverylarge,whichwouldexplainwhythegeneralissowell.)如果你能高效压缩信息,那么你一定已经得到知识了。GPT已经是一个世界模型了,itknowsalltheintricacies。尽管你做的看似只是predictthenextword这么简单的事情,但这只是优化手段而已。自然语言是最好的latentspace,而且是最容易做alignment的latentspace。3.Ilya研究生涯中的两个重要时刻。第一个时刻,是2012年做AlexNet,AlexKrjevsky用GPU来编写足够快的卷积程序,让CNN训练变得超级快,拉开了CV时代的序幕。这是Ilya的顿悟时刻,觉得神经网络这条路是能走通的。第二个时刻,Ilya对大模型的信心来自于早年团队的一个发现。当时,团队训练一个LSTM模型来预测Amazon评论中的下一个character,当参数从500到4000的时候,就会出现一个专门的neuron来表达评论的sentiment是正面还是负面。于是,团队猜测,当模型足够大、参数足够多的时候,句法已经被充分表达了(runoutofsyntaxtomodel),多余的参数开始学会捕捉语义信息。这说明了通过“预测下一个字”的训练方法,可以让模型学到更多隐藏的信息。4.关于多模态。多模态是有用的,尤其是视觉。人类大脑皮层中三分之一都用来处理视觉,缺少了视觉的神经网络作用会相当有限。人类更多是从图像而不是语言中学习的。人类一生只会听到大概10亿个词,这个数据量是非常有限的,而更多的数据来自于视觉。很多时候,从视觉学习比从文本学习更容易。例如颜色,尽管通过文字也可以学到颜色之间的关联,比如红色和橙色更近,和蓝色更远,但通过视觉来学习要快得多。5.AI有逻辑吗?有意识吗?AI当然有逻辑,要不为什么AlphaGo和AlphaZero在最需要逻辑推理能力的围棋游戏中击败了人类?如何真正说明AI有逻辑推理能力?证明真正困难的定理,写复杂的代码,用创新方法解决开放性问题。如果AI能够证明一个未经证实的定理,那么这个理由就很难辩驳。如何判断AI是否有意识?做这样一个实验,假如未来人工智能的训练可以从零开始,通过更小的数据集来完成,那么我们可以非常小心地对训练数据进行清洗,确保数据集中不包含任何关于意识的内容,如果系统在训练中需要人类的反馈,在互动中也要非常谨慎,确保不提到任何关于意识的概念。等训练结束的时候,你和AI一起聊天,这时你告诉他关于意识的事情,你向他描述之后,想象一下,如果这个人工智能接着说,”哦,我的上帝,我一直有同样的感觉,但我不知道如何表达它“,这时就可以认为人工智能有意识了。6.开源vs闭源。如果模型的能力不强,那么开源是一件伟大的事情。如果模型的能力过强,那么开源就变得危险。尽管目前GPT4模型的能力还算不上”过分强大“,但已经能够看到这个趋势,所以闭源是合理的。(类似于核武器?)当然,现阶段闭源更重要的原因是商业竞争(而不是安全,Ilya的原话)。7.更大的模型一定会带来更好的结果。(Ofcoursethelargerneuronnetswillbebetter.)前些年扩大规模很容易是因为有很多计算资源都没有被充分利用,一旦重新部署过之后就会快速取得进展。但现在规模到达了某种瓶颈,算力的扩张速度变慢了。Iexpectdeployingtocontinuetomakeprogressinartfromotherplaces.ThedeployingstackisquitedeepandIexpectthattherewillbeimprovementsinmanylayersofthestackandtogethertheywillstillleadtoprogressbeingveryrobust.我预期我们将发现deeplearning中很多尚未被发现的新属性,而这些新属性的应用将会让模型的效果变得更好。5-10年之后的模型能力一定会远远强过现在的模型。附三个访谈的链接:2020年5月LexFridmanAIPodcasthttps://www.bilibili.com/video/BV12c411T7pY2023年3月黄仁勋CEO与OpenAI联合创始人及首席科学家IlyaSutskever关于AI及ChatGPT的对话https://www.bilibili.com/video/BV13M411L7p72023年4月OpenAI联合创始人首席科学家AIIlyaSutskever斯坦福大学内部演讲https://www.bilibili.com/video/BV1Y24y1F72o
在Telegram中查看相关推荐
🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人