（注：神经突触与神经元的动作电位触发时间的先后关系，决定了它们连接强度是增强还是减弱。如果突触的激活时序领先于神经元的动作电位，

（注：神经突触与神经元的动作电位触发时间的先后关系，决定了它们连接强度是增强还是减弱。如果突触的激活时序领先于神经元的动作电位，那么该连接获得强化；如果突触的激活时序滞后于神经元的动作电位,那么该连接获得削弱。It's a particular learning rule that uses Spike timing to figure out how to to determine how to update the synapses. So it's kind of like if the synaptic fires into the neuron before the neuron fires, then it strengthens the synapse. And if the signals fire into the neurons shortly after the neuron fired, then it weakens the synapse.）神经网络另一个重要的点在于loss函数的提出，它为深度学习提供了可行的训练方法。很有趣的一点是，在现实世界中，我们并没有看到对应loss函数的东西 - 进化论是以loss的方式来迭代的吗？经济系统或社会系统存在loss吗？似乎都不是。 2. 神经网络的本质 Ilya认为，大脑也好，大模型也好，本质上都是把知识压缩到一个高维的隐空间当中。每一个新的观测数据到来的时候，它就会通过连接来更新隐空间中的一些参数。知识就存储在这些连接的权重里。（I guess what is a recurring role that you have a neural network which maintains a high dimensional, hidden state, and then within observation arrives. It updates its high dimensional, hidden state through its connections in some way. You could say the knowledge is stored in the connections.）压缩的过程有点类似于人类的记忆和遗忘过程，你忘掉了绝大部分没用的信息，而只是记住了那些有用的，并且将它们整合记忆。压缩的过程就是“寻找最小回路”（search for small circuits）的过程。在数学上，有一种理论是“最短描述长度”原则，即如果你能够找到能够产生所需数据的最小程序，那么你就能够用这个程序做出最好的预测。（If you can find the shortest program that outputs the data in your disposal, then you will be able to use it to make the best prediction possible.）这是数学上可以被证明的。但“最短描述长度”原则是一个理论原则，在实践中很难准确实现。所以在实践中，针对给定的数据集，我们只能使用神经网络找到“尽量短小”的回路。因此，可以将神经网络的训练过程理解为，慢慢将训练数据集里的信息熵迁移到神经网络的参数中，而最终沉淀下来的这些回路刚好不算太大。（If you imaine the training process of a neural network as you slowly transmit entropy from the data set to the parameters, then somehow the amount of information in the weights ends up being not very large, which would explain why the general is so well.）如果你能高效压缩信息，那么你一定已经得到知识了。GPT已经是一个世界模型了，it knows all the intricacies。尽管你做的看似只是predict the next word这么简单的事情，但这只是优化手段而已。自然语言是最好的latent space，而且是最容易做alignment的latent space。 3. Ilya研究生涯中的两个重要时刻。第一个时刻，是2012年做AlexNet，Alex Krjevsky用GPU来编写足够快的卷积程序，让CNN训练变得超级快，拉开了CV时代的序幕。这是Ilya的顿悟时刻，觉得神经网络这条路是能走通的。第二个时刻，Ilya对大模型的信心来自于早年团队的一个发现。当时，团队训练一个LSTM模型来预测Amazon评论中的下一个character，当参数从500到4000的时候，就会出现一个专门的neuron来表达评论的sentiment是正面还是负面。于是，团队猜测，当模型足够大、参数足够多的时候，句法已经被充分表达了（run out of syntax to model），多余的参数开始学会捕捉语义信息。这说明了通过“预测下一个字”的训练方法，可以让模型学到更多隐藏的信息。 4. 关于多模态。多模态是有用的，尤其是视觉。人类大脑皮层中三分之一都用来处理视觉，缺少了视觉的神经网络作用会相当有限。人类更多是从图像而不是语言中学习的。人类一生只会听到大概10亿个词，这个数据量是非常有限的，而更多的数据来自于视觉。很多时候，从视觉学习比从文本学习更容易。例如颜色，尽管通过文字也可以学到颜色之间的关联，比如红色和橙色更近，和蓝色更远，但通过视觉来学习要快得多。 5. AI有逻辑吗？有意识吗？ AI当然有逻辑，要不为什么AlphaGo和AlphaZero在最需要逻辑推理能力的围棋游戏中击败了人类？如何真正说明AI有逻辑推理能力？证明真正困难的定理，写复杂的代码，用创新方法解决开放性问题。如果AI能够证明一个未经证实的定理，那么这个理由就很难辩驳。如何判断AI是否有意识？做这样一个实验，假如未来人工智能的训练可以从零开始，通过更小的数据集来完成，那么我们可以非常小心地对训练数据进行清洗，确保数据集中不包含任何关于意识的内容，如果系统在训练中需要人类的反馈，在互动中也要非常谨慎，确保不提到任何关于意识的概念。等训练结束的时候，你和AI一起聊天，这时你告诉他关于意识的事情，你向他描述之后，想象一下，如果这个人工智能接着说，”哦，我的上帝，我一直有同样的感觉，但我不知道如何表达它“，这时就可以认为人工智能有意识了。 6. 开源 vs 闭源。如果模型的能力不强，那么开源是一件伟大的事情。如果模型的能力过强，那么开源就变得危险。尽管目前GPT4模型的能力还算不上”过分强大“，但已经能够看到这个趋势，所以闭源是合理的。（类似于核武器？）当然，现阶段闭源更重要的原因是商业竞争（而不是安全，Ilya的原话）。 7. 更大的模型一定会带来更好的结果。（Of course the larger neuron nets will be better.）前些年扩大规模很容易是因为有很多计算资源都没有被充分利用，一旦重新部署过之后就会快速取得进展。但现在规模到达了某种瓶颈，算力的扩张速度变慢了。I expect deploying to continue to make progress in art from other places. The deploying stack is quite deep and I expect that there will be improvements in many layers of the stack and together they will still lead to progress being very robust. 我预期我们将发现deep learning中很多尚未被发现的新属性，而这些新属性的应用将会让模型的效果变得更好。5-10年之后的模型能力一定会远远强过现在的模型。附三个访谈的链接： 2020年5月 Lex Fridman AI Podcast 2023年3月黄仁勋 CEO 与 OpenAI 联合创始人及首席科学家 Ilya Sutskever 关于 AI 及 ChatGPT 的对话 2023年4月 OpenAI联合创始人首席科学家AI Ilya Sutskever斯坦福大学内部演讲

在Telegram中查看

相关推荐

Intel大型神经拟态系统Hala Point集成11.5亿神经元比人脑快200倍

Intel大型神经拟态系统Hala Point集成11.5亿神经元比人脑快200倍 Loihi 2处理器早在2021年就已发布，首发采用Intel 4工艺，集成230亿个晶体管、六个低功耗x86核心、128个神经形态核心，单颗就有100万个神经元、1.2亿个突触，是上代规模的8倍，性能也提升了10倍。Loihi 2应用了众多类脑计算原理，如异步、基于事件的脉冲神经网络(SNN)、存算一体不断变化的稀疏连接，而且神经元之间能够直接通信，不需要绕过内存。尤其是在新兴的小规模边缘工作负载上，它实现了效率、速度和适应性数量级的提升。比如执行AI推理负载和处理优化问题时， Loihi 2的速度比常规CPU和GPU架构快多达50倍，能耗则只有百分之一。Hala Point系统的形态是一个六机架的数据中心机箱，大小相当于一个微波炉，内置1152颗Loihi 2处理器，共有140544个神经形态处理内核、11.5亿个神经元、1280亿个突触，最大功耗仅为2600瓦。系统内还有2300多颗嵌入式x86处理器，用于辅助计算。内存带宽达16PB/s(16000TB/s)，内核间通信带宽达3.5PB/s(3500TB/s)，芯片间通信带宽达5TB/s，可以每秒处理超过380万亿次的8位突触运算、超过240万亿次的神经元运算。Hala Point在主流AI工作负载上的计算效率非常出色，比如运行传统深度神经网络时，每秒可完成多达2万万亿次运算(20PFlops)，8位运算的能效比达到了15TOPS/W(每瓦特15万亿次计算)，相当于甚至超过了基于GPU、CPU的架构。在用于仿生脉冲神经网络模型时，Hala Point能够以比人脑快20倍的实时速度，运行其全部11.5亿个神经元。尤其是在运行神经元数量较低的情况下，它的速度甚至可比人脑快200倍！早期研究结果表明，通过利用稀疏性高达10比1的稀疏连接和事件驱动的活动，Hala Point运行深度神经网络的能效比可高达15TOPS/W，同时无需对输入数据进行批处理。Hala Point系统有望推动多领域AI应用的实时持续学习，比如科学研究、工程、物流、智能城市基础设施管理、大语言模型、AI助手等等。 ... PC版：手机版：

反思大脑设计：人类神经元的独特布线挑战了旧有假设

反思大脑设计：人类神经元的独特布线挑战了旧有假设新研究发现，与小鼠的循环互动不同，人类新皮质神经元单向交流效率更高。这一发现可能会通过模仿人类大脑的连通性来促进人工神经网络的发展。记录多达十个神经元活动的多补丁实验装置。图片来源：Charité | 彭扬帆新皮质是人类智力的关键结构，厚度不足五毫米。在大脑的最外层，200 亿个神经元处理着无数的感官知觉，规划着行动，并构成了我们意识的基础。这些神经元是如何处理所有这些复杂信息的呢？这在很大程度上取决于它们之间的"连接"方式。夏里特神经生理学研究所所长约尔格-盖格（Jörg Geiger）教授解释说："我们以前对新皮层神经结构的理解主要基于小鼠等动物模型的研究结果。在这些模型中，相邻的神经元经常像对话一样相互交流。一个神经元向另一个神经元发出信号，然后另一个神经元再向它发出信号。这意味着信息经常以循环往复的方式流动"。带有机器人机械手的多通道装置，可在两轮实验之间自动冲洗玻璃移液管。图片来源：Charité | 彭扬帆人类的新皮质比小鼠的新皮质更厚、更复杂。尽管如此，研究人员之前一直假设部分原因是缺乏数据它遵循相同的基本连接原则。盖革领导的夏里特研究小组现在利用极其罕见的组织样本和最先进的技术证明了事实并非如此。在这项研究中，研究人员检查了23名在夏里特接受神经外科手术治疗耐药性癫痫患者的脑组织。在手术过程中，医学上有必要切除脑组织，以便观察其下的病变结构。患者同意将这些组织用于研究目的。神经元的旋转重建。图片来源：Charité | Sabine Grosser为了能够观察人类新皮层最外层相邻神经元之间的信号流，研究小组开发出了一种改进版的"multipatch"技术。这样，研究人员就能同时监听多达十个神经元之间的通信。因此，他们能够在细胞停止体外活动前的短时间内进行必要数量的测量，以绘制网络图。他们分析了近 1170 个神经元之间的通信渠道，以及约 7200 个可能的连接。他们发现，只有一小部分神经元之间进行了相互对话。"人类的信息往往是单向流动的。它很少直接或通过循环返回起点，"该论文的第一作者彭扬帆博士解释说。他曾在神经生理学研究所从事这项研究，目前在夏里特神经学系和神经科学研究中心工作。研究小组根据人类网络结构的基本原理设计了一种计算机模拟，以证明这种前向信号流在处理数据方面的优势。来自多配接装置的微量移液管接近单个神经元。图片来源：Charité | Franz Mittermaier研究人员给人工神经网络布置了一项典型的机器学习任务：从口语数字录音中识别出正确的数字。在这项语音识别任务中，模仿人类结构的网络模型比以小鼠为模型的网络模型获得了更多的正确响应。它的效率也更高，同样的成绩在小鼠模型中需要相当于 380 个神经元，而在人类模型中只需要 150 个神经元。"我们在人类身上看到的定向网络结构更强大，也更节省资源，因为更多独立的神经元可以同时处理不同的任务，"彭解释道。"这意味着局部网络可以存储更多信息。目前还不清楚我们在颞叶皮层最外层的发现是否会扩展到其他皮层区域，也不清楚这些发现能在多大程度上解释人类独特的认知能力。"过去，人工智能开发人员在设计人工神经网络时会从生物模型中寻找灵感，但也会独立于生物模型来优化算法。盖格说："许多人工神经网络已经使用了某种形式的前向连接，因为它能为某些任务带来更好的结果。人脑也显示出类似的网络原理，这令人着迷。这些对人类新皮质中具有成本效益的信息处理的洞察，可以为完善人工智能网络提供更多灵感"。编译来源：ScitechDaily ... PC版：手机版：

汇集各种神经网络的庞大数据库

汇集各种神经网络的庞大数据库对于使用神经网络的人来说，Supertools 是一个真正的宝库。它是一个神经网络库，适用于从编码、创业到娱乐等各种任务。您可以在该网站上按类别对神经网络进行分类，并选择适合您项目的神经网络。此外，您还可以无限制地使用免费的神经网络。神经网络库会不断更新，因此您不难在这里找到与您的项目最相关的神经网络和工具。 #AI #tools

《基于AI芯片的神经网络优化实战》

《基于AI芯片的神经网络优化实战》简介：本书探讨如何利用专用AI芯片提升神经网络模型的运行效率与性能，结合硬件架构特性与算法优化策略。通过实际案例演示模型压缩、量化加速及跨平台部署等技术，助力开发者在边缘计算、自动驾驶等场景实现低功耗、高实时性的智能应用。亮点：深入解析AI芯片与算法的协同优化方法，提供从理论到工程落地的全流程指导，包含产业级案例和可复现实验，涵盖低精度计算、动态推理等前沿技术，强化真实场景部署能力。标签：#AI芯片 #神经网络优化 #实战应用 #模型压缩 #边缘计算 #基于AI芯片的神经网络优化实战链接：https://pan.quark.cn/s/76d6585705ef

CIANNA - 天体物理学家的卷积交互式人工神经网络

CIANNA - 天体物理学家的卷积交互式人工神经网络 CIANNA 是一个通用深度学习框架，主要开发和用于天文数据分析。根据天体物理问题解决的相关性添加功能和优化。 CIANNA 可用于构建和训练用于各种任务的大型神经网络模型，并提供高级 Python 接口（类似于 keras、pytorch 等）。 CIANNA 的特点之一是其定制实现的受 YOLO 启发的物体检测器，用于 2D 或 3D 射电天文数据产品中的星系检测。该框架通过低级 CUDA 编程完全由 GPU 加速。 | #框架

用于神经网络高效训练的数据流库(PyTorch)

用于神经网络高效训练的数据流库(PyTorch) Streaming是一个与PyTorch兼容的数据集，它允许用户从基于云的对象存储中流式传输培训数据。流可以从本地磁盘或基于云的对象存储读取文件。作为PyTorch IterableDataset类的替代品，很容易获得流媒体 ||| | #机器学习

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人