大脑最初通过感知来进行视觉建模。

大脑最初通过感知来进行视觉建模。 后来人类有了语言,可以通过语言来拓展模型。 后来有了望远镜、多媒体,模型变得更加精确。 后来有了vlog和直播,模型变得多元化多视角。 如果LLM按照人类大脑的路径,GPT5的建模将会更加精确。 书籍推荐:千脑智能 也可参加之前写的文章

相关推荐

封面图片

周鸿祎称Sora生成视频堪比CG:未做3D建模 只需文字就可逼真描绘

周鸿祎称Sora生成视频堪比CG:未做3D建模 只需文字就可逼真描绘 他认为,对比Pika和Runway是做不出这样效果的。Pika和Runbway实际上是基于图形图像本身的操作来进行生成。只是形成一种比较简单的计算机动画的效果。周鸿祎说:“即使是用常规呢计算机CG电影工业特效来看这三个画面,那也会非常难做,但是到了Sora这里,这些细节都会变得非常简单,只要给出一些文字的提示要求,就能逼真描绘出来”。他认为,Sora是没有做3D建模的。如果Sora也只是用3D建模再进行渲染,那么这和传统的电影工业走的是一样的路,这样就不具备颠覆性和革命性了。周鸿祎猜测Sora做到如此效果有三点原因:1、Sora模拟了人类观察、描绘、表现世界的方法。如果人类画师用笔画出来这三个场景,人类的大脑里不需要3D建模,因为人类对世界有基本认知。人类可以随意想象出自己要做的事,可以控制自己所想。2、Sora在学习的过程中,用了很多视频、电影的内容来作为训练输入。当输入一些画面,不仅要解读出画面的元素,还要解读出一些物理定律。openAI的论文中曾提到recaptioning技术,意思是对每一帧画面都能够用文字来描述。这点也正符合人类认知世界的方法。3、openAI产生了很多3D内容。不排除它用现在游戏引擎做了很多实时3D模型的渲染,再利用这些3D模型把更多的物理知识训练给Sora。周鸿祎表示,Sora是记录文生视频AIGC的工具,它反映了AI对世界的理解,是从文字进入图像,再从图像展示对这个世界3D模型的理解。 ... PC版: 手机版:

封面图片

Meta的新型AI模型可通过观看视频进行学习 未来还将加入声音数据维度

Meta的新型AI模型可通过观看视频进行学习 未来还将加入声音数据维度 Meta公司 FAIR(基础人工智能研究)小组负责人Yann LeCun提出,如果人工智能模型能在视频片段中使用相同的遮蔽技术,它们就能更快地学习。LeCun 说:"我们的目标是打造先进的机器智能,使其能够像人类一样学习。形成周围世界的内部模型,以便高效地学习、适应和制定计划,为完成复杂任务服务。"LeCun 理论的具体体现是一种名为视频联合嵌入预测架构(V-JEPA)的研究模型。它通过处理无标记的视频来进行学习,并推测出在黑屏的几秒钟内,屏幕的某一部分可能发生了什么。需要注意的是,V-JEPA 并不是一个生成模型。Meta 的研究人员说,V-JEPA 在使用视频遮蔽进行预训练后,"擅长检测和理解物体之间高度细致的互动"。这项研究可能会对 Meta 和更广泛的人工智能生态系统产生重大影响。Meta公司之前在开发增强现实眼镜时曾谈到过"世界模型"。这种眼镜将使用这样一个模型作为人工智能助手的大脑,除其他外,它还能预测向用户展示哪些数字内容,以帮助用户完成工作并获得更多乐趣。该模型从一开始就对眼镜外的世界具有视听理解能力,但随后可以通过设备的摄像头和麦克风快速了解用户世界的独特特征。V-JEPA 还可能改变人工智能模型的训练方式。目前的基础模型预训练方法需要大量的时间和计算能力(这对生态环境有影响)。换句话说,目前开发基础模型是富人的专利。有了更高效的训练方法,这种情况就会改变。这符合Meta 的战略,即以开源方式发布其大部分研究成果,而不是像 OpenAI 和其他公司那样将其作为有价值的知识产权加以保护。如果训练成本降低,规模较小的开发者也许就能训练出规模更大、能力更强的模型。LeCun 认为,目前的模型通过视觉和听觉进行学习,这正在减缓向人工通用智能(通常需要比人类更聪明)发展的速度。在 V-JEPA 之后,Meta 的下一步计划是在视频中加入音频,这将为模型提供一个全新的学习数据维度,这就像一个孩子在观看静音电视时将声音调大一样。孩子们不仅能看到物体的移动,还能听到人们谈论物体的声音。Meta 公司表示,它将以知识共享(Creative Commons)非商业许可的方式发布 V-JEPA 模型,这样研究人员就可以对其进行实验,或许还能扩展其功能。 ... PC版: 手机版:

封面图片

Science:新的成像方法揭示了氧气在大脑中的旅程

Science:新的成像方法揭示了氧气在大脑中的旅程 发表在《科学》(Science)杂志上的一项新的生物发光成像技术,创造了非常详细、视觉上引人注目的小鼠大脑中氧气运动的图像。这种方法很容易被其他实验室复制,它将使研究人员能够更精确地研究缺氧的形式,比如中风或心脏病发作时大脑部分缺氧。这项研究已经深入了解了为什么久坐不动的生活方式会增加患阿尔茨海默病等疾病的风险。“这项研究表明,我们可以连续监测大脑大范围内氧浓度的变化,”罗切斯特大学和哥本哈根大学转化神经医学中心的联合主任Maiken Nedergaard说。Maiken Nedergaard说:“这为我们提供了一个更详细的图像,实时了解大脑中发生了什么,使我们能够识别以前未被发现的暂时缺氧区域,这反映了血液流动的变化,可能引发神经功能障碍。”萤火虫和偶然的科学这种新方法使用了发光蛋白,这是在萤火虫中发现的生物发光蛋白的化学表亲。这些已被用于癌症研究的蛋白质,利用一种病毒向细胞传递指令,以酶的形式产生发光蛋白质。当这种酶遇到它的底物furimazine时,化学反应就会产生光。像许多重要的科学发现一样,利用这个过程来成像大脑中的氧气是偶然发现的。哥本哈根大学转化神经科学中心的助理教授Felix Beinlich最初打算用发光蛋白来测量大脑中的钙活性。很明显,蛋白质生产过程中出现了错误,导致了长达数月的研究延迟。当Felix Beinlich等待制造商的新一批产品时,他决定继续进行实验,以测试和优化监测系统。这种病毒被用来向星形胶质细胞传递产生酶的指令,星形胶质细胞是大脑中普遍存在的支持细胞,维持神经元的健康和信号功能,这种底物被直接注射到大脑中。这些记录揭示了生物发光强度波动的活动,研究人员怀疑这反映了氧气的存在和浓度,后来证实了这一点。Felix Beinlich说:“在这种情况下,化学反应依赖于氧气,所以当有酶、底物和氧气时,系统就开始发光。”虽然现有的氧气监测技术只能提供大脑一小块区域的信息,但研究人员可以实时观察到小鼠的整个大脑皮层。生物发光的强度与氧气的浓度相对应,研究人员通过改变动物呼吸的空气中的氧气量来证明这一点。光强度的变化也与感觉处理相对应。例如,当一股空气刺激老鼠的胡须时,研究人员可以看到大脑相应的感觉区域亮了起来。“缺氧口袋”可能预示着老年痴呆症的风险大脑在没有氧气的情况下无法存活很长时间,中风或心脏病发作后迅速造成的神经损伤就证明了这一点。但是,当大脑的一小部分短暂缺氧时会发生什么呢?直到Nedergaard实验室的研究小组开始仔细研究新的录音,这个问题才被研究人员提出。在监测小鼠的过程中,研究人员观察到,大脑的特定微小区域会间歇性地变暗,有时会持续几秒钟,这意味着氧气供应被切断。氧气通过一个由动脉和毛细血管组成的巨大网络在大脑中循环,毛细血管渗透到脑组织中。??通过一系列实验,研究人员能够确定氧气被拒绝是由于毛细血管阻塞,当白细胞暂时阻塞微血管并阻止携带氧气的红细胞通过时,就会发生这种情况。研究人员将这些区域命名为“缺氧口袋”,与小鼠活动时相比,它们在静息状态下的大脑中更为普遍。毛细血管停滞被认为随着年龄的增长而增加,并在阿尔茨海默病模型中观察到。Maiken Nedergaard说:“我们可以研究一系列与大脑缺氧相关的疾病,包括阿尔茨海默氏症、血管性痴呆和长期COVID,以及久坐不动的生活方式、衰老、高血压和其他因素如何导致这些疾病。”“它还提供了一种工具来测试不同的药物和运动类型,这些药物和运动可以改善血管健康,减缓痴呆症的发展。” ... PC版: 手机版:

封面图片

一项新的研究发现,学生用手写笔记比用键盘打字学习效果更好,记忆也更牢固。研究人员通过脑部连接模式分析发现,写字时大脑的活动更加复

一项新的研究发现,学生用手写笔记比用键盘打字学习效果更好,记忆也更牢固。研究人员通过脑部连接模式分析发现,写字时大脑的活动更加复杂,有助于记忆和学习。 研究人员表示,精确控制的手部动作在书写过程中会产生视觉和运动信息,这些信息对大脑的连接模式有很大影响,而这些连接模式对于记忆形成和学习至关重要。 研究共同作者、挪威科技大学脑科学家奥德丽・范德梅尔 (Audrey van der Meer) 表示:“已有证据表明,学生用手写笔记可以学到更多东西,记忆也更牢固,但当需要写长篇文本或论文时,使用电脑和键盘可能更实用。” 研究团队在该研究中,记录了 36 名大学生的脑电活动,他们需要重复手写或键入屏幕上出现的单词。写字时,他们使用数字笔直接在触摸屏上书写;打字时,他们用一根手指按键盘上的按键。 研究人员发现,当参与者用手写时,不同大脑区域之间的连接会增强,而打字时则不会。相反,他们发现重复用同一根手指敲击按键的简单动作对大脑的刺激较小。 范德梅尔解释道:“这也可以解释为什么一些在平板电脑上学习写字和阅读的孩子难以区分镜像字母,例如‘b’和‘d’,他们实际上没有通过身体感受过写这些字母的感觉。” 虽然研究使用的是数字笔,但研究人员认为,用传统纸笔的手写效果应该也很相似。范德梅尔解释说:“我们的研究表明,大脑活动差异与手写时精心塑造字母轮廓、更多调动感官有关。” 研究人员呼吁在教育中重视手写练习,让学生有机会放下键盘拿起笔杆。他们建议制定最低的手写教学要求,并在不断发展的科技环境中,探索不同写作方式在不同场景下的优势和劣势。 via 匿名 标签: #记忆力 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

研究发现我们的大脑使用基本的音速和模式来区分音乐和语音

研究发现我们的大脑使用基本的音速和模式来区分音乐和语音 每年有超过三分之一的美国人受到这种语言障碍的困扰,其中包括温迪-威廉姆斯(Wendy Williams)和布鲁斯-威利斯(Bruce Willis)。纽约大学心理学系博士后、论文第一作者安德鲁-张(Andrew Chang)解释说:"虽然音乐和语音在很多方面都不同,从音高、音色到声音质地,但我们的研究结果表明,听觉系统使用非常简单的声学参数来区分音乐和语音,总的来说,较慢和稳定的纯噪音声音片段听起来更像音乐,而较快和不规则的片段听起来更像语音"。该论文今天(5 月 28 日)发表在《PLOS 生物学》杂志上。科学家通过精确的测量单位来衡量信号的速率:赫兹(Hz)。赫兹数越大,表示每秒发生的次数(或周期)越多,而赫兹数越小,表示每秒发生的次数(或周期)越少。例如,人们通常以每秒 1.5 到 2 步的速度行走,也就是 1.5-2 赫兹。史蒂夫-汪达 1972 年的名曲"Superstition"(迷信)的节拍也是如此。迷信"的节拍约为 1.6 赫兹,而安娜-卡琳娜 1967 年的名曲"Roller Girl"则为 2 赫兹。相比之下,语音的速度通常要快两到三倍,为 4-5 赫兹。歌曲的音量或响度随时间的变化即所谓的"振幅调制"相对稳定在 1-2 赫兹。相比之下,语音的振幅调制通常为 4-5 赫兹,这意味着其音量变化频繁。尽管音乐和语音无处不在、耳熟能详,但科学家们以前并不清楚我们是如何毫不费力地自动将声音识别为音乐或语音的。声音感知实验结果在PLOS Biology的研究中,为了更好地理解这一过程,张及其同事进行了四次实验,让 300 多名参与者聆听了一系列不同振幅调制速度和规律的合成音乐和语音噪声片段。音频噪声片段只允许检测音量和速度。参与者被要求判断这些模棱两可的噪音片段(他们被告知这些片段是掩盖了噪音的音乐或语音)听起来像音乐还是语音。通过观察参与者将数百个噪音片段分类为音乐或语音的模式,可以发现速度和/或规律性特征对他们判断音乐和语音的影响有多大。科学家们总结说,这就是听觉版的"云中看脸":如果声波中的某一特征符合听众对音乐或语音的理解,那么即使是白噪声片段听起来也会像音乐或语音。音乐和语音的例子可以从以下页面中获取:<2Hz)、振幅调制较规则的片段听起来更像音乐,而速率较高(~4Hz)、振幅调制较不规则的片段听起来更像语音。对治疗和康复的影响作者指出,了解人脑是如何区分音乐和语音的,有可能使听觉或语言障碍(如失语症)患者受益。例如,旋律音调疗法是一种很有前途的方法,它可以训练失语症患者唱出他们想说的话,利用他们完好的"音乐机制"绕过受损的语言机制。因此,了解是什么使音乐和语言在大脑中相似或不同,有助于设计更有效的康复计划。编译来源:ScitechDaily ... PC版: 手机版:

封面图片

a16z近期公布了他们的开源 AI 资助计划第二期,主要关注两个领域:包括用于训练、托管和评估语言模型的工具以及围绕视觉人工智能

a16z近期公布了他们的开源 AI 资助计划第二期,主要关注两个领域:包括用于训练、托管和评估语言模型的工具以及围绕视觉人工智能构建的模型和社区。第二期有7 个项目: :一个在任何云上运行LLMs、AI和批处理作业的框架,提供最大的成本节省、最高的GPU可用性和托管执行。 主要能力有:在任何云上启动作业和集群、排队并运行多个作业,自动管理、轻松访问对象存储、自动选择最便宜的云服务。 :用于微调LLMs的工具,支持多种配置和架构。 工具支持:训练各种Huggingface模型,如llama、pythia等、支持全面微调、lora、qlora、relora和gptq多种训练方式、使用简单的yaml文件或CLI覆盖自定义配置等。还有很多其他特性。 :开源模型、系统和评估平台。 开源了 LLM 用的数据集,还有一个 LLM 模型。最著名的还是通过 ELO 算法和机制评估 LLM 质量的项目,这种人工评分的机制比一些数据集的评价方法更加可以反应人类对于 LLM 质量的判断。 :用于训练许多LLMs的开放网络爬取数据存储库。 这是一个从 2007 年就开始收集的互联网语聊数据库,他们会定期抓取,你可以免费下载所有数据用来训练模型。GPT-3 82%的训练语料来自这个项目。 :开源多模态模型(语言和视觉)。 端到端训练的大型多模态模型,连接了一个视觉编码器和LLM,用于通用的视觉和语言理解。 现在最新的是LLaVA1.5 版本,只是对原始LLaVA进行简单修改,利用了所有公开数据,在单个8-A100节点上约1天内完成训练。 :AI动画的平台和开源社区,是一种 AI 生成动画的方式。Deforum的 WebUI 插件和 Discord 社区都是他们在维护。 :高影响力AI模型的开放实现。 Phil Wang,也以其在线昵称“lucidrains”而闻名,在AI和机器学习领域是一位杰出人物。以在PyTorch框架中实现各种有趣的AI模型和论文而闻名。他的工作包括Vision Transformer、DALL-E 2、Imagen和MusicLM等的实现。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人