据《麻省理工科技评论》报道,当地时间周五(22)日发表的一篇论文显示,苹果公司的研究人员正在探索利用人工智能来检测用户何时在与

据《麻省理工科技评论》报道,当地时间周五(22)日发表的一篇论文显示,苹果公司的研究人员正在探索利用人工智能来检测用户何时在与 iPhone 等设备交谈的可能性,从而消除像“Siri”这样的触发短语的技术需求。 在这项上传到 Arxiv 且未经同行评审的研究中,研究人员使用智能手机捕获的语音以及来自背景噪音的声学数据,训练了一个大型语言模型,以寻找“可能表明用户需要设备辅助”的模式。 论文中称,该模型部分基于 OpenAI 的 GPT-2 构建,因为它相对轻量级,可以在智能手机等设备上运行。论文还描述了用于训练模型的超过 129 小时的数据、额外的文本数据,但没有说明训练集的录音来源。据领英个人资料,七位作者中有六位列出他们的隶属关系为苹果公司,其中三人在苹果 Siri 团队工作。 论文最终得出的结论“令人鼓舞”,声称该模型能够比纯音频或纯文本模型做出更准确的预测,并且随着模型规模的扩大而进一步改进。 目前,Siri 的功能是通过保留少量音频来实现的,听到“嘿,Siri”等触发短语之前,不会开始录制或准备回答用户提示。 斯坦福人类中心人工智能研究所的隐私和数据政策研究员詹・金表示,取消“嘿,Siri”提示可能会增加对设备“始终监听”的担忧。 via 匿名 标签: #Apple 频道: @GodlyNews1 投稿: @GodlyNewsBot

相关推荐

封面图片

苹果研究人员探索放弃“Siri”短语,改用人工智能聆听

苹果研究人员探索放弃“Siri”短语,改用人工智能聆听 据周五 (3月22日) 发表的一篇论文称,苹果公司的研究人员正在研究是否有可能利用 AI 来检测用户何时在对 iPhone 等设备说话,从而消除对“Siri”等触发短语的技术需求。在一项上传到 Arxiv 且未经同行评审的研究中,研究人员使用智能手机捕获的语音以及来背景噪声的声学数据来训练一个大型语言模型,以寻找可能表明用户何时需要设备帮助的模式。论文中研究人员写道:“该模型部分基于 OpenAI 的 GPT-2 版本构建,因为它相对轻量级,可以在智能手机等设备上运行。”论文描述了用于训练模型的超过129小时的数据和额外的文本数据,但没有说明训练集的录音来源。据领英个人资料,七位作者中有六位列出他们的隶属关系为苹果公司,其中三人在该公司的 Siri 团队工作。论文称,结果令人鼓舞。该模型能够比纯音频或纯文本模型做出更准确的预测,并且随着模型规模的扩大而进一步改进。 、

封面图片

前几天微软发了一篇挺重要的关于 LLM 的论文,但我看不太懂。

前几天微软发了一篇挺重要的关于 LLM 的论文,但我看不太懂。 从社区讨论来看,这个研究可以大幅压缩模型体积,让 120B 大小的模型能在 24G 显存的设备上运行。 再加上一些其他优化我们在消费级设备运行 Llama 70B 也不是什么遥不可及的事情。 论文简介: 《1位大语言模型时代来临:一切大型语言模型均转向1.58位构架》 一种1位的LLM变体,命名为BitNet b1.58。在这个模型里,大语言模型的每个参数(或权重)都是三元的{-1, 0, 1}。它在复杂度和实际应用性能方面与相同模型规模和训练数据的全精度(即FP16或BF16)Transformer大语言模型不相上下,但在延迟、内存、吞吐量和能源消耗方面更具成本效益。 更为重要的是,1.58位LLM定义了新的扩展规律,并为训练新一代既高性能又高效的LLMs提供了方法。此外,它还开启了一个全新的计算范式,并为设计专门针对1位LLMs优化的硬件提供了可能性。 论文:

封面图片

苹果公司发表四款开源新模型 有助于提高未来人工智能的准确性

苹果公司发表四款开源新模型 有助于提高未来人工智能的准确性 这些指导模型被称为开源高效 LLMs 或 OpenELMs,托管在协作平台 Hugging Face 上。Hugging Face 用于托管人工智能模型,以及对其进行训练和与他人合作改进。OpenELM 是指一个开源库,它利用进化算法将多个大型语言模型 (LLM) 结合在一起。这四个 OpenELM 模型采用"分层缩放策略",在变压器机器学习模型的各层中分配参数,以提高精确度。这些模型使用 CoreNet 库进行了预训练。苹果公司提供了使用 2.7 亿、4.5 亿、11 亿和 30 亿个参数的预训练和指令调整模型。预训练数据集由 Dolma v1.6 子集、RefinedWeb、重复 PILE 和 RedPajama 子集组合而成。这样得到的数据集约有 1.8 万亿个标记。在本周二发布的一篇相关论文中,该项目的研究人员表示,大型语言模型的可重复性和透明度"对于推进开放式研究至关重要"。它还有助于确保结果的可信度,并允许对模型偏差和风险进行调查。至于模型的准确性,据解释,在使用 10 亿个参数预算的情况下,OpenELM 比 OLMo 的准确性提高了 2.36%,而所需的预训练代币数量仅为 OLMo 的一半。模型和论文的作者包括 Sachin Mehta、Mohammad Hossein Sekhavat、Qingqing Cao、Maxwell Horton、Yanzi Jin、Chenfan Sun、Iman Mirzadeh、Mahyar Najibi、Dmitry Belenko、Peter Zatloukal 和 Mohammad Rastegari。发布这些模型的源代码是苹果公司宣传其人工智能和机器学习发展成果的最新尝试。这并不是苹果公司第一次公开发布人工智能程序。今年10 月,苹果分享了一个名为 Ferret 的开源 LLM,它改进了模型分析图像的方式。今年 4 月,Ferret 的新版本增加了解析应用程序截图中数据点的功能,并能大致了解应用程序的功能。此外,还发布了关于生成式人工智能动画工具和创建人工智能头像的论文。预计 6 月份的 WWDC 将包括苹果产品在人工智能方面的许多进展。 ... PC版: 手机版:

封面图片

苹果公司旗下研究团队近日

苹果公司旗下研究团队近日 在 ArXiv 中公布了一篇名为《MM1:Methods, Analysis & Insights from Multimodal LLM Pre-training》的论文,其中介绍了一款 “MM1”多模态大模型,该模型提供 30 亿、70 亿、300 亿三种参数规模,拥有图像识别和自然语推理能力。 苹果研究团队相关论文主要是利用 MM1 模型做实验,通过控制各种变量,找出影响模型效果的关键因素。 研究表明,图像分辨率和图像标记数量对模型性能影响较大,视觉语言连接器对模型的影响较小,不同类型的预训练数据对模型的性能有不同的影响。 据介绍,研究团队首先在模型架构决策和预训练数据上进行小规模消融实验。之后利用混合专家(Mixture of Experts)架构及一种名为 Top-2 Gating 的方法构建了 MM1 模型,号称不仅在预训练指标中实现了最好的性能表现,在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。 研究人员对“MM1”模型进行了测试,号称 MM1-3B-Chat 和 MM1-7B-Chat 优于市面上绝大多数相同规模的模型。MM1-3B-Chat 和 MM1-7B-Chat 在 VQAv2、TextVQA、ScienceQA、MMBench、MMMU 和 MathVista 中表现尤为突出,但是整体表现不如谷歌的 Gemini 和 OpenAI 的 GPT-4V。 ArXiv 论文地址: via 匿名 标签: #Apple #AI #MM1 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

Shutterstock授权苹果公司使用数百万张图片来训练其人工智能模型

Shutterstock授权苹果公司使用数百万张图片来训练其人工智能模型 此前曾有消息称,苹果公司与多家出版商就类似的人工智能大型语言模型 (LLM) 培训进行了谈判,并使用了来自新闻文章的内容。据称,Conde Nast IAC 和 NBC 等大型媒体都曾与苹果公司洽谈过内容授权事宜。预计苹果公司将在今年 6 月的WWDC 大会上宣布一些重大消息,努力在其操作系统中加入更多人工智能技术。虽然在人工智能整合方面,苹果经常被认为落后于竞争对手,但它自己也进行了一些创新。在过去的一年里,苹果设备用户可能已经注意到了苹果"机器学习"技术的微小改进。例如,预测文本在适应特定用户偏好的词汇方面变得越来越准确,Siri翻译常用短语的能力也得到了提高。据传,苹果公司的下一代处理器将包含更强大的神经引擎。苹果公司全球营销高级副总裁格雷格-乔斯维克(Greg Joswiak)在社交媒体上调侃说,下一届 WWDC 大会将是"绝对令人难以置信的",暗示这次大会将主要围绕iOS18 和其他苹果操作系统中新增的人工智能类型功能展开。苹果在使用人工智能技术方面面临的最大挑战是维持其用户隐私标准,而其他大型人工智能技术公司并不关心这个问题。 苹果公司最近透露,它打算开发可以尽可能使用本地设备算力的模型。 ... PC版: 手机版:

封面图片

研究发现:用人工智能生成的图像训练出的人工智能产生了糟糕的结果。

研究发现:用人工智能生成的图像训练出的人工智能产生了糟糕的结果。 斯坦福大学和莱斯大学的研究人员发现,生成式人工智能模型需要“新鲜的真实数据”,否则输出的质量就会下降。 这对摄影师和其他创作者来说是个好消息,因为研究人员发现,训练数据集中的合成图像会放大人工痕迹,使人工智能画出的人类看起来越来越不像真人。 研究小组将这种状况命名为“模型自噬障碍”。如果自噬循环的每一代都没有足够的新鲜真实数据,未来的生成模型注定会逐渐降低其质量或多样性。 如果该研究论文是正确的,那么这意味着人工智能将无法开发出无穷无尽的数据源。人工智能仍然需要真实、高质量的图像来不断进步,而不是依赖自己的输出。这意味着生成式人工智能将需要摄影师。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人