密歇根大学开发的AI工具可以通过狗叫声分辨出其是否具有攻击性

密歇根大学开发的AI工具可以通过狗叫声分辨出其是否具有攻击性 这项研究是与墨西哥普埃布拉国家天体物理学、光学和电子学研究所(INAOE)合作进行的,研究发现,最初针对人类语言训练的人工智能模型可以作为一个起点,用来训练针对动物交流的新系统。相关成果已在计算语言学、语言资源和评估联合国际会议上公布。"通过使用最初在人类语音基础上训练的语音处理模型,我们的研究打开了一扇新窗口,让我们了解如何利用迄今为止在语音处理方面所取得的成果,开始理解狗叫声的细微差别,"马大计算机科学与工程系 Janice M. Jenkins 学院教授兼人工智能实验室主任Rada Mihalcea 说。"对于与我们共同生活在这个世界上的动物,我们还有很多不了解的地方。人工智能的进步可以用来彻底改变我们对动物交流的理解,而我们的研究结果表明,我们也许不必从头开始"。开发能够分析动物发声的人工智能模型的主要障碍之一是缺乏公开可用的数据。虽然记录人类语音的资源和机会很多,但从动物身上收集此类数据却比较困难。"动物的发声在逻辑上更难收集和记录,"第一作者、马萨诸塞大学计算机科学与工程系博士生 Artem Abzaliev 说。"它们必须在野外被动地记录下来,如果是家养宠物,则必须征得主人的同意"。由于缺乏可用数据,分析狗发声的技术难以开发,而现有的技术也因缺乏训练材料而受到限制。研究人员通过重新利用现有模型克服了这些挑战,该模型最初是为分析人类语音而设计的。这种方法使研究人员能够利用强大的模型,这些模型构成了我们今天使用的各种语音技术的支柱,包括语音到文本和语言翻译。这些模型经过训练,可以分辨出人类语音中的细微差别,如语调、音调和口音,并将这些信息转换成计算机可以用来识别所说词语、识别说话人等的格式。"这些模型能够学习和编码人类语言和语音中极其复杂的模式,"Abzaliev 说。"我们想了解能否利用这种能力来辨别和解读狗叫声。"研究人员使用了74只不同品种、年龄和性别的狗在各种情况下发出的声音数据集。亨伯托-佩雷斯-埃斯皮诺萨(Humberto Pérez-Espinosa)是INAOE的合作者,他领导的团队负责收集数据集。然后,阿布扎利耶夫利用这些录音修改了一个机器学习模型一种能识别大型数据集中模式的计算机算法。该团队选择了一种名为 Wav2Vec2 的语音表示模型,该模型最初是在人类语音数据上训练出来的。有了这个模型,研究人员就能生成从狗身上收集到的声音数据的表示,并解释这些表示。他们发现,Wav2Vec2 不仅在四项分类任务中取得了成功,而且其准确率高达 70%,超过了专门针对狗叫声数据训练的其他模型。"这是首次将针对人类语音进行优化的技术用于帮助解码动物交流,"Mihalcea 说。"我们的研究结果表明,从人类语音中得出的声音和模式可以作为分析和理解动物发声等其他声音的声学模式的基础。"除了建立人类语言模型作为分析动物交流的有用工具这将使生物学家、动物行为学家等受益之外,这项研究对动物福利也有重要意义。研究人员说,了解狗发声的细微差别可以大大改善人类解读和回应狗的情感和生理需求的方式,从而加强对它们的照顾,防止潜在的危险情况发生。 ... PC版: 手机版:

相关推荐

封面图片

OpenAI正在开发新推理技术模型 代号草莓

OpenAI正在开发新推理技术模型 代号草莓 根据路透社 5 月份看到的一份 OpenAI 内部文件副本,OpenAI 内部团队正在开发 Strawberry。路透社无法确定该文件的具体发布日期,该文件详细说明了 OpenAI 打算如何使用 Strawberry 进行研究的计划。消息人士向路透社描述了该计划,称其为一项正在进行的工作。无法确定 Strawberry 距离公开发布还有多久。这位知情人士表示,即使在 OpenAI 内部,Strawberry 的工作原理也是一个严格保密的秘密。消息人士称,该文件描述了一个使用 Strawberry 模型的项目,目的是使公司的人工智能不仅能够生成查询的答案,而且能够提前规划,自主可靠的浏览互联网,从而执行 OpenAI 所称的深度研究。根据对十多位人工智能研究人员的采访,这是迄今为止人工智能模型尚未解决的问题。当被问及 Strawberry 和本文报道的细节时,OpenAI 公司发言人在一份声明中表示:我们希望我们的人工智能模型能够像我们一样看待和理解世界。持续研究新的人工智能能力是业内的常见做法,大家共同相信这些系统的推理能力会随着时间的推移而提高。该发言人没有直接回答有关草莓的问题。Strawberry 项目前身是 Q*,路透社去年报道称,该项目在公司内部已被视为一项突破。两位消息人士称,今年早些时候,他们观看了 OpenAI 工作人员告诉他们 Q* 演示,该演示能够回答当今商用模型无法解决的棘手科学和数学问题。据彭博社报道,周二,OpenAI 在一次内部全体会议上展示了一项研究项目的演示,该项目声称拥有新的类似人类的推理技能,OpenAI 发言人证实了此次会面,但拒绝透露会议内容细节。路透社无法确定所展示的项目是否是 Strawberry。知情人士表示,OpenAI 希望这项创新能够大幅提高其 AI 模型的推理能力,并补充说,Strawberry 涉及一种在非常大的数据集上进行预训练后处理 AI 模型的专门方法。接受路透社采访的研究人员表示,推理是人工智能实现人类或超人类水平智能的关键。虽然大型语言模型已经能够总结密集的文本,并以比人类快得多的速度撰写优美的散文,但该技术往往无法解决常识性问题,而这些问题的解决方案对人类来说似乎是直观的,例如识别逻辑谬误和玩井字游戏。当模型遇到这类问题时,它经常会产生幻觉,产生虚假信息。路透社采访的人工智能研究人员普遍认为,在人工智能的背景下,推理涉及形成一个模型,使人工智能能够提前规划,反映物理世界的运作方式,并可靠地解决具有挑战性的多步骤问题。提高人工智能模型的推理能力被视为释放模型能力的关键,包括实现重大科学发现、规划和构建新的软件应用程序等。OpenAI 首席执行官 Sam Altman今年早些时候表示,在人工智能领域最重要的进步领域将是推理能力。其他公司,如Google、Meta 和微软,也在尝试不同的技术来提高人工智能模型的推理能力,大多数进行人工智能研究的学术实验室也是如此。然而,研究人员对大型语言模型 (LLM) 是否能够将想法和长期规划融入预测方式的看法不一。例如,现代人工智能的先驱之一、在 Meta 工作的 Yann LeCun 经常说 LLM 不具备像人类一样的推理能力。人工智能挑战知情人士称,Strawberry 是 OpenAI 克服这些挑战计划的关键组成部分。路透社看到的文件描述了 Strawberry 想要实现的目标,但没有说明如何实现。据四位听过该公司宣传的人士透露,近几个月来,该公司一直在私下向开发者和其他外部人士发出信号,称其即将发布具有更先进推理能力的技术。他们拒绝透露姓名,因为他们无权谈论私人事务。一位消息人士称,Strawberry 采用了一种特殊的方式,即对 OpenAI 的生成式 AI 模型进行后训练,或者在对大量通用数据进行训练后,对基础模型进行调整,以特定方式磨练其性能。开发模型的后训练阶段涉及“微调”等方法,这是当今几乎所有语言模型都采用的一种方法,它有多种形式,例如让人类根据模型的响应向模型提供反馈,并为其提供好答案和坏答案的例子。一位知情人士称,Strawberry 与斯坦福大学 2022 年开发的一种名为自学推理机或STaR的方法有相似之处。STaR 的创建者之一、斯坦福大学教授诺亚·古德曼 (Noah Goodman) 告诉路透社,STaR 使人工智能模型能够通过迭代创建自己的训练数据将自己“引导”到更高的智能水平,理论上可以用来让语言模型超越人类水平的智能。古德曼说:我认为这既令人兴奋又令人恐惧……如果事情继续朝这个方向发展,我们人类就需要认真思考一些问题了。古德曼与 OpenAI 没有任何关系,对 Strawberry 也不熟悉。该文件称,OpenAI 为 Strawberry 瞄准的功能之一是执行长期任务 (LHT),指的是需要模型提前规划并在较长时间内执行一系列操作的复杂任务,第一位消息人士解释说。根据 OpenAI 内部文件,OpenAI 正在利用公司所谓的深度研究数据集创建、训练和评估模型。路透社无法确定该数据集中包含哪些内容,也无法确定延长的时间段意味着什么。根据该文件和其中一位消息人士的说法,OpenAI 特别希望其模型能够利用这些功能进行研究,在CUA(即计算机使用代理)的帮助下自主浏览网页,并根据其发现采取行动。OpenAI 还计划测试其在软件和机器学习工程师工作方面的能力。 ... PC版: 手机版:

封面图片

Meta 发布开源 AI 工具 AudioCraft,用户可通过文本提示创作音乐、音频

Meta 发布开源 AI 工具 AudioCraft,用户可通过文本提示创作音乐、音频 Meta 开源了一款生成式 AI 工具 AudioCraft,可帮助用户通过文本提示创作音乐和音频。 根据 Meta 官方介绍,AudioCraft 包含了三个核心组件: 1、MusicGen:使用 Meta 拥有 / 特别授权的音乐进行训练,根据文本提示生成音乐。 2、AudioGen:使用公共音效进行训练生成音频或扩展现有音频,后续还可生成环境音效(如狗叫、汽车鸣笛、木地板上的脚步声)。 3、EnCodec(改进版):基于神经网络的音频压缩解码器,可生成更高质量的音乐并减少人工痕迹,或对音频文件进行无损压缩。 该工具经过开源之后,相关研究人员和从业人员可以使用自己的数据集训练模型。官方宣称 AudioCraft 系列模型能够长期稳定地生成高质量音频,而且易于使用,能够为音乐家和声音设计师“提供灵感”,帮助他们快速集思广益,并“以新的方式迭代他们的作品”。 AudioCraft 项目地址: 、

封面图片

AI Hub 管理员发布澄清

AI Hub 管理员发布澄清 如果不采取措施防止将特定数据集上传到群组,美国唱片业协会就要求关闭群组。但实际上,我们已经采取了这些措施。我们已经向在此处上传完整数据集和实际语音模型的用户发送了消息。 现在我们不允许用户上传数据集,以避免出现这种问题。数据集不是使用模型所必需的,它仅仅是训练数据,这意味着它包含了可以侵犯合法版权的完整歌曲。 AI Hub管理kalomaze指出美国唱片业协会因滥用DMCA而闻名。为了避免这种情况他们正在将 AI 模型 迁移到 huggingface 网站,但不会公开上传用于创建模型的数据集。AI 语音模型是合理合法的, AI 语音模型没有那些受版权保护的歌曲,它只是代码和语音模式数据。

封面图片

综合数据库TetrapodTraits利用AI填补生物多样性数据中的长期空白

综合数据库TetrapodTraits利用AI填补生物多样性数据中的长期空白 四足动物特征(TetrapodTraits)是由研究人员开发的全球四足动物数据库。其数据现在可用于更好的生态学、进化和保护研究。巴西坎皮纳斯州立大学的马里奥-莫拉(Mario Moura)和美国耶鲁大学的沃尔特-杰茨(Walter Jetz)今天(7月9日)在开放获取期刊《PLOS Biology》上发表了这一研究成果。巴西的Phyllomedusa burmeisteri叶蛙等体型较小或夜间活动的物种在检测方面面临挑战,这也是自然史数据缺口的原因之一。图片来源:Mario R. Moura(CC-BY 4.0)包括两栖动物、爬行动物、鸟类和哺乳动物在内的四足动物通常都是有据可查的物种,这使它们在全球生物多样性研究中成为有用的模型。然而,我们对其中许多物种的了解存在差距、数据不一致以及学名的变化都会导致对生物多样性的结论出现偏差。为了帮助解决这个问题,研究人员创建了四足动物特征数据库(TetrapodTraits),这是一个包含 33000 多个四足动物物种的综合数据库,其中包括动物的体型、栖息地、生态系统、地理位置、活动时间以及是否受到人类威胁等特征。在编制数据库的过程中,研究人员发现了我们在全球四足动物知识方面的多个空白点。例如,如果动物的身体较小、在夜间活动或生活在热带地区,它们的数据就更有可能不完整。研究小组根据现有的观察结果预测缺失的数据,从而填补了这些空白。他们发现,使用完整的数据集改变了生物多样性模式,使人们了解到一个地区常见的物种种类。由于在探测树冠栖息或夜间活动的物种(如斯里兰卡的Loris tardigradus)时遇到困难,自然历史数据可能会出现缺口。图片来源:Alexander Pyron(CC-BY 4.0)这项新工作揭示了我们缺失的四足动物数据的规模,并对不同四足动物群的差距和偏差进行了全面评估。这一点非常重要,因为缺失和有偏差的数据会导致对生态系统的功能和物种灭绝风险得出错误的结论。研究人员总结说,虽然需要收集更多的数据,但 TetrapodTraits 可以减少四足动物生态学和保护研究结果的偏差。作者补充说:"我们的研究利用人工智能来发现生物多样性数据中的偏差,并为提高实地研究和采样策略的有效性提供指导"。编译自/ScitechDaily ... PC版: 手机版:

封面图片

科学家发现婴儿大脑与人工智能模型惊人相似

科学家发现婴儿大脑与人工智能模型惊人相似 与许多动物相比,人类在出生后很长一段时间内都是无助的。许多动物,如马和鸡,出生当天就能行走。这种漫长的无助期使人类婴儿处于危险之中,也给父母带来了巨大的负担,但令人惊讶的是,这种无助期却经受住了进化的压力。跨物种研究的启示"自 20 世纪 60 年代起,科学家们就认为人类婴儿表现出的无助感是由于出生时的限制造成的。他们认为,人类婴儿头大,必须早产,导致大脑发育不成熟,无助期长达一岁。"认知神经科学教授、论文第一作者罗德里-库萨克(Rhodri Cusack)教授解释说。研究团队由库萨克教授、美国奥本大学克里斯蒂娜-查韦特教授和 DeepMind 高级人工智能研究员 Marc'Aurelio Ranzato 博士组成,库萨克教授利用神经成像技术测量婴儿大脑和心智的发育情况;克里斯蒂娜-查韦特教授负责比较不同物种的大脑发育情况;DeepMind 高级人工智能研究员 Marc'Aurelio Ranzato 博士负责比较不同物种的大脑发育情况。"我们的研究比较了不同动物物种的大脑发育情况。它借鉴了一个长期项目时间转换"(Translating Time),该项目将不同物种的相应年龄等同起来,从而确定人类大脑在出生时比许多其他物种更加成熟。"研究人员利用脑成像技术发现,人类婴儿大脑中的许多系统已经开始运作,并能处理来自感官的丰富信息流。这与人们长期以来认为婴儿大脑的许多系统尚未发育成熟,无法发挥作用的观点相矛盾。研究小组随后将人类的学习与最新的机器学习模型进行了比较,在后者中,深度神经网络受益于"无助"的预训练期。在过去,人工智能模型是直接根据所需的任务进行训练的,例如训练自动驾驶汽车识别它们在道路上看到的东西。但现在,模型最初都是经过预先训练,以便在海量数据中发现模式,而不执行任何重要任务。由此产生的基础模型随后用于学习特定任务。研究发现,这种方法最终会加快新任务的学习速度,并提高性能。对未来人工智能发展的影响"我们提出,人类婴儿也同样利用婴儿期的'无助'期进行预训练,学习强大的基础模型,并在以后的生活中以高性能和快速泛化来支撑认知。这与近年来在生成式人工智能领域取得重大突破的强大机器学习模型非常相似,例如OpenAI的ChatGPT或Google的Gemini,"库萨克教授解释道。研究人员表示,未来对婴儿学习方式的研究很可能会启发下一代人工智能模型。"虽然人工智能取得了重大突破,但基础模型比婴儿消耗大量能源,需要的数据也多得多。了解婴儿是如何学习的,可能会对下一代人工智能模型有所启发。"他最后说:"下一步的研究将是直接比较大脑和人工智能的学习情况。"编译自/scitechdailyDOI: 10.1016/j.tics.2024.05.001 ... PC版: 手机版:

封面图片

音频、音乐和语音生成的工具包,旨在支持可复现的研究,帮助初级研究人员和工程师入门音频、音乐和语音生成领域的研究和开发,提供经典模

音频、音乐和语音生成的工具包,旨在支持可复现的研究,帮助初级研究人员和工程师入门音频、音乐和语音生成领域的研究和开发,提供经典模型或架构的可视化特性,有助于初级研究人员和工程师更好地理解模型。 | #工具

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人