:谷歌发布的最新视觉语言模型,结合了图像编码器SigLIP和文本解码器Gemma-2B,支持多种视觉语言任务

None

相关推荐

封面图片

用于处理二进制数据的#工具、语言和解码器

封面图片

:功能强大的音频处理库,适用于Arduino及其它平台,提供音频源、音频效果、编码器/解码器等多种音频处理功能

封面图片

用你自己的声音说外语:跨语言神经编解码器语言模型 VALL-E X

用你自己的声音说外语:跨语言神经编解码器语言模型VALL-EX微软亚洲研究院发布VALL-E的扩展VALL-EX,它可以通过一个几秒的源语音片段来生成目标语言的语音,同时保留说话者的声音、情感和声学环境。VALL-EX不需要说话人的跨语言语音进行训练即可执行各种语音生成任务,例如跨语言文本到语音、语音合成和语音到语音翻译。VALL-E基于Meta在2022年10月开源的EnCodec技术之上,同时在Meta组建的LibriLight音频库进行训练,音频库包含了来自7000多名演讲者的6万小时英语演讲,大部分来自LibriVox公共领域的有声读物。中展示了"中文语音转英文语音"、"英文语音转中文语音"、"英语文本转中文语音"等各种场景。投稿:@ZaiHuabot频道:@TestFlightCN

封面图片

好物推荐:摩斯电码编解码器

封面图片

不是科幻小说:大脑活动解码器可将思想转化为文字

不是科幻小说:大脑活动解码器可将思想转化为文字一个被称为语义解码器的新人工智能系统可以将一个人的大脑活动--在听故事或默默想象讲故事时--翻译成连续的文本流。德克萨斯大学奥斯汀分校的研究人员开发的这个系统可能会帮助那些精神上有意识但身体上不能说话的人,例如那些因中风而衰弱的人,重新进行理解性的交流。这项研究今天(5月1日)发表在《自然-神经科学》杂志上,由计算机科学博士生JerryTang和德克萨斯大学奥斯汀分校的神经科学和计算机科学助理教授AlexHuth领导。这项工作部分依赖于一个转化器模型,类似于为OpenAI的ChatGPT和Google的Bard提供基础的模型。与其他正在开发的语言解码系统不同,该系统不需要受试者进行手术植入,使这一过程不具有侵入性。参与者也不需要只使用规定列表中的单词。在对解码器进行广泛的训练后,使用fMRI扫描仪测量大脑活动,其中个人在扫描仪中听了几个小时的播客。之后,只要参与者愿意让他们的想法被解码,他们听一个新的故事或想象讲一个故事,机器就能仅通过大脑活动生成相应的文本。研究人员AlexHuth(左)、JerryTang(右)和ShaileeJain(中)准备在德克萨斯大学奥斯汀分校的生物医学成像中心收集大脑活动数据。研究人员对实验室成员在fMRI扫描仪中收集的几十个小时的大脑活动数据进行了语义解码器的训练。Credit:NolanZunk/德克萨斯大学奥斯汀分校Huth说:"对于一个非侵入性的方法来说,与以前所做的相比,这是一个真正的飞跃,以前所做的通常是单个单词或短句。我们正在让这个模型对复杂的想法进行长时间的连续语言解码。"其结果不是逐字逐句的记录。相反,研究人员将其设计为捕捉正在说的或想的东西的要点,尽管并不完美。大约有一半的时间,当解码器经过训练以监测参与者的大脑活动时,机器产生的文本与原词的预期含义密切(有时甚至精确)。例如,在实验中,参与者在听说话者说"我还没有驾照"时,他们的想法被翻译成:"她甚至还没有开始学习驾驶"。听了这句话,"我不知道是要尖叫、哭泣还是逃跑。相反,我说,'别管我!'"被解码为,"开始尖叫和哭泣,然后她只是说,'我告诉你别管我'。"这张图片显示了在用户听四个故事时收集的大脑记录的解码器预测。例子片段是人工选择和注释的,以展示典型的解码器行为。解码器准确地再现了一些单词和短语,并抓住了更多的要点。资料来源:德克萨斯大学奥斯汀分校从作为预印本出现在网上的该论文的早期版本开始,研究人员解决了关于该技术可能被滥用的问题。该论文描述了解码是如何只对那些自愿参与训练解码器的合作参与者发挥作用的。没有接受过解码器训练的人的结果是无法理解的,如果接受过解码器训练的参与者后来进行了抵抗--例如,通过思考其他想法--结果同样是无法使用。"我们非常认真地对待人们对它可能被用于不良目的的担忧,并努力避免这种情况,"唐说。"我们想确保人们只在他们想要的时候使用这些类型的技术,并且对他们有帮助。"除了让参与者聆听或思考故事之外,研究人员还要求受试者在扫描仪中观看四个简短的无声视频。语义解码器能够利用他们的大脑活动来准确描述视频中的某些事件。该系统目前在实验室外并不实用,因为它依赖于fMRI机器上的时间需求。但研究人员认为这项工作可以转移到其他更便携的大脑成像系统,如功能性近红外光谱(fNIRS)。...PC版:https://www.cnbeta.com.tw/articles/soft/1357739.htm手机版:https://m.cnbeta.com.tw/view/1357739.htm

封面图片

谷歌开发者大会将公布AI更新:展示创意写作和编码能力 支持100多种语言

谷歌开发者大会将公布AI更新:展示创意写作和编码能力支持100多种语言当地时间周三,谷歌将举行“谷歌I/O”年度开发者大会。据披露,人工智能(AI)将成此次大会的中心议题,谷歌将会对外发布一系列有关生成式AI的产品技术成果,其中包括一个用途更广泛的大型语言模型。内部文件显示,谷歌将对外发布最新版本、也是技术最先进的大型语言模型“PaLM2”,这个语言模型支持全球100多种语言,之前已经在谷歌内部进行试验,测试代号是“统一语言模型”。据悉,这一语言模型“智商更高”,已经能够编写软件代码,完成数学考试,也能够完成创意作文和分析方面的测试。周三,谷歌首席执行官桑达尔·皮查伊将会向开发者进行主旨演讲,同时介绍公司在AI领域取得的新进展。来源,来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人