AI识别唇语:Meta 开源第一个视听语言翻译语料库 MuAViC

AI识别唇语:Meta 开源第一个视听语言翻译语料库 MuAViC MuAViC 源数据来自 TED 和 TEDx 超过8000名演讲者的视频,提供了9种语言的1200小时的音频-视觉语料,包括英语、阿拉伯语、德语、希腊语语、西班牙语、法语、意大利语、葡萄牙语和俄语。 MuAViC 支持多种任务,如自动语音识别、唇读、机器翻译和端到端的语音到文本翻译。Meta 的开源模型 AV-HuBERT 经过 MuAViC 训练后,在嘈杂环境中的表现远优于其它领先的翻译模型。

相关推荐

封面图片

【跨语种“AI同传”震撼登场,Meta谷歌连发重大突破,颠覆语音翻译】Meta谷歌接连放出重磅成果!Meta开源无缝交流语音翻译

【跨语种“AI同传”震撼登场,Meta谷歌连发重大突破,颠覆语音翻译】Meta谷歌接连放出重磅成果!Meta开源无缝交流语音翻译模型,谷歌放出无监督语音翻译重大突破Translation 3。 #抽屉IT

封面图片

《美国当代语料库COCA 》

《美国当代语料库COCA 》 简介:由杨百翰大学开发的英语语料库,涵盖1990年至今的口语、小说、报刊、学术等多领域文本,总量超十亿词。通过真实语境展示英语动态演变,支持语言学、教学及跨文化研究,为分析当代英语使用提供权威数据支持。 亮点:全球最大免费英语语料库之一,定期更新并标注词性、语境,支持高级检索与对比分析,助力语言研究、教材开发及AI语言模型训练。 标签:#英语研究 #语料库语言学 #多文体覆盖 #COCA #杨百翰大学 链接:https://pan.quark.cn/s/91e23f5bd109

封面图片

【Meta 开发了实时翻译闽南语的 AI】该模型目前仍在开发中,并且只适用于那类具有中间语言可以桥接两个不同语言的语言,如果两个

【Meta 开发了实时翻译闽南语的 AI】该模型目前仍在开发中,并且只适用于那类具有中间语言可以桥接两个不同语言的语言,如果两个语言之类没有密切相似的可桥接语言的话,将无法使用这个新模型,但该模型仍然为通用翻译开辟了更多的新语言。 #抽屉IT

封面图片

Meta 推出 SeamlessM4T,一种用于语音和文本翻译的多模式 AI 模型。

Meta 推出 SeamlessM4T,一种用于语音和文本翻译的多模式 AI 模型。 Meta周二发布了 ,这是一个新的多模式和多语言 AI ​​翻译模型,可以让说不同语言的人更有效地进行交流。 M4T 可以进行多达 100 种语言的语音到文本、文本到语音、语音到语音、文本到文本翻译和语音识别。 SeamlessM4T将使用研究许可证公开发布,以便研究人员和开发人员在此基础上开展工作。 Meta还将公布 SeamlessAlign 的元数据,这是迄今为止最大的开放多模式翻译数据集,挖掘的语音和文本对齐总计达 270,000 小时。 随着时间的推移,Meta将把这些翻译和转录方面的 AI 进展整合到Facebook、Instagram、WhatsApp、Messenger和Threads中。 、

封面图片

华为智驾新专利公布:可识别唇语并报警

华为智驾新专利公布:可识别唇语并报警 摘要显示,本申请提供了一种报警方法、装置以及智能驾驶设备。智能驾驶设备中的报警装置根据第一唇部图像信息确定用户的第一唇部特征信息,所述第一唇部图像信息是第一相机获取的。所述报警装置将所述第一唇部特征信息输入到唇语报警模型中,得到第一报警信息。所述报警装置根据所述第一报警信息进行报警。通过上述方法,当用户受到车辆以外的人和物的威胁时,车辆能够识别用户的唇语并进行报警,从而保护用户的人身安全。 ... PC版: 手机版:

封面图片

Meta 开源发布可分割识别任意图像中主体的 SAM 模型

Meta 开源发布可分割识别任意图像中主体的 SAM 模型 已经理解了对象是什么的一般概念,可以直接对没见过的图像进行分割任务 (识别像素属于哪个对象)。Meta 还同时开源发布了比任何现有分割数据集大400倍的 SA-1B 数据集。 SAM 可以成为庞大AI系统的一部分,用于对世界进行多模态理解,例如理解图像和文本。SAM 可以在 AR/VR 中根据用户的视线选择对象,进行识别查询或者3D建模。SAM 可以进行智能抠图或视频后期。SAM 还可用于地球与太空的科学任务,对动物和物体进行定位,例如细胞显微镜,牧场的动物识别,天体运行跟踪。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人