阿里巴巴开源 1100 亿参数 Qwen1.5-110B 模型,与 Meta Llama3-70B 相媲美 - IT之家

None

相关推荐

封面图片

Meta 开源最新的 Llama 3.1 大模型

Meta 开源最新的 Llama 3.1 大模型 其它科技公司都想把 AI 产品买给你们,但扎克伯格(Mark Zuckerberg)选择免费送给你们。Meta 周一宣布了其最新的 Llama 3.1 大模型,其最大规模版本的参数有 4050 亿个,较小规模的版本有 700 亿和 80 亿个参数。Meta 称,Llama 3.1 在基准测试中的表现超过了 OpenAI 的 GPT-4o 和 Anthropic 的 Claude 3.5 Sonnet。Meta 表示,Llama 3.1 使用了逾 16,000 个英伟达 H100 GPU 进行训练,它认为相比私有大模型,部署成本会更低。扎克伯格称他与世界各地的开发者、企业和政府官员交流时,他们都表达了不希望被私有封闭供应商锁定的愿望,希望自己能控制模型,而 Llama 3.1 将能满足他们的要求。 via Solidot

封面图片

Meta发布功能更强大的Code Llama 70B模型 可与GitHub Copilot相媲美

Meta发布功能更强大的Code Llama 70B模型 可与GitHub Copilot相媲美 Code Llama 70B 已在 5000 亿个字节的代码和相关数据基础上进行了训练。它可以处理和生成较长的代码序列,这要归功于 10 万个词组的上下文窗口。据 Meta 公司介绍,Code Llama 70B 使用一种称为自我关注的技术来理解代码结构。它可以根据文本或片段提示实现算法、排序、搜索等功能,适用于 Python、C++、Javascript 和 Java 等多种语言。这款人工智能驱动的工具包括针对特定任务进行微调的变体。其中一个变体是 CodeLlama-70B-Instruct,它经过训练可以理解自然语言指令。还有一个以 Python 为重点的版本,名为 CodeLlama-70B-Python。根据 Meta 的说法,通过对 1000 亿个 Python 代码标记的额外训练,它生成 Python 代码的"流畅性和准确性无与伦比"。"编写和编辑代码已成为当今人工智能模型最重要的用途之一,"Meta 公司首席执行官马克-扎克伯格在 Facebook 上的一篇文章中写道。"事实证明,代码能力对于人工智能模型更严谨、更合乎逻辑地处理其他领域的信息也非常重要。"Code Llama 70B可以在与早期 Code Llama 模型相同的开放许可下免费下载: 公司称,这种许可允许学术和商业用户修改模型。微软旗下的GitHub于 2023 年 7 月推出了 Copilot Chat。开发人员可以就自己的代码向 Copilot 提问,获得代码特定部分的解释,甚至让 Copilot 修复代码中的错误。最近,Google也推出了 Duet AI 和 Gemini Pro,这是由人工智能驱动的代码完成和生成工具。 ... PC版: 手机版:

封面图片

Meta宣布推出Llama 2(羊驼2) 提供7B~70B模型 开源免费可商用

Meta宣布推出Llama 2(羊驼2) 提供7B~70B模型 开源免费可商用 今天 Meta 发布 Llama 2 也就是羊驼 2 模型,提供 7B、13B 和 70B 参数版本,该模型开源、免费、可商用,这也是为什么最近一段时间有大量新模型出现,对开源社区来说,只要有高质量模型被开源出来,那接下来就是社区成员登场,微调、优化、定制、整合,然后就可以生成更多模型了。 羊驼 2 预训练模型接受了 2 万亿个 tokens 的训练,上下文长度是 Llama 1 的两倍,是的其上下文长度从 2048 提升到了 4096,其微调模型接受了超过 100 万个人类标注的训练。 根据 Meta AI 研究团队的测试,羊驼 2 在不少测试中表现都比较优异 (相对其他开源模型),包括推理、编程、熟练程度和知识测试。 (需要提供Email地址) 来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

阿里巴巴开源能理解图像的 AI 模型 Qwen-VL

阿里巴巴开源能理解图像的 AI 模型 Qwen-VL 阿里巴巴周五开源了能理解图像和完成更复杂对话的 AI 模型和 Qwen-VL-Chat。阿里巴巴称,Qwen-VL 基于 Qwen-7B,可以以图像、文本、检测框作为输入,并以文本和检测框作为输出,它使用了约 1.5B 的图文数据训练。在四大类多模态任务的标准英文测评中上,Qwen-VL 均取得同等通用模型大小下最好效果;支持英文、中文等多语言对话,端到端支持图片里中英双语的长文本识别;支持多图输入和比较,指定图片问答,多图文学创作等;相比于目前其它开源 LVLM使用的 224 分辨率,Qwen-VL 是首个开源的 448 分辨率的 LVLM 模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。Qwen-VL 和 Qwen-VL-Chat 使用名为 Tongyi Qianwen LICENSE AGREEMENT 的许可证,有限制条件,如果商业使用,则需要从阿里巴巴获得授权。来源 , 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

Meta 确认其 Llama 3 开源大型语言模型将于下个月推出

Meta 确认其 Llama 3 开源大型语言模型将于下个月推出 在4月9日于伦敦举行的一次活动中,Meta 确认计划在下个月内首次发布 Llama 3,这是用于驱动生成式人工智能助手的下一代大型语言模型。Meta 全球事务总裁 Nick Clegg 说:“在接下来的一个月内,实际上更短,我们希望开始推出我们的新一代模型套件 Llama 3。”他的描述听起来像是要发布该产品的几个不同迭代或版本。“今年[发布]的不同版本,将有许多不同的模型具有不同的功能,而且很快就会开始。”Meta 首席产品官 Chris Cox 补充说,该计划将通过 Llama 3 为 Meta 的多种产品提供动力。

封面图片

Meta确认其Llama 3开源大语言模型将于下个月推出

Meta确认其Llama 3开源大语言模型将于下个月推出 Meta 公司全球事务总裁尼克-克莱格(Nick Clegg)说:"我们希望在下个月内,甚至更短的时间内,开始推出我们新的下一代基础模型套件 Llama 3。"他的描述听起来像是要发布该产品的几个不同迭代或版本。"今年内,我们将发布一系列具有不同功能、不同通用性的模型,很快就会开始发布。"Meta 首席产品官 Chris Cox 补充说,计划用 Llama 3 支持 Meta 的多个产品。一年多前,OpenAI 推出了 ChatGPT,并将人工智能生成式问答变成了日常的主流体验,这让 Meta 和Google等其他大型科技公司措手不及。Meta 公司在人工智能方面基本上采取了非常谨慎的态度,但这并没有得到公众的认可,以前版本的 Llama 被批评为能力过于有限。(Llama 2于 2023 年 7 月公开发布)。第一版 Llama 并未对外发布,但仍在网上泄露)。与前几代产品相比,Llama 3 的功能更强大,不仅能更准确地回答问题,还能回答更广泛的问题,其中可能包括更具争议性的话题。该公司希望这将使产品受到用户的欢迎。"随着时间的推移,我们的目标是让由 Llama 驱动的 Meta AI 成为世界上最有用的助手,"人工智能研究副总裁 Joelle Pineau 说。"要达到这个目标,还有相当多的工作要做。"该公司没有谈及《Llama 3》中使用的参数的大小,也没有提供它将如何工作的任何演示。预计它将拥有约 1400 亿个参数,而最大的 Llama 2 型号只有 700 亿个参数。最值得注意的是,Meta 的 Llama 系列是作为开源产品构建的,代表了一种不同的哲学方法,即人工智能作为一种更广泛的技术应如何发展。与专有模式相比,Meta 希望通过这种方式获得更多开发者的青睐。但 Meta 似乎也在谨慎行事,尤其是在文本生成之外的其他生成式人工智能方面。皮诺说,公司尚未发布图像生成工具 Emu。考克斯说:"延迟、安全性和易用性都非常重要,只有这样才能生成令你自豪的图像,并代表你的创意背景。"具有讽刺意味的是,或者可以说是意料之中的,即使在 Meta 公司努力推出 Llama 3 的同时,公司内部也有一些对生成式人工智能持怀疑态度的重要人士。兼任 Meta 首席人工智能科学家的著名人工智能学者 Yann LeCun 对生成式人工智能的整体局限性进行了抨击,并表示他将赌注押在生成式人工智能之后。他预测这将是联合嵌入式预测架构(JEPA),这是一种训练模型和产生结果的不同方法,Meta 公司一直在使用这种方法在图像生成领域构建更准确的预测性人工智能。"人工智能的未来是 JEPA。它不是生成式人工智能,"他说。"我们得给克里斯的产品部门改个名字"。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人