Meta发布LLAMA 3.1 405B开源AI模型,纸面数据超越GPT4o,但不如Claude3.5sonnet

Meta发布LLAMA3.1405B开源AI模型,纸面数据超越GPT4o,但不如Claude3.5sonnet支持多语言和工具调用,性能媲美GPT-4-模型能够识别图像和视频,并支持通过语音进行交互,但这些功能仍在开发中,尚未准备好发布。-训练数据高达15.6Ttokens,使用了超过16,000个H100GPU-405B模型能在单个服务器节点上运行-405B模型训练好后,继续用405B模型提升了8B和70B的质量,所以可以预见Llama3.1中8B和70B会有更好表现-大多数的监督微调(SFT)示例都是使用合成数据生成的关注频道@ZaiHuaPd投稿爆料@ZaiHuabot

相关推荐

封面图片

Meta发布LLAMA 3.1 405B开源AI模型

Meta发布LLAMA3.1405B开源AI模型Meta公司发布LLAMA3.1405B开源人工智能模型,首席执行官马克·扎克伯格称之为“最先进的”,并表示将与OpenAI和谷歌等竞争对手的类似产品相媲美。新模型花费了数月时间和数亿美元的计算能力进行训练。该模型具有多种新功能,包括改进的推理能力,可帮助解决复杂的数学问题或立即合成整本书的文本。还具有生成式人工智能功能,可以通过文本提示按需创建图像。名为“想象自己”的功能允许用户上传自己的脸部图像,然后可以用来创建在不同的场景和情形中的形象。另外,Meta推出Llama3.1模型8B和70B型号的升级版本,将上下文长度扩展至128K,增加了对8种语言的支持。——、

封面图片

Meta 发布 Llama 3 —— 迄今最强大的公开语言模型

Meta发布Llama3——迄今最强大的公开语言模型Llama3的8B和70B型号拥有8K上下文窗口,经过15Ttokens预训练,训练数据比Llama2大了七倍,并且包含四倍多的代码。其中Llama3-8B的性能就已优于Llama2-70B。人类择优测试中Llama3-70B远胜于Claude3Sonnet、MistralMedium和GPT-3.5。Llama3的多模态和更大的版本将在数月内推出,其中最为强大的Llama3-400B+仍在训练中,三天前的基准测试结果已经持平Claude3Opus超过GeminiPro1.5,仅数学落后最先进的GPT-4-2024-04-09。线索:@ZaiHuabot投稿:@TNSubmbot频道:@TestFlightCN

封面图片

Meta 开源最新的 Llama 3.1 大模型

Meta开源最新的Llama3.1大模型其它科技公司都想把AI产品买给你们,但扎克伯格(MarkZuckerberg)选择免费送给你们。Meta周一宣布了其最新的大模型,其最大规模版本的参数有4050亿个,较小规模的版本有700亿和80亿个参数。Meta称,Llama3.1在基准测试中的表现超过了OpenAI的GPT-4o和Anthropic的Claude3.5Sonnet。Meta表示,Llama3.1使用了逾16,000个英伟达H100GPU进行训练,它认为相比私有大模型,部署成本会更低。扎克伯格称他与世界各地的开发者、企业和政府官员交流时,他们都表达了不希望被私有封闭供应商锁定的愿望,希望自己能控制模型,而Llama3.1将能满足他们的要求。来源,频道:@kejiqu群组:@kejiquchat

封面图片

Meta宣布推出Llama 2(羊驼2) 提供7B~70B模型 开源免费可商用

Meta宣布推出Llama2(羊驼2)提供7B~70B模型开源免费可商用今天Meta发布Llama2也就是羊驼2模型,提供7B、13B和70B参数版本,该模型开源、免费、可商用,这也是为什么最近一段时间有大量新模型出现,对开源社区来说,只要有高质量模型被开源出来,那接下来就是社区成员登场,微调、优化、定制、整合,然后就可以生成更多模型了。羊驼2预训练模型接受了2万亿个tokens的训练,上下文长度是Llama1的两倍,是的其上下文长度从2048提升到了4096,其微调模型接受了超过100万个人类标注的训练。根据MetaAI研究团队的测试,羊驼2在不少测试中表现都比较优异(相对其他开源模型),包括推理、编程、熟练程度和知识测试。(需要提供Email地址)来源,来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

Meta 开源发布能力比肩 ChatGPT 的 Llama 2

Meta开源发布能力比肩ChatGPT的Llama2Llama2相较于Llama1的许可证更加开放,个人和公司都可将其免费用于研究和商业目的(月活超7亿的巨头除外)。Meta还禁止使用Llama2的材料或输出来改进其它大型语言模型(不包括Llama2的衍生作品)。值得注意的是,Llama2的训练数据集是闭源且保密的,这可能与版权纠纷的担忧有关。Llama2训练数据比Llama1多了40%,上下文长度是原来的两倍,有70亿、130亿、700亿三种参数版本。Llama2在大多数基准测试中击败了其它开源模型,在人类评估中与闭源模型GPT-3.5相当(除代码能力)。Meta还与微软、亚马逊、HuggingFace等公司深度合作,Llama2可以在MicrosoftAzure、AWS等云服务上直接使用。频道:@TestFlightCN

封面图片

Meta称其LLaMA语言模型比OpenAI的GPT-3更有前景

Meta称其LLaMA语言模型比OpenAI的GPT-3更有前景LLaMA有多种尺寸,从70亿个参数到650亿个参数不等。Meta方面称,尽管LLaMA-13B的尺寸较小,而且少了1620亿个参数,但“在大多数基准测试中”表现优于OpenAI的GPT-3。据报道,最大的模型LLaMA-65B与DeepMind的Chinchilla70B和PaLM-540B等模型可相提并论。LLaMA是一个基础模型:它在大量未标记数据上进行训练,这使得研究人员更容易针对特定任务微调模型。由于模型更小,因此更容易针对用例进行再训练。LLaMA不仅仅是使用英语文本构建的。Meta使用20种使用拉丁语或西里尔语脚本的语言训练其模型。然而,大多数训练数据都是英语,因此模型性能更好。Meta的研究人员声称,由于模型的大小,对当前大型语言模型的访问受到限制。Meta认为“这种受限访问限制了研究人员理解这些大型语言模型如何工作以及为何工作的能力,阻碍了提高其稳健性和解决已知问题(例如偏见、侮辱和产生错误信息的可能性)的努力”。除了使模型更小之外,Meta还试图让LLaMA更易于访问,包括在非商业许可下发布它。对各种LLaMA模型的访问权限只会根据具体情况授予学术研究人员,例如隶属于政府、民间组织和学术界的研究人员。与ChatGPT一样,LLaMA与其他语言模型一样存在生成有偏见或不准确的信息。Meta的LLaMA声明承认了这一点,并表示通过共享模型,研究人员可以“更轻松地测试新方法来限制或消除大型语言模型中的这些问题。”Meta在去年5月曾推出一款面向研究人员的名为OPT-175B的大型语言模型,去年年底还发布过另一款模型Galactica,但后者被发现经常分享有偏见或不准确的信息,在48小时内被迅速下架。...PC版:https://www.cnbeta.com.tw/articles/soft/1346899.htm手机版:https://m.cnbeta.com.tw/view/1346899.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人