中信证券:建议未来两个季度内年重点配置高质量训练数据构建、多模态大模型研发、MoE 等新型架构创新、算力基础设施升级等领域的优质

中信证券:建议未来两个季度内年重点配置高质量训练数据构建、多模态大模型研发、MoE等新型架构创新、算力基础设施升级等领域的优质标的中信证券研报表示,Meta于北京时间2024年4月18日开源了最新的大语言模型LLaMA-3,提供了8B、70B和400B+三个版本的Dense模型。其中70B版本的性能已达GPT-3.5+水平,逼近GPT-4,而400B+版本有望进一步缩小与GPT-4的差距。LLaMA-3打破了业界对Chinchilla定律的认知,证实了通过持续喂入海量优质数据,即使是8B和70B的小模型也能获得超出预期的能力提升。这为通过小模型+大数据的模式在性能和效率间取得更好平衡提供了新思路。LLaMA-3创新性地使用LLaMA-2模型对训练数据进行质量把控,但代价在于更加高昂的成本。在明确增加训练数据量是提升性能的最好方法的前提下,合成数据或将成为高质量数据获取的主要途径,其发展情况将直接影响开源与闭源模型的差距。商业化方面,Meta已将LLaMA-3应用于全新AI助手,并将通过Facebook、Instagram等平台和AR眼镜推出服务。国内厂商可通过中文化微调迅速获得接近GPT-4水准的基础模型。综上,我们看好LLaMA-3引领的从应用层到算力层的认知智能变革,建议未来两个季度内年重点配置高质量训练数据构建、多模态大模型研发、MoE等新型架构创新、算力基础设施升级等领域的优质标的。

相关推荐

封面图片

Meta发布LLAMA 3.1 405B开源AI模型,纸面数据超越GPT4o,但不如Claude3.5sonnet

Meta发布LLAMA3.1405B开源AI模型,纸面数据超越GPT4o,但不如Claude3.5sonnet支持多语言和工具调用,性能媲美GPT-4-模型能够识别图像和视频,并支持通过语音进行交互,但这些功能仍在开发中,尚未准备好发布。-训练数据高达15.6Ttokens,使用了超过16,000个H100GPU-405B模型能在单个服务器节点上运行-405B模型训练好后,继续用405B模型提升了8B和70B的质量,所以可以预见Llama3.1中8B和70B会有更好表现-大多数的监督微调(SFT)示例都是使用合成数据生成的关注频道@ZaiHuaPd投稿爆料@ZaiHuabot

封面图片

北京:鼓励孵化器与人工智能基础设施、新型数据中心等新型基础设施联动

北京:鼓励孵化器与人工智能基础设施、新型数据中心等新型基础设施联动北京市政府印发《北京市关于推动科技企业孵化器创新发展的指导意见》。其中提到,支持孵化器紧扣产业需求,自建、共建专业技术服务平台,为科技企业提供技术开发、概念验证、小试中试、检验检测等服务,深度整合优质产业链、供应链资源。支持孵化器加强与技术转移机构、技术经理人团队合作,配备高水平的研发辅助团队和技术咨询专家,为创业企业提供研发生产系统解决方案、高可靠性集成设计、测试及交付实施等服务,增强成果转化落地服务能力。鼓励孵化器与人工智能基础设施、新型数据中心、共享开源平台等新型基础设施联动,为在孵企业及项目提供模型、算力、数据等资源。

封面图片

帮开发者构建生成式 AI 应用,Meta 和微软合作推出开源模型 Llama 2

帮开发者构建生成式AI应用,Meta和微软合作推出开源模型Llama2Meta和微软近日合作推出Llama2,这是Meta公司的下一代开源大型语言模型,可以免费用于研究和商业用途。微软在新闻稿中表示,Llama2旨在帮助开发者和组织,构建生成式人工智能工具和体验。Azure客户可以在Azure平台上更轻松、更安全地微调和部署7B、13B和70B参数的Llama2模型,此外通过优化可以在Windows本地运行。Llama2模型与AzureAI的结合使开发人员能够利用AzureAI的强大工具进行模型训练、微调、推理,特别是支持AI安全的功能。微软表示在Windows中加入Llama2模型,有助于推动Windows成为开发人员根据客户需求构建人工智能体验的最佳场所,并释放他们使用WindowsSubsystemforLinux(WSL)、Windows终端、MicrosoftVisualStudio和VSCode等世界级工具进行构建的能力。——、、

封面图片

Meta宣布推出Llama 2(羊驼2) 提供7B~70B模型 开源免费可商用

Meta宣布推出Llama2(羊驼2)提供7B~70B模型开源免费可商用今天Meta发布Llama2也就是羊驼2模型,提供7B、13B和70B参数版本,该模型开源、免费、可商用,这也是为什么最近一段时间有大量新模型出现,对开源社区来说,只要有高质量模型被开源出来,那接下来就是社区成员登场,微调、优化、定制、整合,然后就可以生成更多模型了。羊驼2预训练模型接受了2万亿个tokens的训练,上下文长度是Llama1的两倍,是的其上下文长度从2048提升到了4096,其微调模型接受了超过100万个人类标注的训练。根据MetaAI研究团队的测试,羊驼2在不少测试中表现都比较优异(相对其他开源模型),包括推理、编程、熟练程度和知识测试。(需要提供Email地址)来源,来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

GPT-4详细架构技术细节泄漏,训练一次要 6300 万美元

今天上午一篇关于GPT-4详细技术架构和训练过程的文章泄漏了,虽然没有提及信源在哪但看起来还是挺靠谱的,所以我翻译了一下。信息量非常大全文可以在这里看:https://mp.weixin.qq.com/s/E7uP48xfbZOtUk8GXZYbmQ有关GPT-4的信息包括模型架构、训练基础设施、推断基础设施、参数数量、训练数据集构成、标记数量、层次数量、并行策略、多模态视觉适应、工程权衡背后的思考过程、独特实施的技术以及解决与巨型模型推断相关的瓶颈的方法。此外,文章还介绍了在A100上训练和推断GPT-4的成本以及与H100上下一代模型架构的比例关系。

封面图片

ExpertLLaMA:一个使用ExpertPrompting构建的开源聊天机器人,其能力达到ChatGPT的96%。

ExpertLLaMA:一个使用ExpertPrompting构建的开源聊天机器人,其能力达到ChatGPT的96%。ExpertLLaMA通过在普通指令中添加专家身份描述,产生高质量、详细的专家级回答。本项目提供了方法简介、52,000个专家数据集样本、52,000个基线数据集样本、52,000个对应每个具体指令的专家身份描述、基于专家数据集训练的ExpertLLaMA检查点以及与Vicuna、LLaMA-GPT4等现有模型的评估结果。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人