中信证券：建议未来两个季度内年重点配置高质量训练数据构建、多模态大模型研发、MoE 等新型架构创新、算力基础设施升级等领域的优质

中信证券：建议未来两个季度内年重点配置高质量训练数据构建、多模态大模型研发、MoE等新型架构创新、算力基础设施升级等领域的优质标的中信证券研报表示，Meta于北京时间2024年4月18日开源了最新的大语言模型LLaMA-3，提供了8B、70B和400B+三个版本的Dense模型。其中70B版本的性能已达GPT-3.5+水平，逼近GPT-4，而400B+版本有望进一步缩小与GPT-4的差距。LLaMA-3打破了业界对Chinchilla定律的认知，证实了通过持续喂入海量优质数据，即使是8B和70B的小模型也能获得超出预期的能力提升。这为通过小模型+大数据的模式在性能和效率间取得更好平衡提供了新思路。LLaMA-3创新性地使用LLaMA-2模型对训练数据进行质量把控，但代价在于更加高昂的成本。在明确增加训练数据量是提升性能的最好方法的前提下，合成数据或将成为高质量数据获取的主要途径，其发展情况将直接影响开源与闭源模型的差距。商业化方面，Meta已将LLaMA-3应用于全新AI助手，并将通过Facebook、Instagram等平台和AR眼镜推出服务。国内厂商可通过中文化微调迅速获得接近GPT-4水准的基础模型。综上，我们看好LLaMA-3引领的从应用层到算力层的认知智能变革，建议未来两个季度内年重点配置高质量训练数据构建、多模态大模型研发、MoE等新型架构创新、算力基础设施升级等领域的优质标的。

在Telegram中查看

相关推荐

Meta发布LLAMA 3.1 405B开源AI模型，纸面数据超越GPT4o，但不如Claude3.5sonnet

Meta发布LLAMA3.1405B开源AI模型，纸面数据超越GPT4o，但不如Claude3.5sonnet支持多语言和工具调用，性能媲美GPT-4-模型能够识别图像和视频，并支持通过语音进行交互，但这些功能仍在开发中，尚未准备好发布。-训练数据高达15.6Ttokens，使用了超过16,000个H100GPU-405B模型能在单个服务器节点上运行-405B模型训练好后，继续用405B模型提升了8B和70B的质量，所以可以预见Llama3.1中8B和70B会有更好表现-大多数的监督微调（SFT）示例都是使用合成数据生成的关注频道@ZaiHuaPd投稿爆料@ZaiHuabot

北京：鼓励孵化器与人工智能基础设施、新型数据中心等新型基础设施联动

北京：鼓励孵化器与人工智能基础设施、新型数据中心等新型基础设施联动北京市政府印发《北京市关于推动科技企业孵化器创新发展的指导意见》。其中提到，支持孵化器紧扣产业需求，自建、共建专业技术服务平台，为科技企业提供技术开发、概念验证、小试中试、检验检测等服务，深度整合优质产业链、供应链资源。支持孵化器加强与技术转移机构、技术经理人团队合作，配备高水平的研发辅助团队和技术咨询专家，为创业企业提供研发生产系统解决方案、高可靠性集成设计、测试及交付实施等服务，增强成果转化落地服务能力。鼓励孵化器与人工智能基础设施、新型数据中心、共享开源平台等新型基础设施联动，为在孵企业及项目提供模型、算力、数据等资源。

帮开发者构建生成式 AI 应用，Meta 和微软合作推出开源模型 Llama 2

帮开发者构建生成式AI应用，Meta和微软合作推出开源模型Llama2Meta和微软近日合作推出Llama2，这是Meta公司的下一代开源大型语言模型，可以免费用于研究和商业用途。微软在新闻稿中表示，Llama2旨在帮助开发者和组织，构建生成式人工智能工具和体验。Azure客户可以在Azure平台上更轻松、更安全地微调和部署7B、13B和70B参数的Llama2模型，此外通过优化可以在Windows本地运行。Llama2模型与AzureAI的结合使开发人员能够利用AzureAI的强大工具进行模型训练、微调、推理，特别是支持AI安全的功能。微软表示在Windows中加入Llama2模型，有助于推动Windows成为开发人员根据客户需求构建人工智能体验的最佳场所，并释放他们使用WindowsSubsystemforLinux(WSL)、Windows终端、MicrosoftVisualStudio和VSCode等世界级工具进行构建的能力。——、、

Meta宣布推出Llama 2(羊驼2) 提供7B~70B模型开源免费可商用

Meta宣布推出Llama2(羊驼2)提供7B~70B模型开源免费可商用今天Meta发布Llama2也就是羊驼2模型，提供7B、13B和70B参数版本，该模型开源、免费、可商用，这也是为什么最近一段时间有大量新模型出现，对开源社区来说，只要有高质量模型被开源出来，那接下来就是社区成员登场，微调、优化、定制、整合，然后就可以生成更多模型了。羊驼2预训练模型接受了2万亿个tokens的训练，上下文长度是Llama1的两倍，是的其上下文长度从2048提升到了4096，其微调模型接受了超过100万个人类标注的训练。根据MetaAI研究团队的测试，羊驼2在不少测试中表现都比较优异(相对其他开源模型)，包括推理、编程、熟练程度和知识测试。(需要提供Email地址)来源，来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

GPT-4详细架构技术细节泄漏，训练一次要 6300 万美元

今天上午一篇关于GPT-4详细技术架构和训练过程的文章泄漏了，虽然没有提及信源在哪但看起来还是挺靠谱的，所以我翻译了一下。信息量非常大全文可以在这里看：https://mp.weixin.qq.com/s/E7uP48xfbZOtUk8GXZYbmQ有关GPT-4的信息包括模型架构、训练基础设施、推断基础设施、参数数量、训练数据集构成、标记数量、层次数量、并行策略、多模态视觉适应、工程权衡背后的思考过程、独特实施的技术以及解决与巨型模型推断相关的瓶颈的方法。此外，文章还介绍了在A100上训练和推断GPT-4的成本以及与H100上下一代模型架构的比例关系。

ExpertLLaMA:一个使用ExpertPrompting构建的开源聊天机器人，其能力达到ChatGPT的96%。

ExpertLLaMA:一个使用ExpertPrompting构建的开源聊天机器人，其能力达到ChatGPT的96%。ExpertLLaMA通过在普通指令中添加专家身份描述，产生高质量、详细的专家级回答。本项目提供了方法简介、52,000个专家数据集样本、52,000个基线数据集样本、52,000个对应每个具体指令的专家身份描述、基于专家数据集训练的ExpertLLaMA检查点以及与Vicuna、LLaMA-GPT4等现有模型的评估结果。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人