对话杨植麟:Moonshot AI即将完成超10亿元融资,公司最终目标并非超越OpenAI

最近读到的LLM相关的文章,个人感觉质量最高的是这两篇:1.马丁:大模型赛道的技术和应用分析https://whjlnspmd6.feishu.cn/wiki/DBnWwik1piTB6Iki02CcXoVQn3S从技术测的预训练、Alignment(SFT/RLHF)、评测、MOE,到团队组织,到创业环境,再到应用层可能的机会(2C/2B),非常系统地给出了LLM现状的一个综述。尽管其中有不少都是opinions,但这些opinions是经过深度思考和前沿交流之后沉淀下来的,非常干,值得关注。对个人启发比较大的几个点:-目前制约大模型能力接近GPT4的主要因素不是knowhow(正在迅速贬值),而是如何在算力有限的情况下更快地试错。这样看来,随着中美算力的差距越来越大,模型能力的差距可能正在拉大而不是缩小。这可以通过即将发布的GoogleGemini能否大幅超越GPT4来验证。-在预训练中,大家过于关注算力,对数据规模、数据质量、数据管理、数据配比、数据清洗、scalingup(做小规模的精准验证)的关注不够。MOE尤其考验数据和Infra能力;-尚未证明RLHF一定比SFT更好,更难倒是真的;-9月是大模型创业公司下场的最后期限,之后就太晚了。投资人之后会更关注Infra和应用方向。好团队的标准:技术实力(工程能力而不是学术能力)+行业资源knowhow(+政府资源额外加分);-Infra层面上,未来需要一个足够强的未做过alignment的foundationmodel,在此基础上提供加训、自定义对齐、评测、部署等更加精细的服务,而不是像现在这样只是简单地调用各个大模型的API;-向量数据库解决的是匹配外部知识的问题,它既不是唯一解,也不是最优解,甚至不如一些传统的搜索和NLP算法。如果是引入外部知识,那么更好的方法是pretrain或continuedpretrain;-在国内,相对于2B,更看好2C,但character.ai之类的chatbot窗口期已过。2.对话杨植麟:MoonshotAI即将完成超10亿元融资,公司最终目标并非超越OpenAI

相关推荐

封面图片

昆仑万维:“天工 3.0” 超越 GPT4V 多项评测指标达到全球领先水平

昆仑万维:“天工3.0”超越GPT4V多项评测指标达到全球领先水平昆仑万维在互动平台表示,公司现已构建了自主可控的算力集群。目前公司已有算力预计能够满足未来1-2年除视频AIGC之外的大模型算力需求。2024年4月17日,公司正式将天工大模型迭代至3.0版本。“天工3.0”采用4,000亿参数MoE架构,是目前全球模型参数最大、性能最强的开源MoE模型之一。“天工3.0”在语义理解、逻辑推理等方面能力实现质的飞跃,其技术知识能力较上一代模型提升20%,数学、代码等能力提升超30%。同时,在MMBench等多项权威多模态测评结果中,“天工3.0”超越GPT4V,多项评测指标达到全球领先水平。

封面图片

OpenAI CEO:大语言模型规模已接近极限,并非越大越好

OpenAICEO:大语言模型规模已接近极限,并非越大越好OpenAI的联合创始人兼CEOSamAltman在麻省理工学院“想象力行动”活动上接受了采访,谈到了大语言模型(LLM)的发展趋势和安全问题。SamAltman认为,我们正在接近LLM规模的极限,规模越大并不一定意味着模型越好,而可能只是为了追求一个数字而已。LLM的规模不再是衡量模型质量的重要指标,未来将有更多的方式来提升模型的能力和效用。他将LLM的规模与过去芯片速度的竞赛进行了类比,指出今天我们更关注芯片能否完成任务,而不是它们有多快。他表示,OpenAI的目标是为世界提供最有能力、最有用、最安全的模型,而不是为了参数数量而自我陶醉。()频道:@TestFlightCN

封面图片

北大卢菁:

北大卢菁:1.训练起来大模型和训练出有通用能力的模型完全是两码事。目前国内大模型只能说训练起来了,但是远无技术壁垒,这是大厂本就应该具备的能力,并不值得骄傲。2.具备通用能力的大模型,入门参数量可能不是GPT3.5的175B,可能是GPT4的1.8T。而且这仅仅是必要条件,大规模的高质量语料也许才是现阶段除OpenAI以外其他企业真正的瓶颈所在。3.如果瓶颈真的在语料,我很悲观这会成为比芯片更大的壁垒。因为人类最高质量的语料是书籍和论文,而真正高质量的书籍和论文掌握在西方世界手里。4.现阶段,最关键的是把智能做上去。诸如长文本建模,性能优化,应用场景这些一点都不关键。至少对有出息企业来说是这样,如果只是想做做应用就另当别论了。5.拿Llama2Finetune刷榜意义不大,在特定数据集上刷得比GPT-4高并不能说明任何问题。国内厂商最搞笑的是把C-eval的数据丢进训练集里面,然后再在C-eval上刷榜,各种吊打GPT,这种行为跟芯片造假的性质差不多,让国人认不清差距,以为GPT-4根本没有什么壁垒,国内厂商已经很接近了。事实是,如果GPT4是100分的话,国产的大模型能拿个10分已经烧高香了。6.知识能力可能不是个事,GPT4除了四则运算会犯傻逼错误之外,很少犯傻逼错误。而且推理能力比其他模型要强太多太多,我想其中可能有特别的建模方式,不清楚是不是RLHF带来的收益。7.数学能力不是做算术,也不是做高考题。而是有数学直觉,推导,证明的能力。目前我只在GPT4上看到了拥有数学直觉,但证明的能力还很欠缺。8.流量不是大模型要考虑的事情,大模型要解决的是人类面临的难题,比如解决人类还没解决的科学问题去扩展人类的智能;帮助企业做商业计划优化市场经济;帮助社会建立更健全体系等等,达到千金一Token的效果。否则只是陪用户聊天,ROI很难做正。9.在国内做LLM其实竞争不大,因为大家做事都太急太糙,目前看来大家都没太大出息。预计两年内不会有太好的成果,而我也非常期待被打脸。10.两个东西需要重新思考:在过去做不Work的想法,也许在大模型下可以重新尝试,说不定就Work了;在小模型下做Work的想法,也许在一定规模之后就不再Work了。原因很简单,过去不Work的做法也许只是模型能力不够无法按照我们的预期去拟合;

封面图片

中信证券:建议未来两个季度内年重点配置高质量训练数据构建、多模态大模型研发、MoE 等新型架构创新、算力基础设施升级等领域的优质

中信证券:建议未来两个季度内年重点配置高质量训练数据构建、多模态大模型研发、MoE等新型架构创新、算力基础设施升级等领域的优质标的中信证券研报表示,Meta于北京时间2024年4月18日开源了最新的大语言模型LLaMA-3,提供了8B、70B和400B+三个版本的Dense模型。其中70B版本的性能已达GPT-3.5+水平,逼近GPT-4,而400B+版本有望进一步缩小与GPT-4的差距。LLaMA-3打破了业界对Chinchilla定律的认知,证实了通过持续喂入海量优质数据,即使是8B和70B的小模型也能获得超出预期的能力提升。这为通过小模型+大数据的模式在性能和效率间取得更好平衡提供了新思路。LLaMA-3创新性地使用LLaMA-2模型对训练数据进行质量把控,但代价在于更加高昂的成本。在明确增加训练数据量是提升性能的最好方法的前提下,合成数据或将成为高质量数据获取的主要途径,其发展情况将直接影响开源与闭源模型的差距。商业化方面,Meta已将LLaMA-3应用于全新AI助手,并将通过Facebook、Instagram等平台和AR眼镜推出服务。国内厂商可通过中文化微调迅速获得接近GPT-4水准的基础模型。综上,我们看好LLaMA-3引领的从应用层到算力层的认知智能变革,建议未来两个季度内年重点配置高质量训练数据构建、多模态大模型研发、MoE等新型架构创新、算力基础设施升级等领域的优质标的。

封面图片

OpenAI 发布 ChatGPT 企业级版本

OpenAI发布ChatGPT企业级版本随着越来越多的公司考虑使用该平台,但又担心隐私和安全问题,OpenAI最终发布了ChatGPT版本,承诺保护业务数据。OpenAI在博客文章中表示,ChatGPTEnterprise将提供更好的安全性和隐私保护,无限高速访问GPT-4,更强大的数据分析能力,使企业能够更快地理解信息,以及向ChatGPT提出更复杂问题的能力。隐私和安全一直是企业关注的问题,他们担心他们的数据可能被用来训练ChatGPT,并担心使用该工具可能会意外地将敏感客户信息暴露给AI模型。OpenAI对此表示,ChatGPTEnterprise的用户将对其数据拥有控制权和所有权,这些数据不会用于训练GPT。——、

封面图片

OpenAI CEO:巨型AI模型时代即将终结 想进步别再靠扩大规模

OpenAICEO:巨型AI模型时代即将终结想进步别再靠扩大规模近年来,OpenAI通过将现有的机器学习算法扩展到以前无法想象的规模,在处理语言方面取得了一系列令人印象深刻的进步。其最近开发的项目是GPT-4,据称已经使用数万亿字的文本和数千个强大的计算机芯片进行训练,耗资超过1亿美元。但是,奥尔特曼表示,未来AI的进步不再依赖于将模型变得更大。在麻省理工学院的一次活动上,他说:“我认为,我们正处在一个时代的尽头。在(即将过去的)这个时代,模型变得越来越大。现在,我们会在其他方面让它们变得更好。”奥尔特曼的表态意味着,开发和部署新AI算法的竞赛出现了出人意料的转折。自去年11月推出ChatGPT以来,微软就开始利用这一底层技术在其必应搜索引擎中添加了聊天机器人,谷歌也推出了名为Bard的竞争对手。许多人都迫不及待地尝试使用这种新型聊天机器人来帮助完成工作或个人任务。与此同时,许多资金充足的初创公司,包括Anthropic、AI21、Cohere和Character.AI等,正在投入大量资源用于构建更大的算法,以努力赶上OpenAI的脚步。ChatGPT的初始版本是基于GPT-3构建的,但用户现在也可以访问功能更强大的GPT-4支持的版本。奥尔特曼的陈述也暗示,采用将模型扩大并提供更多数据进行训练的策略后,GPT-4可能是OpenAI最后一项重大成果。不过,他没有透露任何可能替代当前方法的研究策略或技术。在描述GPT-4的论文中,OpenAI表示,其估计表明,扩大模型规模的回报正在减少。奥尔特曼说,该公司可以建立的数据中心数量以及建设这些中心的速度也都受到物理限制。Cohere的联合创始人尼克·弗罗斯特(NickFrosst)曾在谷歌从事人工智能研究,他表示,奥尔特曼所说的“不断扩大模型规模并不是无限制的有效解决方案”是正确的。他认为,针对GPT-4和其他transformers类型(编辑组:transformers直译为转换器,而GPT是Generativepre-trainedtransformers的简写,意思是基于转换器的生成式预训练模型)的机器学习模型,进展不再只是靠扩大规模。弗罗斯特补充说:“有很多方法可以让transformers变得更好、更有用,而且很多方法都不涉及给模型增加参数。新的人工智能模型设计或架构,以及基于人类反馈的进一步调整,都是许多研究人员已经在探索的前进方向。”在OpenAI的语言算法家族中,每个版本都由人工神经网络组成,这个软件的设计灵感来自于神经元之间相互作用的方式,经过训练后,它可以预测应该跟随在给定文本字符串后面的单词。2019年,OpenAI发布了其第一个语言模型GPT-2。它最多涉及到15亿个参数,这一指标能够衡量神经元之间可调整的连接数量的大小。这个数字非常大,这在某种程度上要归功于OpenAI研究人员的发现,扩大规模使模型变得更加连贯。2020年,OpenAI推出GPT-2的后继者GPT-3,该模型规模更大,参数高达1750亿个。GPT-3在生成诗歌、电子邮件和其他文本方面具备广泛能力,这令其他公司和研究机构相信,他们可以将自己的AI模型扩展到与GPT-3类似甚至更大的规模。去年11月,ChatGPT首次亮相后,表情包制造者和科技专家猜测,当GPT-4问世时,它将是个拥有更多参数、更为复杂的模型。然而,当OpenAI最终宣布新的人工智能模型时,该公司没有透露它有多大,也许是因为规模不再是唯一重要的因素。在麻省理工学院的活动上,奥尔特曼被问及GPT-4的培训成本是否有1亿美元,他回答说:“不止如此。”尽管OpenAI对GPT-4的规模和内部工作原理保密,但很可能它已经不再仅仅依赖于扩大规模来提高性能。有一种可能性是,该公司使用了名为“强化学习与人类反馈”的方法,用于增强ChatGPT的能力,包括让人类判断模型答案的质量,以引导它提供更有可能被判断为高质量的答案。GPT-4的非凡能力让许多专家感到震惊,并引发了关于AI改变经济潜力的辩论,以及其可能传播虚假信息和制造失业的担忧。许多企业家和AI专家最近签署了一封公开信,呼吁暂停开发比GPT-4更强大的模型6个月,其中包括特斯拉首席执行官埃隆·马斯克。在麻省理工学院的活动中,奥尔特曼证实,他的公司目前没有开发GPT-5。他补充说:“这封公开信的早期版本声称OpenAI正在训练GPT-5。实际上我们并没有这样做,短期内也不会。”(小小)...PC版:https://www.cnbeta.com.tw/articles/soft/1355341.htm手机版:https://m.cnbeta.com.tw/view/1355341.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人