Meta 新语言模型能运行在单张显卡上
Meta新语言模型能运行在单张显卡上Meta上周宣布了一个新的大语言模型LLaMA-13B,称其参数规模更小但性能强于OpenAI的GPT-3模型,且它能运行在单张显卡上。语言模型的规模在从70亿到650亿参数,而OpenAIGPT-3模型有1750亿个参数。Meta使用CommonCrawl、维基百科和C4等公开数据集训练其模型,它有可能公开其源代码和权重。今天绝大部分最先进的语言模型都没有公开源代码。Meta称LLaMA为其基础模型,它将是未来该公司更先进模型的基础。它的LLaMA-13B模型在BoolQ、PIQA、SIQA、HellaSwag、WinoGrande、ARC和OpenBookQA等标准测试中的表现超过了GPT-3。GPT-3等衍生模型需要数据中心规模的计算能力进行处理,而LLaMA-13B能运行在单张显卡上,为在消费者硬件上实现类似ChatGPT的性能打开了大门。来源,来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot