前几天微软发了一篇挺重要的关于 LLM 的论文,但我看不太懂。
前几天微软发了一篇挺重要的关于LLM的论文,但我看不太懂。从社区讨论来看,这个研究可以大幅压缩模型体积,让120B大小的模型能在24G显存的设备上运行。再加上一些其他优化我们在消费级设备运行Llama70B也不是什么遥不可及的事情。论文简介:《1位大语言模型时代来临:一切大型语言模型均转向1.58位构架》一种1位的LLM变体,命名为BitNetb1.58。在这个模型里,大语言模型的每个参数(或权重)都是三元的{-1,0,1}。它在复杂度和实际应用性能方面与相同模型规模和训练数据的全精度(即FP16或BF16)Transformer大语言模型不相上下,但在延迟、内存、吞吐量和能源消耗方面更具成本效益。更为重要的是,1.58位LLM定义了新的扩展规律,并为训练新一代既高性能又高效的LLMs提供了方法。此外,它还开启了一个全新的计算范式,并为设计专门针对1位LLMs优化的硬件提供了可能性。论文: