Meta称其LLaMA语言模型比OpenAI的GPT-3更有前景
Meta称其LLaMA语言模型比OpenAI的GPT-3更有前景LLaMA有多种尺寸,从70亿个参数到650亿个参数不等。Meta方面称,尽管LLaMA-13B的尺寸较小,而且少了1620亿个参数,但“在大多数基准测试中”表现优于OpenAI的GPT-3。据报道,最大的模型LLaMA-65B与DeepMind的Chinchilla70B和PaLM-540B等模型可相提并论。LLaMA是一个基础模型:它在大量未标记数据上进行训练,这使得研究人员更容易针对特定任务微调模型。由于模型更小,因此更容易针对用例进行再训练。LLaMA不仅仅是使用英语文本构建的。Meta使用20种使用拉丁语或西里尔语脚本的语言训练其模型。然而,大多数训练数据都是英语,因此模型性能更好。Meta的研究人员声称,由于模型的大小,对当前大型语言模型的访问受到限制。Meta认为“这种受限访问限制了研究人员理解这些大型语言模型如何工作以及为何工作的能力,阻碍了提高其稳健性和解决已知问题(例如偏见、侮辱和产生错误信息的可能性)的努力”。除了使模型更小之外,Meta还试图让LLaMA更易于访问,包括在非商业许可下发布它。对各种LLaMA模型的访问权限只会根据具体情况授予学术研究人员,例如隶属于政府、民间组织和学术界的研究人员。与ChatGPT一样,LLaMA与其他语言模型一样存在生成有偏见或不准确的信息。Meta的LLaMA声明承认了这一点,并表示通过共享模型,研究人员可以“更轻松地测试新方法来限制或消除大型语言模型中的这些问题。”Meta在去年5月曾推出一款面向研究人员的名为OPT-175B的大型语言模型,去年年底还发布过另一款模型Galactica,但后者被发现经常分享有偏见或不准确的信息,在48小时内被迅速下架。...PC版:https://www.cnbeta.com.tw/articles/soft/1346899.htm手机版:https://m.cnbeta.com.tw/view/1346899.htm