4)孩子还在成长中:目前提供的 PaLM 2 的多语言能力有限,且提供的 PaLM 2 的推理能力不尽如人意
4)孩子还在成长中:目前提供的 PaLM 2 的多语言能力有限,且提供的 PaLM 2 的推理能力不尽如人意
(团队还分别计算了所有模型在仅考虑英语对话和仅考虑非英语对话时的 Elo 分数,如图 3 所示。结果在非英语排行榜上,PaLM 2 排名第 16)
团队补充的观察
1)Small Moders更具有竞争力:团队观察到一些较小的模型,包括 vicuna-7B 和 mpt-7b-chat,在排行榜上取得了高分。与参数翻倍的较大模型相比,这些较小的模型表现优异。他们推测高质量的预训练和微调数据集比模型大小更为关键。
而对于更复杂的推理任务或智力问答上,较大的模型仍可能表现更好。因此,在预训练和微调阶段策划时,高质量数据集似乎是在保持模型质量高的同时减小模型大小的关键方法。