:一个开源引擎,用于微调和提供大型语言模型的服务,是定制和提供LLM的最简单方式
:一个开源引擎,用于微调和提供大型语言模型的服务,是定制和提供LLM的最简单方式
主要特征
适用于你喜爱的模型的即用型 API:部署和服务开源基础模型 - 包括 LLaMA、MPT 和 Falcon。使用 Scale 托管模型或部署到您自己的基础设施。
微调基础模型:根据您自己的数据微调开源基础模型,以优化性能。
优化推理:LLM Engine 提供推理 API,用于流式响应和动态批处理输入,以实现更高的吞吐量和更低的延迟。
开源集成: 使用单个命令部署任何。
即将推出的功能
K8s 安装文档:我们正在努力记录您自己的基础设施上推理和微调功能的安装和维护。目前,我们的文档涵盖了使用我们的客户端库访问 Scale 的托管基础设施。
快速冷启动时间:为了防止 GPU 闲置,LLM Engine 在不使用模型时会自动将模型缩放为零,并在几秒钟内扩展,即使对于大型基础模型也是如此。
成本优化:部署人工智能模型比商业模型更便宜,包括冷启动和预热时间。