:允许用户在任何地方(Linux/Windows/Mac)通过 gradio web UI 在 GPU 或 CPU 上运行 Ll
:允许用户在任何地方(Linux/Windows/Mac)通过 gradio web UI 在 GPU 或 CPU 上运行 Llama 2。
它支持 Llama-2-7B/13B/70B,并且可以使用 8-bit 或 4-bit 模式。它支持至少有 6 GB VRAM 的 GPU 推理,以及至少有 6 GB RAM 的 CPU 推理。
支持多种模型:Llama-2-7b/13b/70b,所有的Llama-2-GPTQ,所有的Llama-2-GGML等
支持多种模型后端:Nvidia GPU(transformers,bitsandbytes(8-bit 推理),AutoGPTQ(4-bit 推理)),CPU,Mac/AMD GPU(llama.cpp)
Web UI接口:gradio