Llama2-webui:允许用户在任何地方(Linux/Windows/Mac)通过 gradio web UI 在 GPU
:允许用户在任何地方(Linux/Windows/Mac)通过gradiowebUI在GPU或CPU上运行Llama2。它支持Llama-2-7B/13B/70B,并且可以使用8-bit或4-bit模式。它支持至少有6GBVRAM的GPU推理,以及至少有6GBRAM的CPU推理。支持多种模型:Llama-2-7b/13b/70b,所有的Llama-2-GPTQ,所有的Llama-2-GGML等支持多种模型后端:NvidiaGPU(transformers,bitsandbytes(8-bit推理),AutoGPTQ(4-bit推理)),CPU,Mac/AMDGPU(llama.cpp)WebUI接口:gradio