Newer
Older
## vLlama
模仿ollama调度本地vllm模型,当openai接口请求发出后可自动使用vllm将模型加载到显卡中,空闲一定时间后自动卸载。
### 配置
在`vllama/settings.py`中可调整模型配置路径、自动卸载等待时间、服务端口等设置。
模型配置可在`models/`或自定义模型配置目录中添加,每个模型单独一个配置文件,每个配置文件需至少包含`name`和`path`两个参数,Flag类型的参数放在`extra-args`下,示例:
```yaml
# qwen32b.yaml
name: qwen-32b #必须项
path: /home/slx/models/Qwen1.5-32B-Chat #必须项
description: Qwen1.5-32B-Chat, 32k context window #可选项
# 以下vllm启动项参数
- enable-prefix-caching
- use-v2-block-manager
```
参数说明
- `name`为`vllama list`中显示的名字,也是openai接口中定义的模型名称
- `path`为模型的本地存放的路径
- `description`为模型的描述,可选
- 其他参数为vllm启动项参数,Flag类型的参数应放在`extra-args`下
```
查看可用模型:
```bash
vllama list
```
手动启动模型:
```bash
vllama run MODEL-NAME # MODEL-NAME 需包含在 vllama list 结果列表中
```
手动卸载模型:
```bash