README.md

## vLlama
模仿ollama调度本地vllm模型，当openai接口请求发出后可自动使用vllm将模型加载到显卡中，空闲一定时间后自动卸载。

### 配置
在`vllama/settings.py`中可调整模型配置路径、自动卸载等待时间、服务端口等设置。

模型配置可在`models/`或自定义模型配置目录中添加，每个模型单独一个配置文件，每个配置文件需至少包含`name`和`path`两个参数，Flag类型的参数放在`extra-args`下，示例：
```yaml
# qwen32b.yaml
name: qwen-32b #必须项
path: /home/slx/models/Qwen1.5-32B-Chat #必须项
description: Qwen1.5-32B-Chat, 32k context window #可选项

# 以下vllm启动项参数
tensor-parallel-size: 4
extra-args: #Flag类型的参数
  - enable-prefix-caching 
  - use-v2-block-manager
```

参数说明
- `name`为`vllama list`中显示的名字，也是openai接口中定义的模型名称
- `path`为模型的本地存放的路径
- `description`为模型的描述，可选
- 其他参数为vllm启动项参数,Flag类型的参数应放在`extra-args`下

### 用法

主服务：开启后即可开始自动模型调度
```bash
vllama serve #启动主服务，其他操作需先开启主服务
```

查看可用模型：
```bash
vllama list
```

手动启动模型：
```bash
vllama run MODEL-NAME # MODEL-NAME 需包含在 vllama list 结果列表中
```

手动卸载模型：
```bash
vllama stop MODEL-NAME
```