Skip to content
Snippets Groups Projects
README.md 1.41 KiB
Newer Older
slx's avatar
slx committed
## vLlama
模仿ollama调度本地vllm模型,当openai接口请求发出后可自动使用vllm将模型加载到显卡中,空闲一定时间后自动卸载。

### 配置
`vllama/settings.py`中可调整模型配置路径、自动卸载等待时间、服务端口等设置。

slx's avatar
slx committed
模型配置可在`models/`或自定义模型配置目录中添加,每个模型单独一个配置文件,每个配置文件需至少包含`name``path`两个参数,Flag类型的参数放在`extra-args`下,示例:
slx's avatar
slx committed
```yaml
# qwen32b.yaml
name: qwen-32b #必须项
path: /home/slx/models/Qwen1.5-32B-Chat #必须项
slx's avatar
slx committed
description: Qwen1.5-32B-Chat, 32k context window #可选项

# 以下vllm启动项参数
slx's avatar
slx committed
tensor-parallel-size: 4
slx's avatar
slx committed
extra-args: #Flag类型的参数
slx's avatar
slx committed
  - enable-prefix-caching 
  - use-v2-block-manager
```

参数说明
- `name``vllama list`中显示的名字,也是openai接口中定义的模型名称
- `path`为模型的本地存放的路径
slx's avatar
slx committed
- `description`为模型的描述,可选
- 其他参数为vllm启动项参数,Flag类型的参数应放在`extra-args`
slx's avatar
slx committed

### 用法

主服务:开启后即可开始自动模型调度
```bash
slx's avatar
slx committed
vllama serve #启动主服务,其他操作需先开启主服务
slx's avatar
slx committed
```

查看可用模型:
```bash
vllama list
```

手动启动模型:
```bash
vllama run MODEL-NAME # MODEL-NAME 需包含在 vllama list 结果列表中
```

手动卸载模型:
```bash
slx's avatar
slx committed
vllama stop MODEL-NAME
slx's avatar
slx committed
```