Newer
Older
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
## vLlama
模仿ollama调度本地vllm模型,当openai接口请求发出后可自动使用vllm将模型加载到显卡中,空闲一定时间后自动卸载。
### 配置
在`vllama/settings.py`中可调整模型配置路径、自动卸载等待时间、服务端口等设置。
模型配置可在`models/`或自定义模型配置目录中添加,每个模型单独一个文件,每个文件需至少包含`name`和`path`两个参数,Flag类型的参数放在`extra-args`下,示例:
```yaml
# qwen32b.yaml
name: qwen-32b #必须项
path: /home/slx/models/Qwen1.5-32B-Chat #必须项
tensor-parallel-size: 4
extra-args: #额外参数
- enable-prefix-caching
- use-v2-block-manager
```
参数说明
- `name`为`vllama list`中显示的名字,也是openai接口中定义的模型名称
- `path`为模型的本地存放的路径
- 其他参数为vllm启动项参数
### 用法
主服务:开启后即可开始自动模型调度
```bash
vllama serve #启动主服务,使用其他操作需先开启主服务
```
查看可用模型:
```bash
vllama list
```
手动启动模型:
```bash
vllama run MODEL-NAME # MODEL-NAME 需包含在 vllama list 结果列表中
```
手动卸载模型:
```bash
vllama run MODEL-NAME
```