👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>
背景信息
DeepSeek-R1-Distill
模型名称 | 参数量级 |
DeepSeek-R1-Distill-Qwen-7B | 7B |
DeepSeek-R1-Distill-Qwen-32B | 32B |
DeepSeek-R1-Distill-Llama-70B | 70B |
软件要求
NVIDIA驱动:
运行环境:
操作步骤
步骤一:准备环境
创建GPU计算型实例。
配置项 | 推荐配置 |
基础配置 | |
计算规格 | ecs.gni2.7xlarge 说明
|
镜像 | Ubuntu 20.04 with GPU Driver 535.129.03 and mlx 5.8-3 说明
|
存储 |
说明 本文使用的DeepSeek-R1-Distill-Qwen-7B模型参数量为 7B,您可以根据实际部署的模型参数量级调整云盘容量。推荐配置如下:
|
网络配置 | |
公网IP | 勾选“分配弹性公网IP”。 |
安装依赖的软件、工具。
登录目标实例。
执行如下命令,安装、配置Docker。
sudo apt updatesudo apt install ca-certificates curl gnupg lsb-releasesudo mkdir -p /etc/apt/keyringscurl -fsSL https://mirrors.ivolces.com/docker/linux/ubuntu/gpg | sudo gpg --dearmor -o /etc/apt/keyrings/docker.gpgecho "deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.gpg] https://mirrors.ivolces.com/docker/linux/ubuntu $(lsb_release -cs) stable" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/nullsudo apt updatesudo apt install docker-ce docker-ce-cli containerd.io docker-compose-plugin -y
执行如下命令,安装NVIDIA Container Toolkit。
curl -s https://mirrors.ivolces.com/nvidia_all/ubuntu2204/x86_64/3bf863cc.pub | sudo apt-key add -cat <<EOF >/etc/apt/sources.list.d/nvidia.listdeb http://mirrors.ivolces.com/nvidia_all/ubuntu2204/x86_64/ /EOFapt updateapt install nvidia-container-toolkit -y
执行如下命令配置Docker,使容器可以使用实例的GPU资源。
sudo nvidia-ctk runtime configure --runtime=dockersudo systemctl restart docker
步骤二:部署、运行模型
登录目标实例。
请根据实例所在地域,执行如下命令,启动Docker容器和模型服务。
华北2(北京)
docker run -d --network host --privileged --gpus=all --name=vllm_qwen7B --ipc=host -v /data00/models:/data00/models -v /var/run/nvidia-topologyd/:/var/run/nvidia-topologyd/ -e MODEL_PATH=/data00/models -e PORT=6001 -e MODEL_NAME=DeepSeek-R1-Distill-Qwen-7B -e VLLM_FLASH_ATTN_VERSION=2 -e TP=1 ai-containers-cn-beijing.cr.volces.com/deeplearning/vllm:0.7.1.v1.iaas
华东2(上海)
docker run -d --network host --privileged --gpus=all --name=vllm_qwen7B --ipc=host -v /data00/models:/data00/models -v /var/run/nvidia-topologyd/:/var/run/nvidia-topologyd/ -e MODEL_PATH=/data00/models -e PORT=6001 -e MODEL_NAME=DeepSeek-R1-Distill-Qwen-7B -e VLLM_FLASH_ATTN_VERSION=2 -e TP=1 ai-containers-cn-shanghai.cr.volces.com/deeplearning/vllm:0.7.1.v1.iaas
环境变量 | 说明 | 取值样例 |
MODEL_PATH | 容器内模型存储路径,默认值 /data/models。 | /data00/models |
MODEL_NAME | 部署的模型名称。取值:
| DeepSeek-R1-Distill-Qwen-7B |
VLLM_FLASH_ATTN_VERSION | 指定支持的Flash Attention版本。取值:
注意 若您的实例使用NVIDIA Hopper™架构的GPU显卡,建议您选择版本3;否则,请选择版本2 。 | 2 |
MODEL_LENGTH | 模型的最大长度(Token数),默认值 8192。 说明 不同参数规模的模型,最大长度支持的上限为:
| 8192 |
TP | Tensor Parallelism 并行度,默认值 4。 | 1 |
PORT | 服务监听的端口号,默认值 6001。 | 6001 |
CMD_ARGS | 指定vLLM启动的额外参数。格式为 -e CMD_ARGS="<参数 参数值>"。例如: 添加--gpu-memory-utilization与--enforce-eager两个参数时,可追加参数:-e CMD_ARGS="--gpu-memory-utilization 0.95 --enforce-eager" | "--gpu-memory-utilization 0.95" |
通过命令启动容器时,会自动拉取推理引擎镜像和权重文件,由于模型文件较大,安装过程相对耗时,请耐心等待。
若您需要自行下载推理引擎与模型文件,参考附录进行下载。
执行如下命令,通过Docker日志确认容器及模型是否成功启动。
查看容器ID。
docker ps
查看对应容器的运行日志。
docker logs --since 30m <CONTAINER_ID>
步骤三:调用模型
登录目标实例。
执行如下命令调用模型,确保部署的模型可以正常进行推理。
curl -X POST http://0.0.0.0:6001/v1/chat/completions -H "Content-Type: application/json" -d '{"model": "/data00/models/DeepSeek-R1-Distill-Qwen-7B","messages": [{"role": "user","content": "请证明一下黎曼猜想"}],"stream": true,"max_tokens": 100,"temperature": 0.7}'
参数名 | 说明 | 取值样例 |
model | 使用的模型。 | /data00/models/DeepSeek-R1-Distill-Qwen-7B |
messages | 对话的消息列表。
| - |
stream | 是否以 SSE(server-sent events)的形式以流式发送消息增量。取值:
| true |
max_tokens | 指定一次请求中模型生成Completion的最大Token数。取值:
| 100 |
temperature | 采样温度,值越高(例如1)会使输出更随机,而值越低(例如0.2)会使其更加集中和确定。取值:介于 0 和 2 之间。 | 0.7 |
附录
您可自行下载火山引擎缓存的推理引擎及模型文件,或前往DeepSeek官网下载相应内容。
资源 | 地域 | 下载方式 | |
推理引擎 | 华北2(北京) | docker pull ai-containers-cn-beijing.cr.volces.com/deeplearning/vllm:0.7.1.v1.iaas | |
华东2(上海) | docker pull ai-containers-cn-shanghai.cr.volces.com/deeplearning/vllm:0.7.1.v1.iaas | ||
模型文件 说明
| DeepSeek-R1-Distill-Qwen-7B | 华北2(北京) | ./tosutil cp tos://iaas-public-model-cn-beijing/models/DeepSeek-R1-Distill-Qwen-7B/ /root -r |
华东2(上海) | ./tosutil cp tos://iaas-public-model-cn-shanghai/models/DeepSeek-R1-Distill-Qwen-7B/ /root -r | ||
DeepSeek-R1-Distill-Qwen-32B | 华北2(北京) | ./tosutil cp tos://iaas-public-model-cn-beijing/models/DeepSeek-R1-Distill-Qwen-32B/ /root -r | |
华东2(上海) | ./tosutil cp tos://iaas-public-model-cn-shanghai/models/DeepSeek-R1-Distill-Qwen-32B/ /root -r |