火山引擎GPU云服务器指南--部署DeepSeek-R1-Distill模型

axin 2025-04-22 共158人围观，发现0个评论显卡服务器租用 GPU服务器租用远程电脑租用独立显卡服务器 GPU云服务器租用火山引擎GPU云服务器 GPU云服务器教程

本文以搭载了一张A10显卡的ecs.gni2.7xlarge实例为例，介绍如何在GPU云服务器上部署、运行不同参数量级的DeepSeek-R1-Distill模型。

背景信息

DeepSeek-R1-Distill

DeepSeek-R1-Distill是一个基于DeepSeek-R1生成的800K个样本，对原开源模型进行微调得到的新模型，旨在以更小参数规模保留DeepSeek-R1发现的强大推理模型。您可以根据本文指引，按需部署不同参数量级的模型。

模型名称
参数量级
DeepSeek-R1-Distill-Qwen-7B
7B
DeepSeek-R1-Distill-Qwen-32B
32B
DeepSeek-R1-Distill-Llama-70B
70B

软件要求

NVIDIA驱动：

GPU驱动：用来驱动NVIDIA GPU的程序，本文以535.161.08为例。

运行环境：

vLLM：vLLM是一个有助于更高效的完成大语言模型推理的开源库，本文以其v0.7.1版本为例。

操作步骤

步骤一：准备环境

创建GPU计算型实例。

请根据通过向导购买实例指引，创建一台符合如下条件的实例：

配置项	推荐配置
基础配置
计算规格	ecs.gni2.7xlarge 说明若您期望部署不同参数规模的DeepSeek-R1-Distill模型，可参考如下推荐选用实例： DeepSeek-R1-Distill-Qwen-7B：推荐选用ecs.gni3cg.5xlarge、ecs.gni3cl.5xlarge、ecs.gni2.7xlarge规格。 DeepSeek-R1-Distill-Qwen-32B：推荐选用ecs.gni3cg.22xlarge、ecs.gni3cl.22xlarge规格。 DeepSeek-R1-Distill-Llama-70B：推荐选用ecs.pni3l.22xlarge规格。 ecs.gni3cg、ecs.gni3cl、ecs.pni3l规格实例正在邀测中，如需试用，请提交工单或联系客户经理申请。
镜像	Ubuntu 20.04 with GPU Driver 535.129.03 and mlx 5.8-3 说明推荐您根据实例规格，选用如下公共镜像： ecs.gni2、ecs.gni3cg、ecs.gni3cl：推荐使用Ubuntu 20.04 with GPU Driver 535.129.03 and mlx 5.8-3镜像。 ecs.pni3l：推荐使用Ubuntu 22.04 with GPU Driver 535.161.08 and doca镜像。若您选用其他发行版本的镜像，需在创建实例后自行安装GPU驱动。
存储	规格：吞吐型SSD TL0云盘容量：不低于 100 GiB 说明本文使用的DeepSeek-R1-Distill-Qwen-7B模型参数量为 7B，您可以根据实际部署的模型参数量级调整云盘容量。推荐配置如下： DeepSeek-R1-Distill-Qwen-32B：不低于 200 GiB DeepSeek-R1-Distill-Llama-70B：不低于 500 GiB
网络配置
公网IP	勾选“分配弹性公网IP”。

安装依赖的软件、工具。

登录目标实例。

执行如下命令，安装、配置Docker。

sudo apt updatesudo apt install ca-certificates curl gnupg lsb-releasesudo mkdir -p /etc/apt/keyringscurl -fsSL https://mirrors.ivolces.com/docker/linux/ubuntu/gpg | sudo gpg --dearmor -o /etc/apt/keyrings/docker.gpgecho "deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.gpg] https://mirrors.ivolces.com/docker/linux/ubuntu $(lsb_release -cs) stable" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/nullsudo apt updatesudo apt install docker-ce docker-ce-cli containerd.io docker-compose-plugin -y

执行如下命令，安装NVIDIA Container Toolkit。

curl -s https://mirrors.ivolces.com/nvidia_all/ubuntu2204/x86_64/3bf863cc.pub | sudo apt-key add -cat <<EOF >/etc/apt/sources.list.d/nvidia.listdeb http://mirrors.ivolces.com/nvidia_all/ubuntu2204/x86_64/ /EOFapt updateapt install nvidia-container-toolkit -y

执行如下命令配置Docker，使容器可以使用实例的GPU资源。

sudo nvidia-ctk runtime configure --runtime=dockersudo systemctl restart docker

步骤二：部署、运行模型

登录目标实例。

请根据实例所在地域，执行如下命令，启动Docker容器和模型服务。

华北2(北京)

docker run -d --network host --privileged --gpus=all --name=vllm_qwen7B --ipc=host  -v /data00/models:/data00/models  -v /var/run/nvidia-topologyd/:/var/run/nvidia-topologyd/ -e MODEL_PATH=/data00/models  -e PORT=6001 -e MODEL_NAME=DeepSeek-R1-Distill-Qwen-7B -e VLLM_FLASH_ATTN_VERSION=2 -e TP=1 ai-containers-cn-beijing.cr.volces.com/deeplearning/vllm:0.7.1.v1.iaas

华东2(上海)

docker run -d --network host --privileged --gpus=all --name=vllm_qwen7B --ipc=host  -v /data00/models:/data00/models  -v /var/run/nvidia-topologyd/:/var/run/nvidia-topologyd/ -e MODEL_PATH=/data00/models  -e PORT=6001 -e MODEL_NAME=DeepSeek-R1-Distill-Qwen-7B -e VLLM_FLASH_ATTN_VERSION=2 -e TP=1 ai-containers-cn-shanghai.cr.volces.com/deeplearning/vllm:0.7.1.v1.iaas

参数说明：

如上命令以部署、启动DeepSeek-R1-Distill-Qwen-7B模型为例，如需部署、启动其他模型，可根据如下说明替换对应环境变量的参数值。

环境变量	说明	取值样例
MODEL_PATH	容器内模型存储路径，默认值 /data/models。	/data00/models
MODEL_NAME	部署的模型名称。取值： DeepSeek-R1-Distill-Qwen-7B：部署DeepSeek-R1-Distill-Qwen-7B模型。 DeepSeek-R1-Distill-Qwen-32B：默认值，部署DeepSeek-R1-Distill-Qwen-32B模型。 DeepSeek-R1-Distill-Llama-70B：部署DeepSeek-R1-Distill-Llama-70B模型。	DeepSeek-R1-Distill-Qwen-7B
VLLM_FLASH_ATTN_VERSION	指定支持的Flash Attention版本。取值： 2：选择版本2。 3：选择版本3。注意若您的实例使用NVIDIA Hopper™架构的GPU显卡，建议您选择版本3；否则，请选择版本2 。	2
MODEL_LENGTH	模型的最大长度（Token数），默认值 8192。说明不同参数规模的模型，最大长度支持的上限为： DeepSeek-R1-Distill-Qwen-7B：8192 DeepSeek-R1-Distill-Qwen-32B：131072 DeepSeek-R1-Distill-Llama-70B：131072	8192
TP	Tensor Parallelism 并行度，默认值 4。	1
PORT	服务监听的端口号，默认值 6001。	6001
CMD_ARGS	指定vLLM启动的额外参数。格式为 -e CMD_ARGS="<参数参数值>"。例如：添加--gpu-memory-utilization与--enforce-eager两个参数时，可追加参数：-e CMD_ARGS="--gpu-memory-utilization 0.95 --enforce-eager"	"--gpu-memory-utilization 0.95"

说明

通过命令启动容器时，会自动拉取推理引擎镜像和权重文件，由于模型文件较大，安装过程相对耗时，请耐心等待。

若您需要自行下载推理引擎与模型文件，参考附录进行下载。

执行如下命令，通过Docker日志确认容器及模型是否成功启动。

查看容器ID。

docker ps

查看对应容器的运行日志。

docker logs --since 30m <CONTAINER_ID>

说明

请将<CONTAINER_ID>替换为实际容器ID。

步骤三：调用模型

登录目标实例。

执行如下命令调用模型，确保部署的模型可以正常进行推理。

curl -X POST http://0.0.0.0:6001/v1/chat/completions -H "Content-Type: application/json" -d '{"model": "/data00/models/DeepSeek-R1-Distill-Qwen-7B","messages": [{"role": "user","content": "请证明一下黎曼猜想"}],"stream": true,"max_tokens": 100,"temperature": 0.7}'

参数说明：

本文仅说明验证使用到的参数信息，更多参数详情可查看DeepSeek API文档。

参数名	说明	取值样例
model	使用的模型。	/data00/models/DeepSeek-R1-Distill-Qwen-7B
messages	对话的消息列表。 role：该消息的发起角色。 content：消息的内容。	-
stream	是否以 SSE（server-sent events）的形式以流式发送消息增量。取值： true：以SSE（server-sent events）的形式以流式发送消息增量。 false：不以SSE（server-sent events）的形式以流式发送消息增量。	true
max_tokens	指定一次请求中模型生成Completion的最大Token数。取值：介于1 到 8192 间的整数。默认值为 4096。	100
temperature	采样温度，值越高（例如1）会使输出更随机，而值越低（例如0.2）会使其更加集中和确定。取值：介于 0 和 2 之间。	0.7

附录

您可自行下载火山引擎缓存的推理引擎及模型文件，或前往DeepSeek官网下载相应内容。

资源		地域	下载方式
推理引擎		华北2（北京）	docker pull ai-containers-cn-beijing.cr.volces.com/deeplearning/vllm:0.7.1.v1.iaas
推理引擎		华东2（上海）	docker pull ai-containers-cn-shanghai.cr.volces.com/deeplearning/vllm:0.7.1.v1.iaas
模型文件说明请使用tosutil下载模型文件。请在tosutil所在目录中执行下载命令，建议将/root替换为实际存放模型文件路径。	DeepSeek-R1-Distill-Qwen-7B	华北2（北京）	./tosutil cp tos://iaas-public-model-cn-beijing/models/DeepSeek-R1-Distill-Qwen-7B/ /root -r
	DeepSeek-R1-Distill-Qwen-7B	华东2（上海）	./tosutil cp tos://iaas-public-model-cn-shanghai/models/DeepSeek-R1-Distill-Qwen-7B/ /root -r
	DeepSeek-R1-Distill-Qwen-32B	华北2（北京）	./tosutil cp tos://iaas-public-model-cn-beijing/models/DeepSeek-R1-Distill-Qwen-32B/ /root -r
	DeepSeek-R1-Distill-Qwen-32B	华东2（上海）	./tosutil cp tos://iaas-public-model-cn-shanghai/models/DeepSeek-R1-Distill-Qwen-32B/ /root -r

上一篇：火山引擎GPU云服务器指南-GPU-部署DeepSeek-R1/V3模型下一篇：火山引擎GPU云服务器指南--部署Baichuan大语言模型

火山引擎GPU云服务器指南--部署DeepSeek-R1-Distill模型

背景信息

DeepSeek-R1-Distill

软件要求

操作步骤

步骤一：准备环境

步骤二：部署、运行模型

步骤三：调用模型

附录

最近文章

在线表单 / 问卷系统部署，2 核 4G10M 云服务器稳定收集数据

2 核 4G10M 云服务器支持 SSL 证书安装，实现网站 HTTPS 加密

初创团队技术选型：2 核 4G10M 云服务器降低 IT 投入成本

个人网站云服务器租用百问-是否支持裸金属服务器？适合什么场景？

购买了火山引擎云服务器按量计费怎么转包年包月？

淘宝京东抖店亚马逊tiktok网店群运营指南-云服务器搭建VPN隔离IP

医院HIS系统财务模块在云服务器上如何满足等保三级？

关于我们

广告服务

关注我们

赞助商

模型名称	参数量级
DeepSeek-R1-Distill-Qwen-7B	7B
DeepSeek-R1-Distill-Qwen-32B	32B
DeepSeek-R1-Distill-Llama-70B	70B

火山引擎GPU云服务器指南--部署DeepSeek-R1-Distill模型

背景信息

DeepSeek-R1-Distill

软件要求

操作步骤

步骤一：准备环境

步骤二：部署、运行模型

步骤三：调用模型

附录

最近文章

在线表单 / 问卷系统部署，2 核 4G10M 云服务器稳定收集数据

2 核 4G10M 云服务器支持 SSL 证书安装，实现网站 HTTPS 加密​

初创团队技术选型：2 核 4G10M 云服务器降低 IT 投入成本​

个人网站云服务器租用百问-是否支持裸金属服务器？适合什么场景？

购买了火山引擎云服务器按量计费怎么转包年包月？

淘宝京东抖店亚马逊tiktok网店群运营指南-云服务器搭建VPN隔离IP

医院HIS系统财务模块在云服务器上如何满足等保三级？

关于我们

广告服务

关注我们

赞助商

2 核 4G10M 云服务器支持 SSL 证书安装，实现网站 HTTPS 加密

初创团队技术选型：2 核 4G10M 云服务器降低 IT 投入成本