火山引擎GPU云服务器指南--部署DeepSeek-R1-Distill模型

axin 2025-04-22 13人围观 ,发现0个评论 显卡服务器租用GPU服务器租用远程电脑租用独立显卡服务器GPU云服务器租用火山引擎GPU云服务器GPU云服务器教程

👉点击这里申请火山引擎VIP帐号,立即体验火山引擎产品>>>

本文以搭载了一张A10显卡的ecs.gni2.7xlarge实例为例,介绍如何在GPU云服务器上部署、运行不同参数量级的DeepSeek-R1-Distill模型。

背景信息

DeepSeek-R1-Distill

DeepSeek-R1-Distill是一个基于DeepSeek-R1生成的800K个样本,对原开源模型进行微调得到的新模型,旨在以更小参数规模保留DeepSeek-R1发现的强大推理模型。您可以根据本文指引,按需部署不同参数量级的模型。
模型名称
参数量级
DeepSeek-R1-Distill-Qwen-7B
7B
DeepSeek-R1-Distill-Qwen-32B
32B
DeepSeek-R1-Distill-Llama-70B
70B

软件要求

  • NVIDIA驱动:

GPU驱动:用来驱动NVIDIA GPU的程序,本文以535.161.08为例。
  • 运行环境:

vLLM:vLLM是一个有助于更高效的完成大语言模型推理的开源库,本文以其v0.7.1版本为例。

操作步骤

步骤一:准备环境

  1. 创建GPU计算型实例。

请根据通过向导购买实例指引,创建一台符合如下条件的实例:
配置项
推荐配置
基础配置
计算规格
ecs.gni2.7xlarge
说明
  • 若您期望部署不同参数规模的DeepSeek-R1-Distill模型,可参考如下推荐选用实例:

    • DeepSeek-R1-Distill-Qwen-7B:推荐选用ecs.gni3cg.5xlarge、ecs.gni3cl.5xlarge、ecs.gni2.7xlarge规格。

    • DeepSeek-R1-Distill-Qwen-32B:推荐选用ecs.gni3cg.22xlarge、ecs.gni3cl.22xlarge规格。

    • DeepSeek-R1-Distill-Llama-70B:推荐选用ecs.pni3l.22xlarge规格。

  • ecs.gni3cg、ecs.gni3cl、ecs.pni3l规格实例正在邀测中,如需试用,请提交工单或联系客户经理申请。

镜像
Ubuntu 20.04 with GPU Driver 535.129.03 and mlx 5.8-3
说明
  • 推荐您根据实例规格,选用如下公共镜像:

    • ecs.gni2、ecs.gni3cg、ecs.gni3cl:推荐使用Ubuntu 20.04 with GPU Driver 535.129.03 and mlx 5.8-3镜像。

    • ecs.pni3l:推荐使用Ubuntu 22.04 with GPU Driver 535.161.08 and doca镜像。

  • 若您选用其他发行版本的镜像,需在创建实例后自行安装GPU驱动。

存储
  • 规格:吞吐型SSD TL0云盘

  • 容量:不低于 100 GiB

说明
本文使用的DeepSeek-R1-Distill-Qwen-7B模型参数量为 7B,您可以根据实际部署的模型参数量级调整云盘容量。推荐配置如下:
  • DeepSeek-R1-Distill-Qwen-32B:不低于 200 GiB

  • DeepSeek-R1-Distill-Llama-70B:不低于 500 GiB

网络配置
公网IP
勾选“分配弹性公网IP”。
  1. 安装依赖的软件、工具。

    1. 登录目标实例。

    1. 执行如下命令,安装、配置Docker。

sudo apt updatesudo apt install ca-certificates curl gnupg lsb-releasesudo mkdir -p /etc/apt/keyringscurl -fsSL https://mirrors.ivolces.com/docker/linux/ubuntu/gpg | sudo gpg --dearmor -o /etc/apt/keyrings/docker.gpgecho "deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.gpg] https://mirrors.ivolces.com/docker/linux/ubuntu $(lsb_release -cs) stable" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/nullsudo apt updatesudo apt install docker-ce docker-ce-cli containerd.io docker-compose-plugin -y
    1. 执行如下命令,安装NVIDIA Container Toolkit。

curl -s https://mirrors.ivolces.com/nvidia_all/ubuntu2204/x86_64/3bf863cc.pub | sudo apt-key add -cat <<EOF >/etc/apt/sources.list.d/nvidia.listdeb http://mirrors.ivolces.com/nvidia_all/ubuntu2204/x86_64/ /EOFapt updateapt install nvidia-container-toolkit -y
    1. 执行如下命令配置Docker,使容器可以使用实例的GPU资源。

sudo nvidia-ctk runtime configure --runtime=dockersudo systemctl restart docker

步骤二:部署、运行模型

  1. 登录目标实例。

  1. 请根据实例所在地域,执行如下命令,启动Docker容器和模型服务。

华北2(北京)

docker run -d --network host --privileged --gpus=all --name=vllm_qwen7B --ipc=host  -v /data00/models:/data00/models  -v /var/run/nvidia-topologyd/:/var/run/nvidia-topologyd/ -e MODEL_PATH=/data00/models  -e PORT=6001 -e MODEL_NAME=DeepSeek-R1-Distill-Qwen-7B -e VLLM_FLASH_ATTN_VERSION=2 -e TP=1 ai-containers-cn-beijing.cr.volces.com/deeplearning/vllm:0.7.1.v1.iaas

华东2(上海)

docker run -d --network host --privileged --gpus=all --name=vllm_qwen7B --ipc=host  -v /data00/models:/data00/models  -v /var/run/nvidia-topologyd/:/var/run/nvidia-topologyd/ -e MODEL_PATH=/data00/models  -e PORT=6001 -e MODEL_NAME=DeepSeek-R1-Distill-Qwen-7B -e VLLM_FLASH_ATTN_VERSION=2 -e TP=1 ai-containers-cn-shanghai.cr.volces.com/deeplearning/vllm:0.7.1.v1.iaas
参数说明:
如上命令以部署、启动DeepSeek-R1-Distill-Qwen-7B模型为例,如需部署、启动其他模型,可根据如下说明替换对应环境变量的参数值。
环境变量
说明
取值样例
MODEL_PATH
容器内模型存储路径,默认值 /data/models。
/data00/models
MODEL_NAME
部署的模型名称。取值:
  • DeepSeek-R1-Distill-Qwen-7B:部署DeepSeek-R1-Distill-Qwen-7B模型。

  • DeepSeek-R1-Distill-Qwen-32B:默认值,部署DeepSeek-R1-Distill-Qwen-32B模型。

  • DeepSeek-R1-Distill-Llama-70B:部署DeepSeek-R1-Distill-Llama-70B模型。

DeepSeek-R1-Distill-Qwen-7B
VLLM_FLASH_ATTN_VERSION
指定支持的Flash Attention版本。取值:
  • 2:选择版本2。

  • 3:选择版本3。

注意
若您的实例使用NVIDIA Hopper™架构的GPU显卡,建议您选择版本3;否则,请选择版本2 。
2
MODEL_LENGTH
模型的最大长度(Token数),默认值 8192。
说明
不同参数规模的模型,最大长度支持的上限为:
  • DeepSeek-R1-Distill-Qwen-7B:8192

  • DeepSeek-R1-Distill-Qwen-32B:131072

  • DeepSeek-R1-Distill-Llama-70B:131072

8192
TP
Tensor Parallelism 并行度,默认值 4。
1
PORT
服务监听的端口号,默认值 6001。
6001
CMD_ARGS
指定vLLM启动的额外参数。格式为 -e  CMD_ARGS="<参数 参数值>"。例如:
添加--gpu-memory-utilization与--enforce-eager两个参数时,可追加参数:-e  CMD_ARGS="--gpu-memory-utilization 0.95 --enforce-eager"
"--gpu-memory-utilization 0.95"
说明
  • 通过命令启动容器时,会自动拉取推理引擎镜像和权重文件,由于模型文件较大,安装过程相对耗时,请耐心等待。

  • 若您需要自行下载推理引擎与模型文件,参考附录进行下载。

  1. 执行如下命令,通过Docker日志确认容器及模型是否成功启动。

    1. 查看容器ID。

docker ps
    1. 查看对应容器的运行日志。

docker logs --since 30m <CONTAINER_ID>
说明
请将<CONTAINER_ID>替换为实际容器ID。

步骤三:调用模型

  1. 登录目标实例。

  1. 执行如下命令调用模型,确保部署的模型可以正常进行推理。

curl -X POST http://0.0.0.0:6001/v1/chat/completions -H "Content-Type: application/json" -d '{"model": "/data00/models/DeepSeek-R1-Distill-Qwen-7B","messages": [{"role": "user","content": "请证明一下黎曼猜想"}],"stream": true,"max_tokens": 100,"temperature": 0.7}'
参数说明:
本文仅说明验证使用到的参数信息,更多参数详情可查看DeepSeek API文档。
参数名
说明
取值样例
model
使用的模型。
/data00/models/DeepSeek-R1-Distill-Qwen-7B
messages
对话的消息列表。
  • role:该消息的发起角色。

  • content:消息的内容。

-
stream
是否以 SSE(server-sent events)的形式以流式发送消息增量。取值:
  • true:以SSE(server-sent events)的形式以流式发送消息增量。

  • false:不以SSE(server-sent events)的形式以流式发送消息增量。

true
max_tokens
指定一次请求中模型生成Completion的最大Token数。取值:
  • 介于1 到 8192 间的整数。

  • 默认值为 4096。

100
temperature
采样温度,值越高(例如1)会使输出更随机,而值越低(例如0.2)会使其更加集中和确定。取值:介于 0 和 2 之间。
0.7

附录

您可自行下载火山引擎缓存的推理引擎及模型文件,或前往DeepSeek官网下载相应内容。

资源
地域
下载方式
推理引擎
华北2(北京)
docker pull ai-containers-cn-beijing.cr.volces.com/deeplearning/vllm:0.7.1.v1.iaas
华东2(上海)
docker pull ai-containers-cn-shanghai.cr.volces.com/deeplearning/vllm:0.7.1.v1.iaas
模型文件
说明
  • 请使用tosutil下载模型文件。

  • 请在tosutil所在目录中执行下载命令,建议将/root替换为实际存放模型文件路径。

DeepSeek-R1-Distill-Qwen-7B
华北2(北京)
./tosutil cp tos://iaas-public-model-cn-beijing/models/DeepSeek-R1-Distill-Qwen-7B/ /root -r
华东2(上海)
./tosutil cp tos://iaas-public-model-cn-shanghai/models/DeepSeek-R1-Distill-Qwen-7B/ /root -r
DeepSeek-R1-Distill-Qwen-32B
华北2(北京)
./tosutil cp tos://iaas-public-model-cn-beijing/models/DeepSeek-R1-Distill-Qwen-32B/ /root -r
华东2(上海)
./tosutil cp tos://iaas-public-model-cn-shanghai/models/DeepSeek-R1-Distill-Qwen-32B/ /root -r


火山引擎GPU云服务器使用指南-HPC搭建Slurm计算集群

  • 火山引擎GPU云服务器使用指南-HPC配置NCCL

    火山引擎GPU云服务器使用指南-HPC配置NCCL

  • 火山引擎GPU云服务器指南-搭建AIGC能力(Windows)

    火山引擎GPU云服务器指南-搭建AIGC能力(Windows)

  • 火山引擎GPU云服务器指南-搭建AIGC能力(Linux)

    火山引擎GPU云服务器指南-搭建AIGC能力(Linux)

  • 火山引擎GPU云服务器指南-部署Pytorch应用

    火山引擎GPU云服务器指南-部署Pytorch应用

  • 794文章数 0评论数
    热门文章
    最近发表

    火山引擎GPU云服务器使用指南-HPC搭建Slurm计算集群

    2025-04-23
  • 火山引擎GPU云服务器使用指南-HPC配置NCCL
  • 标签列表
    请关注微信公众号
    微信二维码
    不容错过
    Powered By TOPYUN 云产品资讯