如何使用 SGLang 在 Vultr 服务器部署 Deepseek R1 推理大语言模型

Deepseek R1 是第一代推理模型,旨在擅长数学、编码和逻辑推理任务。它利用强化学习 (RL) 和精心集成的冷启动阶段来增强可读性、连贯性和推理能力。这种方法有助于模型生成清晰、结构良好的响应,同时最大限度地减少重复和语言混合等问题。Deepseek R1 针对高质量推理进行了优化,使其成为处理复杂问题解决任务的强大工具。

在本文中,由于需要较大的 VRAM ,您将使用 SGlang 在 MI300X Vultr Cloud GPU 上部署 Deepseek R1,并配置模型以进行推理。通过利用 Vultr 的高性能云基础设施,您可以有效地设置 Deepseek R1 以执行高级推理任务。

先决条件

部署步骤

在本节中,您将安装必要的依赖项,构建支持 ROCm 的容器镜像,并在 Vultr Cloud GPU 上使用 Deepseek R1 部署 SGlang 推理服务器。然后,您将通过发送 HTTP 请求来测试模型的推理响应来验证部署。

  1. 安装 Hugging Face 命令行界面 (CLI) 软件包。
    $ pip install huggingface_hub[cli]
    
  2. 下载DeepSeek R1型号。
    $ huggingface-cli download deepseek-ai/DeepSeek-R1
    

    以上命令将模型下载到$HOME/.cache/huggingface目录。建议在后台下载该模型并继续下一步,因为该模型的尺寸非常大,直到运行容器映像才需要。

  3. 克隆sglang推理服务器存储库。
    $ git clone https://github.com/sgl-project/sglang.git
    
  4. 构建一个 ROCM 支持的容器镜像。
    $ cd sglang/docker
    $ docker build --build-arg SGL_BRANCH=v0.4.2 -t sglang:v0.4.2-rocm620 -f Dockerfile.rocm .
    

    上面的命令构建了一个名为sglang:v0.4.2-rocm620使用Dockerfile.rocm清单。此步骤可能需要长达30分钟。

    如果您面对error: RPC failed; curl 56 GnuTLS recv error在容器映像构建时错误,您可以尝试将以下行添加到Dockerfile.rocm文件之前,请先在克隆储存库的语句之前。

    RUN git config --global http.postBuffer 1048576000
    RUN git config --global https.postBuffer 1048576000
    

    此外,如果您在构建时间期间面对连接超时,则可以尝试再次运行该过程以重新建立连接。 Docker能够缓存构建过程的部分,以确保有效利用时间和资源。

  5. 运行SGLANG推断服务器容器。
    $ docker run -d --device=/dev/kfd --device=/dev/dri --ipc=host \
        --group-add video --cap-add=SYS_PTRACE --security-opt seccomp=unconfined \
        -v $HOME/dockerx:/dockerx -v $HOME/.cache/huggingface:/root/.cache/huggingface \
        --shm-size 16G -p 30000:30000 sglang:v0.4.2-rocm620 \
        python3 -m sglang.launch_server --model-path deepseek-ai/DeepSeek-R1 --tp 8 --trust-remote-code --host 0.0.0.0 --port 30000
    

    上面的命令在带有ROCM支持的独立模式下运行SGLANG推理服务器容器,启用GPU访问和必要的权限。它安装了需要目录,分配共享内存,并使用张张量并行性(TP)设置为8的DeepSeek R1模型在端口30000上启动服务器。

  6. 发送HTTP请求以验证推理响应。
    $ curl http://localhost:30000/v1/chat/completions \
         -H "Content-Type: application/json" \
         -d "{\"model\": \"deepseek-ai/DeepSeek-R1\", \"messages\": [{\"role\": \"user\", \"content\": \"I am running Deepseek on Vultr powered by AMD Instinct MI300X. What's next?\"}], \"temperature\": 0.7}"
    
  7. 可选:允许端口30000上的传入连接。
    $ sudo ufw allow 30000
    

结论

在本文中,您使用 sglang 成功地在 MI300X vultr Cloud GPU 上部署了 DeepSeek R1,并准备了推理模型。通过利用 Vultr 的高性能基础架构,您已经建立了一个优化的环境,以有效地运行 DeepSeek R1。现在准备好模型,您可以在各种应用程序中使用其高级推理功能。

Vultr 优惠推荐

1. Vultr 充多少送多少活动

  • 优惠码:VULTRMATCH
  • 优惠说明:双倍存款!当您开设新账户时,Vultr 将匹配您的第一笔存款,最高 100 美元。不能与任何其他优惠结合使用,仅限新客户。
  • 优惠页面:点击直达充值页面

2. Vultr 新用户免费赠送 250 美元

  • 优惠码:FLYVULTR250
  • 优惠说明:使用 250 美元免费额度免费试用 Vultr。仅限新客户。
  • 优惠页面:点击直达优惠页面

3. Vultr 推荐套餐

CPU内存硬盘月流量带宽IP价格购买
1核0.5GB10GB SSD0.5TB1Gbps仅IPv6$2.5/月购买
1核0.5GB10GB SSD0.5TB1Gbps1个IPv4$3.5/月购买
1核1GB25GB SSD1TB1Gbps1个IPv4$5/月购买
1核2GB55GB SSD2TB1Gbps1个IPv4$10/月购买
2核4GB80GB SSD3TB1Gbps1个IPv4$20/月购买
4核8GB160GB SSD4TB1Gbps1个IPv4$40/月购买
6核16GB320GB SSD5TB1Gbps1个IPv4$80/月购买
8核32GB640GB SSD6TB1Gbps1个IPv4$160/月购买
16核64GB1280GB SSD10TB1Gbps1个IPv4$320/月购买
24核96GB1600GB SSD15TB1Gbps1个IPv4$640/月购买
赞(0)
未经允许不得转载:Vultr中文网 » 如何使用 SGLang 在 Vultr 服务器部署 Deepseek R1 推理大语言模型

登录

找回密码

注册