Published on

deepseek 本地部署

Authors
  • avatar
    Name
    MissTree
    Twitter

当前使用 deepseek 的模式有三种:

  • 网页在线版:
    • 适用人群:适合想快速体验、无需复杂操作的用户
    • 优点:零门槛,打开即用,支持联网搜索。
    • 缺点:服务器卡顿严重,无法自定义模型参数
    • 适用场景:偶尔提问、测试简单任务(如查资料、简单的提问)。
  • 本地部署(基于vLLM或LM Studio)
    • 适用人群:技术极客、有高性能设备的开发者。
    • 优点:完全私有化,数据安全性高。可定制性强,支持联网、知识库集成等高级功能。
    • 缺点:硬件要求高,满血版(671B参数)需要16张A100显卡+2TB固态硬盘。技术门槛较高,需熟悉命令行和模型调参。
    • 适用场景:企业级应用、科研项目或硬核玩家折腾。
  • 云端部署
    • 适用人群:普通用户、想低成本用满血模型的务实派。
    • 优点:
      • 低成本,注册送14元,1元≈250万token。
      • 满血体验,直接调用671B参数模型。
      • 操作简单,5分钟搞定,无需代码知识。
    • 缺点:
      • 依赖网络,断网时无法使用。
      • 部分高阶功能(如联网搜索)暂未开放
    • 适用场景:日常写作、编程辅助、教育辅导等高频需求。

本地下载模型必须保证内存在16G及以上,否则将无法运行,或者运行卡顿


数据大模型

版本选择

DeepSeek有多个版本,参数规模从1.5B到671B不等。以下是适合程序员的版本推荐:

  • 7B/14B版本:
  • 参数规模:70亿/140亿参数。
  • 硬件需求:RTX 3060显卡+16GB内存即可运行。
  • 适用场景:
    • 编程辅助(代码生成、代码补全)。
    • 多领域应用(问答系统、对话生成、基本文本总结)。
  • 优点:性能与硬件需求平衡,适合大多数程序员
  • 32B/70B版本:
  • 参数规模:320亿/700亿参数。
  • 硬件需求:需要高端显卡(如RTX 4090)+大容量内存(64GB以上)。
  • 适用场景:
    • 复杂推理任务(如算法优化、代码调试)。
    • 高级写作、长篇对话生成。
  • 优点:生成质量高,适合对模型性能要求较高的程序员
  • 671B版本:
  • 参数规模:6710亿参数。
  • 硬件需求:需要多张高端显卡(如A100)+大容量存储(2TB以上)。
  • 适用场景:
    • 超高精度推理、大规模内容生成。
    • 科研或企业级应用。
  • 优点:性能最强,适合需要极致性能的程序员

模型安装

安装方式分为两种:

  • 基于vLLM
    • 优点:支持多种硬件平台,性能稳定。
    • 缺点:需要手动安装依赖,基于docker安装,要求NVIDIA GPU 支持,能充分发挥 GPU 的性能,配置复杂。
    • 适用场景:
      • 高性能、高并发场景。
      • 对模型性能要求较高的用户。
  • 基于 ollama
    • 优点:支持多种硬件平台,开箱即用,Windows 用户则可访问官网下载安装包进行安装,无需手动安装依赖。
    • 缺点:性能较低,不支持多模型并行。
    • 适用场景:
      • 简单应用、快速测试。
      • 对模型性能要求不高的用户。 也可以进行LM Studio安装,但是LM Studio是一款桌面应用,要从国外下载,安装速度较慢。但是加载、删除等操作,操作较为直观

vLLM安装

# 确保安装了python3.8及以上版本
python --version
pip --version

# 下载模型
pip install modelscope
modelscope download --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B --local_dir /path/to/save/model

# 创建虚拟环境:
python -m venv venv
source venv/bin/activate  # macOS/Linux
venv\Scripts\activate     # Windows

# 安装vLLM
pip install vllm

# 启动服务
CUDA_VISIBLE_DEVICES=0 vllm serve /path/to/save/model --port 8102 --max-model-len 16384


# 调用推理服务创建脚本
from openai import OpenAI
client = OpenAI(
  api_key="EMPTY",
  base_url="http://localhost:8102/v1",
)

response = client.completions.create(
  model="deepseek-ai/DeepSeek-R1-Distill-Qwen-7B",
  prompt="你好,介绍一下你自己吧",
  stream=False,
)

print(response.choices[0].text)

本人电脑:12th Gen Intel(R) Core(TM) i7-12650H 2.30 GHz 40G RAM 1T SSD

对于当前windows电脑,我推荐使用ollama安装,官网下载,下载完点击安装即可。

# 下载模型 #电脑配置好的下载 ollama run deepseek-r1:14b
ollama run deepseek-r1:7b   

# 等待下载完成,比较大,1.5B的2G左右,14B基本9G以上,请在家里带宽下载,流量多的可以无视

# 启动模型
ollama run deepseek-r1:7b

若是关键或者重启电脑后运行ollama

# CMD命令
ollama serve
ollama run deepseek-r1:7b

可视化

docker下载Open WebUI

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway --name open-webui --restart always ghcr.io/open-webui/open-webui:main

这样的话就可以和网页版本的效果一样了。 起始页 开始页面

前提保证ollama已经启动