deepseek 本地部署

当前使用 deepseek 的模式有三种：

网页在线版:
- 适用人群：适合想快速体验、无需复杂操作的用户
- 优点：零门槛，打开即用，支持联网搜索。
- 缺点：服务器卡顿严重，无法自定义模型参数
- 适用场景：偶尔提问、测试简单任务（如查资料、简单的提问）。
本地部署（基于vLLM或LM Studio）
- 适用人群：技术极客、有高性能设备的开发者。
- 优点：完全私有化，数据安全性高。可定制性强，支持联网、知识库集成等高级功能。
- 缺点：硬件要求高，满血版（671B参数）需要16张A100显卡+2TB固态硬盘。技术门槛较高，需熟悉命令行和模型调参。
- 适用场景：企业级应用、科研项目或硬核玩家折腾。
云端部署
- 适用人群：普通用户、想低成本用满血模型的务实派。
- 优点：
  - 低成本，注册送14元，1元≈250万token。
  - 满血体验，直接调用671B参数模型。
  - 操作简单，5分钟搞定，无需代码知识。
- 缺点：
  - 依赖网络，断网时无法使用。
  - 部分高阶功能（如联网搜索）暂未开放
- 适用场景：日常写作、编程辅助、教育辅导等高频需求。

本地下载模型必须保证内存在16G及以上，否则将无法运行，或者运行卡顿

数据大模型

版本选择

DeepSeek有多个版本，参数规模从1.5B到671B不等。以下是适合程序员的版本推荐：

7B/14B版本：
参数规模：70亿/140亿参数。
硬件需求：RTX 3060显卡+16GB内存即可运行。
适用场景：
- 编程辅助（代码生成、代码补全）。
- 多领域应用（问答系统、对话生成、基本文本总结）。
优点：性能与硬件需求平衡，适合大多数程序员
32B/70B版本：
参数规模：320亿/700亿参数。
硬件需求：需要高端显卡（如RTX 4090）+大容量内存（64GB以上）。
适用场景：
- 复杂推理任务（如算法优化、代码调试）。
- 高级写作、长篇对话生成。
优点：生成质量高，适合对模型性能要求较高的程序员
671B版本：
参数规模：6710亿参数。
硬件需求：需要多张高端显卡（如A100）+大容量存储（2TB以上）。
适用场景：
- 超高精度推理、大规模内容生成。
- 科研或企业级应用。
优点：性能最强，适合需要极致性能的程序员

模型安装

安装方式分为两种：

基于vLLM
- 优点：支持多种硬件平台，性能稳定。
- 缺点：需要手动安装依赖,基于docker安装，要求NVIDIA GPU 支持，能充分发挥 GPU 的性能，配置复杂。
- 适用场景：
  - 高性能、高并发场景。
  - 对模型性能要求较高的用户。
基于 ollama
- 优点：支持多种硬件平台，开箱即用，Windows 用户则可访问官网下载安装包进行安装，无需手动安装依赖。
- 缺点：性能较低，不支持多模型并行。
- 适用场景：
  - 简单应用、快速测试。
  - 对模型性能要求不高的用户。也可以进行LM Studio安装，但是LM Studio是一款桌面应用，要从国外下载，安装速度较慢。但是加载、删除等操作，操作较为直观

vLLM安装

# 确保安装了python3.8及以上版本
python --version
pip --version

# 下载模型
pip install modelscope
modelscope download --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B --local_dir /path/to/save/model

# 创建虚拟环境：
python -m venv venv
source venv/bin/activate  # macOS/Linux
venv\Scripts\activate     # Windows

# 安装vLLM
pip install vllm

# 启动服务
CUDA_VISIBLE_DEVICES=0 vllm serve /path/to/save/model --port 8102 --max-model-len 16384


# 调用推理服务创建脚本
from openai import OpenAI
client = OpenAI(
  api_key="EMPTY",
  base_url="http://localhost:8102/v1",
)

response = client.completions.create(
  model="deepseek-ai/DeepSeek-R1-Distill-Qwen-7B",
  prompt="你好，介绍一下你自己吧",
  stream=False,
)

print(response.choices[0].text)

本人电脑：12th Gen Intel(R) Core(TM) i7-12650H 2.30 GHz 40G RAM 1T SSD

对于当前windows电脑，我推荐使用ollama安装，官网下载,下载完点击安装即可。

# 下载模型 #电脑配置好的下载 ollama run deepseek-r1:14b
ollama run deepseek-r1:7b   

# 等待下载完成，比较大，1.5B的2G左右，14B基本9G以上，请在家里带宽下载，流量多的可以无视

# 启动模型
ollama run deepseek-r1:7b

若是关键或者重启电脑后运行ollama

# CMD命令
ollama serve
ollama run deepseek-r1:7b

可视化

docker下载Open WebUI

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway --name open-webui --restart always ghcr.io/open-webui/open-webui:main

这样的话就可以和网页版本的效果一样了。起始页开始页面

前提保证ollama已经启动