DeepSeek作为目前最强的开源大模型之一,很多人都想把它部署到自己的电脑上。本地部署最大的好处:完全免费、无需联网、数据不出门、可自定义调优。
这篇文章手把手教你从零开始完成DeepSeek本地部署,无论你是程序员还是普通用户都能看懂。
一、为什么要本地部署DeepSeek?
在线使用DeepSeek虽然方便,但有几个痛点:
- 网络不稳定:高峰期经常卡顿、断连
- 隐私问题:你的对话数据在云端,敏感信息有泄露风险
- 有使用限制:免费版有对话次数和长度限制
- 功能受限:不能微调、不能自定义参数
本地部署一次性解决以上所有问题。
二、硬件要求
不同规模的DeepSeek模型对硬件要求不同:
| 模型版本 | 最低内存 | 推荐内存 | 适用场景 |
|---|---|---|---|
| DeepSeek-R1-Distill-Qwen-1.5B | 4GB | 8GB | 日常对话、文字处理 |
| DeepSeek-R1-Distill-Qwen-7B | 8GB | 16GB | 代码编写、逻辑推理 |
| DeepSeek-R1-Distill-Qwen-14B | 16GB | 32GB | 复杂推理、长文本处理 |
| DeepSeek-R1-Distill-Qwen-32B | 24GB | 48GB | 专业编程、科研分析 |
注意:以上是基于4-bit量化后的配置。如果电脑配置一般,推荐从1.5B或7B版本开始。
三、使用Ollama部署(最简单,推荐新手)
Ollama是目前最流行的本地大模型运行工具,支持macOS、Windows、Linux。
步骤1:安装Ollama
访问 ollama.com/download 下载对应系统的安装包,直接安装即可。
步骤2:下载并运行DeepSeek模型
打开终端(Terminal / CMD),输入以下命令:
# 下载并运行1.5B版本(最轻量,4GB内存即可) ollama run deepseek-r1:1.5b # 或者运行7B版本(推荐,效果好) ollama run deepseek-r1:7b # 或者运行14B版本(需要16GB以上内存) ollama run deepseek-r1:14b
第一次运行会自动下载模型(根据版本不同约1-8GB),之后就可以直接对话了。
步骤3:使用Web界面(可选)
如果觉得终端不好用,可以安装Open WebUI:
# 使用Docker一键安装 docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway \ -v open-webui:/app/backend/data \ --name open-webui --restart always \ ghcr.io/open-webui/open-webui:main
然后在浏览器打开 http://localhost:3000 就能看到漂亮的ChatGPT式界面。
四、其他部署方式
方式2:LM Studio(图形化,适合Windows用户)
下载 LM Studio → 搜索”DeepSeek” → 选择模型版本 → 下载 → 加载对话。全程图形界面,无需命令行。
方式3:llama.cpp(性能最优)
适合有编程基础的用户,支持GPU加速,推理速度最快:
# 克隆编译 git clone https://github.com/ggerganov/llama.cpp cd llama.cpp make -j # 下载量化模型 wget https://huggingface.co/unsloth/DeepSeek-R1-Distill-Qwen-7B-GGUF/resolve/main/DeepSeek-R1-Distill-Qwen-7B-Q4_K_M.gguf # 运行 ./main -m DeepSeek-R1-Distill-Qwen-7B-Q4_K_M.gguf -p "你好" -n 512
五、本地部署 vs 在线使用的对比
| 对比项 | 本地部署 | 在线使用 |
|---|---|---|
| 费用 | 完全免费 | 免费版有限制 |
| 隐私 | 数据不出门 | 数据上传云端 |
| 速度 | 取决于显卡 | 取决于网络 |
| 稳定性 | 随时可用 | 高峰期可能拥堵 |
| 可定制 | 可微调、量化 | 固定参数 |
| 推荐场景 | 程序员/隐私敏感用户 | 普通用户/懒得折腾 |
六、常见问题
Q:我电脑只有8GB内存能跑吗?
A:可以,推荐1.5B版本(低配)或7B量化版。用Ollama直接 `ollama run deepseek-r1:1.5b` 就行。
Q:是不是部署了就完全免费了?
A:是的,只要你不出门联网,所有推理都免费。电费忽略不计。
Q:能不能同时部署多个模型?
A:可以,Ollama支持同时管理多个模型,随时切换。
Q:生成速度慢怎么办?
A:有NVIDIA显卡的话装CUDA版本Ollama,推理速度提升5-10倍。
文章编号:2026-0627-EX-001 | 资源持续更新中
- 转载请注明原文出处并保留链接,感谢配合!
- 本站资源及文章均源自互联网公开渠道整理,本站不参与任何形式的制作与编辑。如涉及版权争议,请立即联系我们处理。
- 特别提示:本站分享资源均为互联网公开信息,部分内容可能存在水印或推广信息。请用户务必仔细甄别,理性判断,自主决策。
- 重要声明:本站资源仅限用于学术研究及个人学习交流,严禁用于商业用途!任何未经授权的商业使用所引发的法律纠纷及责任,均由使用者自行承担。





