《DeepSeek内部研讨系列-DeepSeekR1私有化部署和一体机》解读-人工智能技术文章

《DeepSeek内部研讨系列-DeepSeekR1私有化部署和一体机》解读

相洪波 | 2025-04-17 11:45:00

11 0 个赞

本次讲座为DeepSeek原理和应用系列研讨的讲座之一，让大家可以决策是否需要自己部署DeepSeek系列模型，并了解自己本地化部署DeepSeek的基本方法，同时了解更专业的企业级部署方法，有助于选择DeepSeek一体机型号，并能理解DeepSeek云服务的工作机制和原理，用好DeepSeek云服务的API调用方法。

本讲座的内容分为四个主要部分：

① 首先，除了DeepSeek满血版之外，还有各种各样的蒸馏版和量化版，以及DeepSeek的不同专业模型。我们将介绍人工智能大模型的基本概念，以及DeepSeek各个模型的特点与适用场景，对比不同规模模型的性能表现，帮助大家选择最适合自己需求的版本。

② 其次，对于普通用户在自己的电脑上部署和体验DeepSeek（蒸馏版）的情况，我们会评估和建议硬件要求，演示如何通过Ollama命令行高效部署DeepSeek模型，解决下载过程中可能遇到的常见问题。为了提升在自己的电脑上安装DeepSeek模型后，大家与DeepSeek模型的交互体验，我们还将介绍Open WebUI和Chatbox等前端展示工具的配置与使用方法。

③ 然后，对于专业级的企业部署DeepSeek，或把DeepSeek（蒸馏版和满血版）部署在专业的昂贵的推理机上，本讲座将探讨基于Transformers快速验证和vLLM的高性能部署方案，并提供真实企业基于vLLM的部署DeepSeek-70b的相关数据和经验。

④ 最后，作为补充内容，针对计算资源受限的场景，我们专门设计了"低成本部署"环节，详细讲解Unsloth R1动态量化部署的三种实现路径：基于llama.cpp、KTransformers以及Ollama框架动态量化部署。

3. 在技术学习的道路上，优质学习资源至关重要。推荐大家参考《人工智能通识教程（微课版）》这本系统全面的入门教材，结合B站“思睿观通”栏目的配套视频进行学习。此外，欢迎加入ai.kgc.cn社区，以及“AI肖睿团队”的视频号和微信号，与志同道合的AI爱好者交流经验、分享心得。

人工智能的演进

1. 人工智能的定义与分类

- 人工智能旨在模拟人类智能，分为人类智能与非人类智能（超人智能）。

2. 机器学习与神经网络

- 机器学习是人工智能的核心，涵盖统计学习方法与数据建模。

- 神经网络的发展经历了传统与深度学习的转变，Transformer架构尤为关键。

3. 模型架构的创新

- Transformer架构引入注意力机制，提升了并行计算效率。

- 大语言模型（LLM）如GPT，推动了生成式AI的发展。

- Diffusion模型在视觉与语言模型中的应用，展示了多模态融合的潜力。

4. 未来展望

- 随着技术进步，人工智能将在更多领域展现其超越人类的能力，推动社会变革。

生成模型与推理模型的对比分析

1. 模型定位

- OpenAI GPT-4o（生成模型）：专注于多模态处理，适合日常对话、内容生成

等。

- OpenAI o1（推理模型）：侧重复杂推理与逻辑能力，适用于数学、编程等任务。

2. 推理能力

- 生成模型在复杂逻辑推理中表现一般，但在多模态信息处理上优势明显。

- 推理模型在逻辑推理任务中表现卓越，尤其在数学和代码分析方面。

3. 多模态支持

- 生成模型支持文本、图像、音频等多种模态输入，应用场景广泛。

- 推理模型主要支持文本输入，多模态能力有限。

4. 应用场景

- 生成模型适合对话、内容生成等任务，面向大众市场。

- 推理模型适合需要精确推理的专业任务，如数学竞赛、编程问题。

5. 用户交互体验

- 生成模型提供流畅的实时对话体验，用户界面友好。

- 推理模型交互节奏较慢，适合自主链式思考。

DeepSeek模型的演进与优化

1. 核心架构的演变

- DeepSeek V2采用混合专家架构，参数量为2360亿，激活210亿。

- V3升级为6710亿参数，激活370亿，显著提升规模。

2. 训练方法的创新

- V2结合传统预训练与强化学习，数据量达8.1万亿tokens。

- V3引入SFT、MTP和RL，数据量增至14.8万亿tokens。

3. 关键特性的突破

- V2首次引入MoE架构，V3实现60 TPS的代码生成速度。

- R1通过RL驱动推理优化，实现自我进化。

4. 性能表现的对比

- V2生成速度20TPS，V3在NLP任务中接近GPT-4o，API成本降低。

- R1在数学推理和代码生成上与先进模型相当。

DeepSeek-V2模型解读

1. 模型简介

- DeepSeek-V2在性能上显著优于前代模型，节省42.5%训练成本，减少93.3%

KV缓存，生成吞吐量提升5.76倍。

2. 设计初衷

- 旨在解决大语言模型训练成本高、推理效率低的问题，通过MoE架构降低成本，

提高效率。

3. 核心原理

- 基于混合专家（MoE）架构，将任务分配给多个专家模型，提升处理复杂任务的

灵活性和效率。

DeepSeek-V3模型解读

1. 模型架构

- DeepSeek V3沿用了V2的MLA和MoE架构，保持了模型的稳定性和扩展性。

2. 训练目标的创新

- 在V2的基础上，V3增加了多令牌预测（MTP）的训练目标，提升了模型的预测

能力。

3. 预测机制的优化

- MTP允许模型同时预测多个token，提高了预测效率，类似于并行处理多个字符，

增强了模型的响应速度和准确性。

4. 应用潜力

- 这种改进使得V3在处理复杂任务时更加灵活，例如在自然语言处理中的多任务学

习，能够更好地适应不同的应用场景。

DeepSeek-R1模型解读

1. 模型特点

- DeepSeek-R1通过强化学习与非监督学习结合，显著提升了大模型在数学和逻辑推理任务中的表现。

2. 性能验证

- 在多个基准测试中，如MATH-500和MMLU，R1模型的表现与OpenAI-o1模型相当，甚至在某些任务中超越现有大模型。

3. 学习机制

- 强化学习使模型能够自动学习复杂的推理行为，随着训练的深入，模型的解答能力和推理能力显著提高。

4. 应用前景

- 这种提升为大模型在需要精确推理的专业领域，如科学研究和工程设计，提供了更广阔的应用前景。

DeepSeek模型特点总结

1. 混合专家模型（MoE）

- DeepSeek利用MoE架构，通过动态选择最合适的专家模块处理数据，有效提升

了模型的推理能力和效率。

2. 无辅助损失的负载均衡策略（EP）

- 该策略确保了各专家模块的负载均衡，避免了资源浪费，提高了模型的整体。

3. 多头潜在注意力机制（MLA）

- 通过减少Key-Value缓存，MLA显著提升了模型的推理效率，优化了资源使用。

4. 强化学习驱动（RL）

- DeepSeek-R1大规模应用强化学习，采用GRPO训练算法，显著提升了模型的推

理能力。

5. 多Token预测（MTP）

- 通过多Token预测，DeepSeek不仅提高了推理速度，还降低了训练成本，增强了

模型的实用性。

DeepSeek模型训练及框架特点

1. FP8混合精度训练

- 采用FP8混合精度训练，关键计算步骤使用高精度，其他层使用低精度，降低训练

成本，是DeepSeek在基础设施工程上的突破。

2. 长链推理技术（TTC）

- 支持数万字的长链推理，逐步分解复杂问题，提高模型的逻辑推理能力。

3. 并行训练策略（HAI）

- 采用16路流水线并行、64路专家并行及数据并行，大幅提升模型训练速度。

4. 通讯优化DualPipe

- 利用IB和NVLink带宽，减少通信开销，提高模型推理性能。

5. 混合机器编程（PTX）

- 部分代码直接使用PTX编程，提高执行效率，优化算子库。

6. 低成本训练

- DeepSeek-V3的训练成本为557.6万美元，仅为GPT-4o等模型的3%-5%，展示

了成本效益。

DeepSeek模型的社会价值

1. 开源生态

- DeepSeek通过采用开源策略和MIT协议，促进了AI技术的开放发展，吸引了广泛

的开发者和研究人员参与。

2. 模型蒸馏支持

- DeepSeek-R1发布多个模型蒸馏版本，帮助用户训练更小型的模型，满足多样化

应用需求，尽管这可能限制了大型模型的选择。

3. AI普及教育

- 随着AI成为趋势，用户主动引入AI，减少对教育的依赖，大模型企业更加重视基

础设施工程的价值，推动了技术的普及和教育。

模型蒸馏概念解读

1. 定义

- 模型蒸馏是将大型复杂模型（教师模型）的知识迁移到小型高效模型（学生模

型）的技术。

2. 原理

- 通过训练教师模型并生成软标签，学生模型学习这些标签以优化性能，减少计算

成本。

3. 优势

- 学生模型参数少，计算成本低，适合资源受限环境；性能提升，效率更高，训练

成本降低。

DeepSeek模型的应用场景

1. 边缘计算场景的低延迟部署

- DeepSeek与天翼云智能边缘云ECX结合，实现边缘节点部署模型，降低数据传输

延迟，适用于实时性要求高的场景，如自动驾驶。

2. 复杂数学与编程任务

- DeepSeek-R1在数学推理和代码生成领域展现超越同类模型的能力，适用于需要

精确逻辑分析的专业任务，如算法开发。

3. 中文场景的深度优化

- 理解文化背景和习惯用语，优于GPT-4的中文处理能力，适用于中文文本分析和

生成，如社交媒体内容管理。

模型参数量的意义

1. 参数量与模型能力

- 参数量通常与模型的理解和生成能力成正比，但需要更多计算资源。例如，大型

模型在自然语言处理任务中表现更佳，但对硬件要求更高。

2. 参数量与硬件需求

- 参数增多导致对内存（RAM）和显存（VRAM）的需求增加，影响模型的部署和

运行。例如，小型设备可能难以运行参数量巨大的模型。

3. 参数量与运行速度

- 参数量大的模型推理速度更慢，尤其在资源不足时。例如，在资源受限的环境中，

小型模型可能更适合实时应用。

4. 参数量与硬件配置匹配

- 部署DeepSeek时需根据硬件配置选择合适模型版本，如1.5B模型适合资源受限

设备，而67B模型需服务器集群支持。合理匹配可优化性能，避免资源浪费。

硬件选择建议解读

1. 根据需求选择硬件

对于简单任务，如文本生成，选择1.5B或7B模型，并搭配低配置硬件，如普通笔记

本或台式机。对于复杂任务，如合同分析，需选择14B及以上模型，并配备高性能硬

件，如高端显卡和大容量内存。

2. 考虑预算与性能平衡

在预算有限的情况下，优先选择低参数量的模型，以满足基本需求，同时降低硬件

成本。例如，1.5B模型可在资源受限设备上运行，适合预算紧张的用户。若预算充足

且对性能要求较高，可选择高参数量模型，如32B或70B，搭配高端硬件，以获得更

强的处理能力和更高的运行效率。

3. 硬件升级与扩展

随着任务需求的增加和预算的提升，可逐步升级硬件配置，如增加内存、更换高性

能显卡或升级CPU。对于企业用户或科研机构，可根据实际需求构建服务器集群，以

支持大规模模型的运行和复杂任务的处理。

Ollama模型升级后性能退化问题

1. 问题描述

升级后的Ollama模型仅运行在CPU上，或因量化精度丢失导致回答质量下降。例

如，模型在处理复杂问题时，可能因资源分配不当而影响性能。

2. 解决方案

- 锁定依赖版本：通过Docker镜像固定Ollama版本（如ollama/ollama:0.5.1-

cuda），避免自动升级引入兼容性问题。例如，确保模型在特定版本下稳定运行。

- 显存分配验证：使用nvidia-smi监控GPU利用率，若发现异常回退至CPU，检查

CUDA驱动版本与Ollama编译环境的兼容性。例如，确保CUDA版本与模型需求匹配，

以优化资源利用。

三款界面总结解读

1. PageAssist的功能与适用场景

PageAssist通过浏览器插件实现本地AI与浏览场景的无缝融合，强调隐私优先和轻

量交互。例如，在高频轻需求场景中，用户可以通过侧边栏对话和文档解析等功能，

将模型能力嵌入日常操作，适合注重数据安全的用户。

2. Chatbox的定位与应用

Chatbox作为灵活的中台调度工具，通过模块化设计兼容多模型API和插件扩展，

平衡开发者的自定义需求与普通用户的易用性。例如，在需要多模型协同或快速验证

AI能力的场景中，Chatbox能够提供有效的支持。

3. Open WebUI的企业级管理

Open WebUI聚焦企业级AI服务全生命周期管理，从模型部署、权限控制到知识库

集成提供闭环方案。例如，通过负载均衡、协作聊天等特性，满足规模化团队的技术

管控需求，确保AI服务的高效运行和安全管理。

R1满血版模型部署方案解读

1. 模型规模与硬件需求

DeepSeek R1模型因其庞大的参数量（6710亿）对硬件资源要求较高。通常情况

下，部署该模型需要1200G左右的显存，考虑到并发需求，至少需要双节点8卡H100

服务器，总成本在260万至320万左右。即便是INT4精度下，也至少需要490G显存，

单节点8卡H100服务器才能运行。

2. 成本与性能的权衡

为了实现低成本高性能部署，目前大多数方案采用牺牲模型推理速度的策略。例如

通过CPU+GPU混合推理的方式，将部分推理计算转移到CPU上，以降低GPU的负载

。然而，由于CPU不适合深度学习计算，这导致模型整体推理速度较慢。这种权衡在

资源受限的环境中是常见的做法，但需要根据具体应用场景和性能要求进行调整。

通过CPU+GPU混合推理的方式，将部分推理计算转移到CPU上，以降低GPU的负

载。然而，由于CPU不适合深度学习计算，这导致模型整体推理速度较慢。这种权衡

在资源受限的环境中是常见的做法，但需要根据具体应用场景和性能要求进行调整。

北大青鸟AI实验室建设方案解读

1. 方案概述

北大青鸟AI实验室建设方案旨在解决传统部署方案中硬件适配复杂、资源利用率低等问题。通过提供开箱即用的DeepSeek一体机全栈解决方案，实现深度调优和集成预训练模型与动态调度引擎，以降低部署成本并提高响应效率及数据本地化安全保障。

2. 技术架构

方案包括应用层、监控层、业务层、容器层和基础设施层。应用层涵盖模型训练、自然语言处理等；监控层负责动态监控和集群监控；业务层管理功能、任务、资源等；容器层采用Kubernetes实现资源隔离和调度；基础设施层基于CentOS/Ubuntu操作系统，提供计算、存储和网络节点。

3. 关键组件

- 一键部署：内置主流模型管理工具，实现快速部署模型，支持多版本模型。

- Deepseek：快速发布服务，调用API实现应用对话，支持大模型构建本地数据库。

- 一体机：模型训练推理场景集中式一体化任务管理，系统资源监控运维的可视化，多种资源结构集中管理，GPU调度切分。

标签：