AI研习社 AI研习社
AI工具 AI快讯 AI教程 关于我们
《DeepSeek内部研讨系列-DeepSeekR1私有化部署和一体机》解读
相洪波 | 2025-04-17 11:45:00
11

本次讲座为DeepSeek原理和应用系列研讨的讲座之一,让大家可以决策是否需要自己部署DeepSeek系列模型,并了解自己本地化部署DeepSeek的基本方法,同时了解更专业的企业级部署方法,有助于选择DeepSeek一体机型号,并能理解DeepSeek云服务的工作机制和原理,用好DeepSeek云服务的API调用方法。

本次讲座为DeepSeek原理和应用系列研讨的讲座之一,让大家可以决策是否需要自己部署DeepSeek系列模型,并了解自己本地化部署DeepSeek的基本方法,同时了解更专业的企业级部署方法,有助于选择DeepSeek一体机型号,并能理解DeepSeek云服务的工作机制和原理,用好DeepSeek云服务的API调用方法。


本讲座的内容分为四个主要部分:

① 首先,除了DeepSeek满血版之外,还有各种各样的蒸馏版和量化版,以及DeepSeek的不同专业模型。我们将介绍人工智能大模型的基本概念,以及DeepSeek各个模型的特点与适用场景,对比不同规模模型的性能表现,帮助大家选择最适合自己需求的版本。

② 其次,对于普通用户在自己的电脑上部署和体验DeepSeek(蒸馏版)的情况,我们会评估和建议硬件要求,演示如何通过Ollama命令行高效部署DeepSeek模型,解决下载过程中可能遇到的常见问题。为了提升在自己的电脑上安装DeepSeek模型后,大家与DeepSeek模型的交互体验,我们还将介绍Open WebUI和Chatbox等前端展示工具的配置与使用方法。

③ 然后,对于专业级的企业部署DeepSeek,或把DeepSeek(蒸馏版和满血版)部署在专业的昂贵的推理机上,本讲座将探讨基于Transformers快速验证和vLLM的高性能部署方案,并提供真实企业基于vLLM的部署DeepSeek-70b的相关数据和经验。

④ 最后,作为补充内容,针对计算资源受限的场景,我们专门设计了"低成本部署"环节,详细讲解Unsloth R1动态量化部署的三种实现路径:基于llama.cpp、KTransformers以及Ollama框架动态量化部署。

3. 在技术学习的道路上,优质学习资源至关重要。推荐大家参考《人工智能通识教程(微课版)》这本系统全面的入门教材,结合B站“思睿观通”栏目的配套视频进行学习。此外,欢迎加入ai.kgc.cn社区,以及“AI肖睿团队”的视频号和微信号,与志同道合的AI爱好者交流经验、分享心得。


3-2.png


人工智能的演进

1. 人工智能的定义与分类

   - 人工智能旨在模拟人类智能,分为人类智能与非人类智能(超人智能)。

2. 机器学习与神经网络

   - 机器学习是人工智能的核心,涵盖统计学习方法与数据建模。

   - 神经网络的发展经历了传统与深度学习的转变,Transformer架构尤为关键。

3. 模型架构的创新

   - Transformer架构引入注意力机制,提升了并行计算效率。

   - 大语言模型(LLM)如GPT,推动了生成式AI的发展。

   - Diffusion模型在视觉与语言模型中的应用,展示了多模态融合的潜力。

4. 未来展望

   - 随着技术进步,人工智能将在更多领域展现其超越人类的能力,推动社会变革。


3-3.png


生成模型与推理模型的对比分析

1. 模型定位

   - OpenAI GPT-4o(生成模型):专注于多模态处理,适合日常对话、内容生成

等。

   - OpenAI o1(推理模型):侧重复杂推理与逻辑能力,适用于数学、编程等任务。

2. 推理能力

   - 生成模型在复杂逻辑推理中表现一般,但在多模态信息处理上优势明显。

   - 推理模型在逻辑推理任务中表现卓越,尤其在数学和代码分析方面。

3. 多模态支持

   - 生成模型支持文本、图像、音频等多种模态输入,应用场景广泛。

   - 推理模型主要支持文本输入,多模态能力有限。

4. 应用场景

   - 生成模型适合对话、内容生成等任务,面向大众市场。

   - 推理模型适合需要精确推理的专业任务,如数学竞赛、编程问题。

5. 用户交互体验

   - 生成模型提供流畅的实时对话体验,用户界面友好。

   - 推理模型交互节奏较慢,适合自主链式思考。


3-4.png


 DeepSeek模型的演进与优化

1. 核心架构的演变

   - DeepSeek V2采用混合专家架构,参数量为2360亿,激活210亿。

   - V3升级为6710亿参数,激活370亿,显著提升规模。

2. 训练方法的创新

   - V2结合传统预训练与强化学习,数据量达8.1万亿tokens。

   - V3引入SFT、MTP和RL,数据量增至14.8万亿tokens。

3. 关键特性的突破

   - V2首次引入MoE架构,V3实现60 TPS的代码生成速度。

   - R1通过RL驱动推理优化,实现自我进化。

4. 性能表现的对比

   - V2生成速度20TPS,V3在NLP任务中接近GPT-4o,API成本降低。

   - R1在数学推理和代码生成上与先进模型相当。


3-5.png


DeepSeek-V2模型解读

1. 模型简介

   - DeepSeek-V2在性能上显著优于前代模型,节省42.5%训练成本,减少93.3%

 KV缓存,生成吞吐量提升5.76倍。

2. 设计初衷

   - 旨在解决大语言模型训练成本高、推理效率低的问题,通过MoE架构降低成本,

提高效率。

3. 核心原理

   - 基于混合专家(MoE)架构,将任务分配给多个专家模型,提升处理复杂任务的

灵活性和效率。


3-6.png


DeepSeek-V3模型解读

1. 模型架构

   - DeepSeek V3沿用了V2的MLA和MoE架构,保持了模型的稳定性和扩展性。

2. 训练目标的创新

   - 在V2的基础上,V3增加了多令牌预测(MTP)的训练目标,提升了模型的预测

能力。

3. 预测机制的优化

   - MTP允许模型同时预测多个token,提高了预测效率,类似于并行处理多个字符,

增强了模型的响应速度和准确性。

4. 应用潜力

   - 这种改进使得V3在处理复杂任务时更加灵活,例如在自然语言处理中的多任务学

习,能够更好地适应不同的应用场景。


3-7.png


DeepSeek-R1模型解读

1. 模型特点

   - DeepSeek-R1通过强化学习与非监督学习结合,显著提升了大模型在数学和逻辑推理任务中的表现。

2. 性能验证

   - 在多个基准测试中,如MATH-500和MMLU,R1模型的表现与OpenAI-o1模型相当,甚至在某些任务中超越现有大模型。

3. 学习机制

   - 强化学习使模型能够自动学习复杂的推理行为,随着训练的深入,模型的解答能力和推理能力显著提高。

4. 应用前景

   - 这种提升为大模型在需要精确推理的专业领域,如科学研究和工程设计,提供了更广阔的应用前景。


3-8.png


DeepSeek模型特点总结

1. 混合专家模型(MoE)

   - DeepSeek利用MoE架构,通过动态选择最合适的专家模块处理数据,有效提升

了模型的推理能力和效率。

2. 无辅助损失的负载均衡策略(EP)

   - 该策略确保了各专家模块的负载均衡,避免了资源浪费,提高了模型的整体

3. 多头潜在注意力机制(MLA)

   - 通过减少Key-Value缓存,MLA显著提升了模型的推理效率,优化了资源使用。

4. 强化学习驱动(RL)

   - DeepSeek-R1大规模应用强化学习,采用GRPO训练算法,显著提升了模型的推

理能力。

5. 多Token预测(MTP)

   - 通过多Token预测,DeepSeek不仅提高了推理速度,还降低了训练成本,增强了

模型的实用性。


3-9.png


DeepSeek模型训练及框架特点

1. FP8混合精度训练

   - 采用FP8混合精度训练,关键计算步骤使用高精度,其他层使用低精度,降低训练

成本,是DeepSeek在基础设施工程上的突破。

2. 长链推理技术(TTC)

   - 支持数万字的长链推理,逐步分解复杂问题,提高模型的逻辑推理能力。

3. 并行训练策略(HAI)

   - 采用16路流水线并行、64路专家并行及数据并行,大幅提升模型训练速度。

4. 通讯优化DualPipe

   - 利用IB和NVLink带宽,减少通信开销,提高模型推理性能。

5. 混合机器编程(PTX)

   - 部分代码直接使用PTX编程,提高执行效率,优化算子库。

6. 低成本训练

   - DeepSeek-V3的训练成本为557.6万美元,仅为GPT-4o等模型的3%-5%,展示

了成本效益。


3-10.png


 DeepSeek模型的社会价值

1. 开源生态

   - DeepSeek通过采用开源策略和MIT协议,促进了AI技术的开放发展,吸引了广泛

的开发者和研究人员参与。

2. 模型蒸馏支持

   - DeepSeek-R1发布多个模型蒸馏版本,帮助用户训练更小型的模型,满足多样化

应用需求,尽管这可能限制了大型模型的选择。

3. AI普及教育

   - 随着AI成为趋势,用户主动引入AI,减少对教育的依赖,大模型企业更加重视基

础设施工程的价值,推动了技术的普及和教育。


3-11.png


 模型蒸馏概念解读

1. 定义

   - 模型蒸馏是将大型复杂模型(教师模型)的知识迁移到小型高效模型(学生模

型)的技术。

2. 原理

   - 通过训练教师模型并生成软标签,学生模型学习这些标签以优化性能,减少计算

成本。

3. 优势

   - 学生模型参数少,计算成本低,适合资源受限环境;性能提升,效率更高,训练

成本降低。


3-12.png


DeepSeek模型的应用场景

1. 边缘计算场景的低延迟部署

   - DeepSeek与天翼云智能边缘云ECX结合,实现边缘节点部署模型,降低数据传输

延迟,适用于实时性要求高的场景,如自动驾驶。

2. 复杂数学与编程任务

   - DeepSeek-R1在数学推理和代码生成领域展现超越同类模型的能力,适用于需要

精确逻辑分析的专业任务,如算法开发。

3. 中文场景的深度优化

   - 理解文化背景和习惯用语,优于GPT-4的中文处理能力,适用于中文文本分析和

生成,如社交媒体内容管理。


3-13.png


模型参数量的意义

1. 参数量与模型能力

   - 参数量通常与模型的理解和生成能力成正比,但需要更多计算资源。例如,大型

模型在自然语言处理任务中表现更佳,但对硬件要求更高。

2. 参数量与硬件需求

   - 参数增多导致对内存(RAM)和显存(VRAM)的需求增加,影响模型的部署和

运行。例如,小型设备可能难以运行参数量巨大的模型。

3. 参数量与运行速度

   - 参数量大的模型推理速度更慢,尤其在资源不足时。例如,在资源受限的环境中,

小型模型可能更适合实时应用。

4. 参数量与硬件配置匹配

   - 部署DeepSeek时需根据硬件配置选择合适模型版本,如1.5B模型适合资源受限

设备,而67B模型需服务器集群支持。合理匹配可优化性能,避免资源浪费。


3-14.png


硬件选择建议解读

1. 根据需求选择硬件

   对于简单任务,如文本生成,选择1.5B或7B模型,并搭配低配置硬件,如普通笔记

本或台式机。对于复杂任务,如合同分析,需选择14B及以上模型,并配备高性能硬

件,如高端显卡和大容量内存。

2. 考虑预算与性能平衡

   在预算有限的情况下,优先选择低参数量的模型,以满足基本需求,同时降低硬件

成本。例如,1.5B模型可在资源受限设备上运行,适合预算紧张的用户。若预算充足

且对性能要求较高,可选择高参数量模型,如32B或70B,搭配高端硬件,以获得更

强的处理能力和更高的运行效率。

3. 硬件升级与扩展

   随着任务需求的增加和预算的提升,可逐步升级硬件配置,如增加内存、更换高性

能显卡或升级CPU。对于企业用户或科研机构,可根据实际需求构建服务器集群,以

支持大规模模型的运行和复杂任务的处理。


3-15.png


 Ollama模型升级后性能退化问题

1. 问题描述

   升级后的Ollama模型仅运行在CPU上,或因量化精度丢失导致回答质量下降。例

如,模型在处理复杂问题时,可能因资源分配不当而影响性能。

2. 解决方案

   - 锁定依赖版本:通过Docker镜像固定Ollama版本(如ollama/ollama:0.5.1-

cuda),避免自动升级引入兼容性问题。例如,确保模型在特定版本下稳定运行。

   - 显存分配验证:使用nvidia-smi监控GPU利用率,若发现异常回退至CPU,检查

CUDA驱动版本与Ollama编译环境的兼容性。例如,确保CUDA版本与模型需求匹配,

以优化资源利用。


3-16.png


三款界面总结解读

1. PageAssist的功能与适用场景

   PageAssist通过浏览器插件实现本地AI与浏览场景的无缝融合,强调隐私优先和轻

量交互。例如,在高频轻需求场景中,用户可以通过侧边栏对话和文档解析等功能,

将模型能力嵌入日常操作,适合注重数据安全的用户。

2. Chatbox的定位与应用

   Chatbox作为灵活的中台调度工具,通过模块化设计兼容多模型API和插件扩展,

平衡开发者的自定义需求与普通用户的易用性。例如,在需要多模型协同或快速验证

AI能力的场景中,Chatbox能够提供有效的支持。

3. Open WebUI的企业级管理

   Open WebUI聚焦企业级AI服务全生命周期管理,从模型部署、权限控制到知识库

集成提供闭环方案。例如,通过负载均衡、协作聊天等特性,满足规模化团队的技术

管控需求,确保AI服务的高效运行和安全管理。


3-17.png


 R1满血版模型部署方案解读

1. 模型规模与硬件需求

   DeepSeek R1模型因其庞大的参数量(6710亿)对硬件资源要求较高。通常情况

下,部署该模型需要1200G左右的显存,考虑到并发需求,至少需要双节点8卡H100

服务器,总成本在260万至320万左右。即便是INT4精度下,也至少需要490G显存,

单节点8卡H100服务器才能运行。

2. 成本与性能的权衡

   为了实现低成本高性能部署,目前大多数方案采用牺牲模型推理速度的策略。例如

通过CPU+GPU混合推理的方式,将部分推理计算转移到CPU上,以降低GPU的负载

。然而,由于CPU不适合深度学习计算,这导致模型整体推理速度较慢。这种权衡在

资源受限的环境中是常见的做法,但需要根据具体应用场景和性能要求进行调整。

通过CPU+GPU混合推理的方式,将部分推理计算转移到CPU上,以降低GPU的负

载。然而,由于CPU不适合深度学习计算,这导致模型整体推理速度较慢。这种权衡

在资源受限的环境中是常见的做法,但需要根据具体应用场景和性能要求进行调整。


3-18.png


 北大青鸟AI实验室建设方案解读 

1. 方案概述

   北大青鸟AI实验室建设方案旨在解决传统部署方案中硬件适配复杂、资源利用率低等问题。通过提供开箱即用的DeepSeek一体机全栈解决方案,实现深度调优和集成预训练模型与动态调度引擎,以降低部署成本并提高响应效率及数据本地化安全保障。

2. 技术架构

   方案包括应用层、监控层、业务层、容器层和基础设施层。应用层涵盖模型训练、自然语言处理等;监控层负责动态监控和集群监控;业务层管理功能、任务、资源等;容器层采用Kubernetes实现资源隔离和调度;基础设施层基于CentOS/Ubuntu操作系统,提供计算、存储和网络节点。

3. 关键组件

   - 一键部署:内置主流模型管理工具,实现快速部署模型,支持多版本模型。

   - Deepseek:快速发布服务,调用API实现应用对话,支持大模型构建本地数据库。

   - 一体机:模型训练推理场景集中式一体化任务管理,系统资源监控运维的可视化,多种资源结构集中管理,GPU调度切分。