本次讲座为DeepSeek原理和应用系列研讨的讲座之一,让大家可以决策是否需要自己部署DeepSeek系列模型,并了解自己本地化部署DeepSeek的基本方法,同时了解更专业的企业级部署方法,有助于选择DeepSeek一体机型号,并能理解DeepSeek云服务的工作机制和原理,用好DeepSeek云服务的API调用方法。
本次讲座为DeepSeek原理和应用系列研讨的讲座之一,让大家可以决策是否需要自己部署DeepSeek系列模型,并了解自己本地化部署DeepSeek的基本方法,同时了解更专业的企业级部署方法,有助于选择DeepSeek一体机型号,并能理解DeepSeek云服务的工作机制和原理,用好DeepSeek云服务的API调用方法。
本讲座的内容分为四个主要部分:
① 首先,除了DeepSeek满血版之外,还有各种各样的蒸馏版和量化版,以及DeepSeek的不同专业模型。我们将介绍人工智能大模型的基本概念,以及DeepSeek各个模型的特点与适用场景,对比不同规模模型的性能表现,帮助大家选择最适合自己需求的版本。
② 其次,对于普通用户在自己的电脑上部署和体验DeepSeek(蒸馏版)的情况,我们会评估和建议硬件要求,演示如何通过Ollama命令行高效部署DeepSeek模型,解决下载过程中可能遇到的常见问题。为了提升在自己的电脑上安装DeepSeek模型后,大家与DeepSeek模型的交互体验,我们还将介绍Open WebUI和Chatbox等前端展示工具的配置与使用方法。
③ 然后,对于专业级的企业部署DeepSeek,或把DeepSeek(蒸馏版和满血版)部署在专业的昂贵的推理机上,本讲座将探讨基于Transformers快速验证和vLLM的高性能部署方案,并提供真实企业基于vLLM的部署DeepSeek-70b的相关数据和经验。
④ 最后,作为补充内容,针对计算资源受限的场景,我们专门设计了"低成本部署"环节,详细讲解Unsloth R1动态量化部署的三种实现路径:基于llama.cpp、KTransformers以及Ollama框架动态量化部署。
3. 在技术学习的道路上,优质学习资源至关重要。推荐大家参考《人工智能通识教程(微课版)》这本系统全面的入门教材,结合B站“思睿观通”栏目的配套视频进行学习。此外,欢迎加入ai.kgc.cn社区,以及“AI肖睿团队”的视频号和微信号,与志同道合的AI爱好者交流经验、分享心得。
人工智能的演进
1. 人工智能的定义与分类
- 人工智能旨在模拟人类智能,分为人类智能与非人类智能(超人智能)。
2. 机器学习与神经网络
- 机器学习是人工智能的核心,涵盖统计学习方法与数据建模。
- 神经网络的发展经历了传统与深度学习的转变,Transformer架构尤为关键。
3. 模型架构的创新
- Transformer架构引入注意力机制,提升了并行计算效率。
- 大语言模型(LLM)如GPT,推动了生成式AI的发展。
- Diffusion模型在视觉与语言模型中的应用,展示了多模态融合的潜力。
4. 未来展望
- 随着技术进步,人工智能将在更多领域展现其超越人类的能力,推动社会变革。
生成模型与推理模型的对比分析
1. 模型定位
- OpenAI GPT-4o(生成模型):专注于多模态处理,适合日常对话、内容生成
等。
- OpenAI o1(推理模型):侧重复杂推理与逻辑能力,适用于数学、编程等任务。
2. 推理能力
- 生成模型在复杂逻辑推理中表现一般,但在多模态信息处理上优势明显。
- 推理模型在逻辑推理任务中表现卓越,尤其在数学和代码分析方面。
3. 多模态支持
- 生成模型支持文本、图像、音频等多种模态输入,应用场景广泛。
- 推理模型主要支持文本输入,多模态能力有限。
4. 应用场景
- 生成模型适合对话、内容生成等任务,面向大众市场。
- 推理模型适合需要精确推理的专业任务,如数学竞赛、编程问题。
5. 用户交互体验
- 生成模型提供流畅的实时对话体验,用户界面友好。
- 推理模型交互节奏较慢,适合自主链式思考。
DeepSeek模型的演进与优化
1. 核心架构的演变
- DeepSeek V2采用混合专家架构,参数量为2360亿,激活210亿。
- V3升级为6710亿参数,激活370亿,显著提升规模。
2. 训练方法的创新
- V2结合传统预训练与强化学习,数据量达8.1万亿tokens。
- V3引入SFT、MTP和RL,数据量增至14.8万亿tokens。
3. 关键特性的突破
- V2首次引入MoE架构,V3实现60 TPS的代码生成速度。
- R1通过RL驱动推理优化,实现自我进化。
4. 性能表现的对比
- V2生成速度20TPS,V3在NLP任务中接近GPT-4o,API成本降低。
- R1在数学推理和代码生成上与先进模型相当。
DeepSeek-V2模型解读
1. 模型简介
- DeepSeek-V2在性能上显著优于前代模型,节省42.5%训练成本,减少93.3%
KV缓存,生成吞吐量提升5.76倍。
2. 设计初衷
- 旨在解决大语言模型训练成本高、推理效率低的问题,通过MoE架构降低成本,
提高效率。
3. 核心原理
- 基于混合专家(MoE)架构,将任务分配给多个专家模型,提升处理复杂任务的
灵活性和效率。
DeepSeek-V3模型解读
1. 模型架构
- DeepSeek V3沿用了V2的MLA和MoE架构,保持了模型的稳定性和扩展性。
2. 训练目标的创新
- 在V2的基础上,V3增加了多令牌预测(MTP)的训练目标,提升了模型的预测
能力。
3. 预测机制的优化
- MTP允许模型同时预测多个token,提高了预测效率,类似于并行处理多个字符,
增强了模型的响应速度和准确性。
4. 应用潜力
- 这种改进使得V3在处理复杂任务时更加灵活,例如在自然语言处理中的多任务学
习,能够更好地适应不同的应用场景。
DeepSeek-R1模型解读
1. 模型特点
- DeepSeek-R1通过强化学习与非监督学习结合,显著提升了大模型在数学和逻辑推理任务中的表现。
2. 性能验证
- 在多个基准测试中,如MATH-500和MMLU,R1模型的表现与OpenAI-o1模型相当,甚至在某些任务中超越现有大模型。
3. 学习机制
- 强化学习使模型能够自动学习复杂的推理行为,随着训练的深入,模型的解答能力和推理能力显著提高。
4. 应用前景
- 这种提升为大模型在需要精确推理的专业领域,如科学研究和工程设计,提供了更广阔的应用前景。
DeepSeek模型特点总结
1. 混合专家模型(MoE)
- DeepSeek利用MoE架构,通过动态选择最合适的专家模块处理数据,有效提升
了模型的推理能力和效率。
2. 无辅助损失的负载均衡策略(EP)
- 该策略确保了各专家模块的负载均衡,避免了资源浪费,提高了模型的整体。
3. 多头潜在注意力机制(MLA)
- 通过减少Key-Value缓存,MLA显著提升了模型的推理效率,优化了资源使用。
4. 强化学习驱动(RL)
- DeepSeek-R1大规模应用强化学习,采用GRPO训练算法,显著提升了模型的推
理能力。
5. 多Token预测(MTP)
- 通过多Token预测,DeepSeek不仅提高了推理速度,还降低了训练成本,增强了
模型的实用性。
DeepSeek模型训练及框架特点
1. FP8混合精度训练
- 采用FP8混合精度训练,关键计算步骤使用高精度,其他层使用低精度,降低训练
成本,是DeepSeek在基础设施工程上的突破。
2. 长链推理技术(TTC)
- 支持数万字的长链推理,逐步分解复杂问题,提高模型的逻辑推理能力。
3. 并行训练策略(HAI)
- 采用16路流水线并行、64路专家并行及数据并行,大幅提升模型训练速度。
4. 通讯优化DualPipe
- 利用IB和NVLink带宽,减少通信开销,提高模型推理性能。
5. 混合机器编程(PTX)
- 部分代码直接使用PTX编程,提高执行效率,优化算子库。
6. 低成本训练
- DeepSeek-V3的训练成本为557.6万美元,仅为GPT-4o等模型的3%-5%,展示
了成本效益。
DeepSeek模型的社会价值
1. 开源生态
- DeepSeek通过采用开源策略和MIT协议,促进了AI技术的开放发展,吸引了广泛
的开发者和研究人员参与。
2. 模型蒸馏支持
- DeepSeek-R1发布多个模型蒸馏版本,帮助用户训练更小型的模型,满足多样化
应用需求,尽管这可能限制了大型模型的选择。
3. AI普及教育
- 随着AI成为趋势,用户主动引入AI,减少对教育的依赖,大模型企业更加重视基
础设施工程的价值,推动了技术的普及和教育。
模型蒸馏概念解读
1. 定义
- 模型蒸馏是将大型复杂模型(教师模型)的知识迁移到小型高效模型(学生模
型)的技术。
2. 原理
- 通过训练教师模型并生成软标签,学生模型学习这些标签以优化性能,减少计算
成本。
3. 优势
- 学生模型参数少,计算成本低,适合资源受限环境;性能提升,效率更高,训练
成本降低。
DeepSeek模型的应用场景
1. 边缘计算场景的低延迟部署
- DeepSeek与天翼云智能边缘云ECX结合,实现边缘节点部署模型,降低数据传输
延迟,适用于实时性要求高的场景,如自动驾驶。
2. 复杂数学与编程任务
- DeepSeek-R1在数学推理和代码生成领域展现超越同类模型的能力,适用于需要
精确逻辑分析的专业任务,如算法开发。
3. 中文场景的深度优化
- 理解文化背景和习惯用语,优于GPT-4的中文处理能力,适用于中文文本分析和
生成,如社交媒体内容管理。
模型参数量的意义
1. 参数量与模型能力
- 参数量通常与模型的理解和生成能力成正比,但需要更多计算资源。例如,大型
模型在自然语言处理任务中表现更佳,但对硬件要求更高。
2. 参数量与硬件需求
- 参数增多导致对内存(RAM)和显存(VRAM)的需求增加,影响模型的部署和
运行。例如,小型设备可能难以运行参数量巨大的模型。
3. 参数量与运行速度
- 参数量大的模型推理速度更慢,尤其在资源不足时。例如,在资源受限的环境中,
小型模型可能更适合实时应用。
4. 参数量与硬件配置匹配
- 部署DeepSeek时需根据硬件配置选择合适模型版本,如1.5B模型适合资源受限
设备,而67B模型需服务器集群支持。合理匹配可优化性能,避免资源浪费。
硬件选择建议解读
1. 根据需求选择硬件
对于简单任务,如文本生成,选择1.5B或7B模型,并搭配低配置硬件,如普通笔记
本或台式机。对于复杂任务,如合同分析,需选择14B及以上模型,并配备高性能硬
件,如高端显卡和大容量内存。
2. 考虑预算与性能平衡
在预算有限的情况下,优先选择低参数量的模型,以满足基本需求,同时降低硬件
成本。例如,1.5B模型可在资源受限设备上运行,适合预算紧张的用户。若预算充足
且对性能要求较高,可选择高参数量模型,如32B或70B,搭配高端硬件,以获得更
强的处理能力和更高的运行效率。
3. 硬件升级与扩展
随着任务需求的增加和预算的提升,可逐步升级硬件配置,如增加内存、更换高性
能显卡或升级CPU。对于企业用户或科研机构,可根据实际需求构建服务器集群,以
支持大规模模型的运行和复杂任务的处理。
Ollama模型升级后性能退化问题
1. 问题描述
升级后的Ollama模型仅运行在CPU上,或因量化精度丢失导致回答质量下降。例
如,模型在处理复杂问题时,可能因资源分配不当而影响性能。
2. 解决方案
- 锁定依赖版本:通过Docker镜像固定Ollama版本(如ollama/ollama:0.5.1-
cuda),避免自动升级引入兼容性问题。例如,确保模型在特定版本下稳定运行。
- 显存分配验证:使用nvidia-smi监控GPU利用率,若发现异常回退至CPU,检查
CUDA驱动版本与Ollama编译环境的兼容性。例如,确保CUDA版本与模型需求匹配,
以优化资源利用。
三款界面总结解读
1. PageAssist的功能与适用场景
PageAssist通过浏览器插件实现本地AI与浏览场景的无缝融合,强调隐私优先和轻
量交互。例如,在高频轻需求场景中,用户可以通过侧边栏对话和文档解析等功能,
将模型能力嵌入日常操作,适合注重数据安全的用户。
2. Chatbox的定位与应用
Chatbox作为灵活的中台调度工具,通过模块化设计兼容多模型API和插件扩展,
平衡开发者的自定义需求与普通用户的易用性。例如,在需要多模型协同或快速验证
AI能力的场景中,Chatbox能够提供有效的支持。
3. Open WebUI的企业级管理
Open WebUI聚焦企业级AI服务全生命周期管理,从模型部署、权限控制到知识库
集成提供闭环方案。例如,通过负载均衡、协作聊天等特性,满足规模化团队的技术
管控需求,确保AI服务的高效运行和安全管理。
R1满血版模型部署方案解读
1. 模型规模与硬件需求
DeepSeek R1模型因其庞大的参数量(6710亿)对硬件资源要求较高。通常情况
下,部署该模型需要1200G左右的显存,考虑到并发需求,至少需要双节点8卡H100
服务器,总成本在260万至320万左右。即便是INT4精度下,也至少需要490G显存,
单节点8卡H100服务器才能运行。
2. 成本与性能的权衡
为了实现低成本高性能部署,目前大多数方案采用牺牲模型推理速度的策略。例如
通过CPU+GPU混合推理的方式,将部分推理计算转移到CPU上,以降低GPU的负载
。然而,由于CPU不适合深度学习计算,这导致模型整体推理速度较慢。这种权衡在
资源受限的环境中是常见的做法,但需要根据具体应用场景和性能要求进行调整。
通过CPU+GPU混合推理的方式,将部分推理计算转移到CPU上,以降低GPU的负
载。然而,由于CPU不适合深度学习计算,这导致模型整体推理速度较慢。这种权衡
在资源受限的环境中是常见的做法,但需要根据具体应用场景和性能要求进行调整。
北大青鸟AI实验室建设方案解读
1. 方案概述
北大青鸟AI实验室建设方案旨在解决传统部署方案中硬件适配复杂、资源利用率低等问题。通过提供开箱即用的DeepSeek一体机全栈解决方案,实现深度调优和集成预训练模型与动态调度引擎,以降低部署成本并提高响应效率及数据本地化安全保障。
2. 技术架构
方案包括应用层、监控层、业务层、容器层和基础设施层。应用层涵盖模型训练、自然语言处理等;监控层负责动态监控和集群监控;业务层管理功能、任务、资源等;容器层采用Kubernetes实现资源隔离和调度;基础设施层基于CentOS/Ubuntu操作系统,提供计算、存储和网络节点。
3. 关键组件
- 一键部署:内置主流模型管理工具,实现快速部署模型,支持多版本模型。
- Deepseek:快速发布服务,调用API实现应用对话,支持大模型构建本地数据库。
- 一体机:模型训练推理场景集中式一体化任务管理,系统资源监控运维的可视化,多种资源结构集中管理,GPU调度切分。