DeepSeek—技术突破与行业机遇

联系我们：
13382173255（Karen郑老师）

学员背景| Course Background

参加对象：1.企业领航者 2.投资机构、企业投资部负责人 3.投行券商研究部有关人员 4.其他对人工智能感兴趣的各行业中高管及技术专家

授课形式：内训

授课天数：2 天

课程背景| Course Background

2023年底ChatGPT爆红、迎来了人工智能的“iPhone时刻“，全球科技巨头与大国政府无不”All-in AI“，在国内也引起了“百模大战”和GPU超算中心的大规模建设，各行业龙头企业也争相建设自身的AI能力和探索。直到乙巳蛇年春节杭州幻方量化公司发布深度求索DeepSeek大模型，引起平地一声雷，震惊世界，欧美媒体纷纷称之为西方的斯“普特尼克时刻“，东方大国一举打破美国在AI领域领先的神话，一群纯本土精英凭借思维链（CoT）、混合专家模型（MoE）、蒸馏（Distillation）、多头潜在注意力(MLA)、负载均衡、存储换取带宽、以及绕过英伟达CUDA框架, 直接进入汇编语言PTX进行精细化性能调优等手段，实现了以超低成本、极短时间训练出可以媲美甚至超越GPT-4o和o1等前沿大模型（Frontier Models）的性能，并且打破了ChatGPT一直保持的黑盒子模式，让用户看到DeepSeek大模型的思考过程，一下子把人工智能大模型通往AGI（通用智能）的道路向前跨进了一大步。

本课程将会对DeepSeek使用的创新手段和技术逐一拆解，用简单易懂的语言介绍，使学员能掌握其中精髓，能极致利用其能力提高自身的生产力；进而针对DeepSeek开创的新时代能为各行各业带来的机遇，进行系统性分析和预测，使学员能结合自身企业的优势，抓住这些难得的发展机会，取得突破性成长。

课程收益| Program Benefits

1. 了解“DeepSeek是怎样做到的？”，从而能准确判断未来的发展趋势

2. 全面了解由于DeepSeek的突破，未来3-5年人工智能在中国市场独特的轨迹与机遇，企业领航者可以提前布局，抢占先机

3. 分析DeepSeek模式对哪些行业有特别大的影响，可以如何把握机会和规避风险

课程大纲| Course Outline

一、 春雷惊世，深度求索

1. 从人工智能的iPhone时刻说起

2. 大国竞争的制高点

(1) 谷歌前CEO Eric Schmidt的斯坦福密谈

(2) AGI：人工智能的597.9高地

3. Scaling Law – 美式火力迷信

(1) 狂轰滥炸，只做Scale Out（堆算力）、对Scale Up（改良算法）不思进取

(2) 蒸馏、量化压缩、强化学习，学术界的“小米加步枪“

(3) 为保领先优势，Open AI闭源变成“Closed AI”

4. 深度求索 — 七大技术创新、打破AI霸权

(1) 核心思路：极致平行化、不浪费任何一发弹药

(2) 借鉴学术界四大经验：CoT, MoE, MLA, 和蒸馏, 虽非DeepSeek首创，但是DeepSeek把它们玩转

(3) 工程实现三大绝招：

1) 首创模型间负载均衡，把网络技术用到大模型内部

2) 优化算子与数据存放提取节奏与方式，使显存效率提高，解决带宽瓶颈

3) 迂回穿插，绕开英伟达CUDA层，直接到大后方用GPU汇编语言PTX构筑工事，数据传输效率大幅提高，并且可兼容国产（华为）GPU

二、 七大技术特点拆解

1. 思维链（CoT）：提升大模型推理能力

(1) 技术简介：

1) 什么是思维链？通过分步推理让模型更接近人类的逻辑思维。

2) 如何通过显式分解任务步骤提升复杂任务的准确率（如数学推理、逻辑判断）。

(2) 商业价值：

1) 应用场景：财务分析、法律文书审核、复杂业务流程自动化。

2) 优势：提高模型在决策和推理中的透明性与可靠性。

(3) DeepSeek如何借用、产生了什么效果

1) 多步骤分解问题，便于把复杂问题分工处理

2) 每个处理单元可以小型化+平行化

2. 混合专家模型（MoE）：大模型的高效扩展

（1) 技术简介：

1) 通过动态激活部分专家网络，实现参数规模的高效利用。

2) 解决的问题：在保持模型性能的前提下降低计算成本。

（2) 商业价值：

1) 应用场景：高并发需求的个性化推荐系统、实时响应的智能助手。

2) 优势：大幅降低算力需求，节省企业部署和运营成本。

（3) DeepSeek如何借用、产生了什么效果

1) 让不同“专家”（创作、设计、分析、聊天、编程、科学运算等）使用不同精度，通过混合精度训练，以及把量化压缩（Quantization）最大化，实现在不牺牲性能的情况下极大降低训练和推理成本。

2) 实现逻辑性比ChatGPT更严谨的推理

3. 蒸馏（Knowledge Distillation）：模型轻量化的关键技术

（1) 技术简介：

1) 蒸馏的原理：通过大模型（教师模型）指导小模型（学生模型）的学习，保留关键能力。

2) 解决的问题：在资源受限的环境中部署高效模型。

（2) 商业价值：

1) 应用场景：移动端AI应用、小型IoT设备上的智能模型部署。

2) 优势：降低硬件依赖，扩展AI技术的应用范围。

（3) DeepSeek如何借用、产生了什么效果

1) 用已经训练好的顶级大模型（包括GPT o1和DeepSeek R1）,打造小型化推理版本, 极大降低用户使用成本

2) 消除对GPU的依赖，扩展DeepSeek的应用范围

4. 多头潜在注意力(MLA)：理解复杂输入的关键

（1) 技术简介：

1) MLA的核心概念：通过多个注意力头捕获输入数据的不同特征和关系。

2) 解决的问题：提升模型对多模态数据（如图像和文本）的理解能力。

（2) 商业价值：

1) 应用场景：多模态搜索引擎、智能客服中的语音和文本融合分析。

2) 优势：更精准地理解复杂输入，提升客户体验。

（3) DeepSeek如何借用、产生了什么效果

1) 平行化/提高并发：提高理解输入Prompt的能力，便于拆解目标进行下一步的路由

2) 投机性偷步：同时执行若干个较大概率路径

5. 负载均衡：优化系统性能的关键手段

（1) 技术简介：

1) 通过合理分配任务，确保系统资源高效利用，避免性能瓶颈。

2) 常见实现方式：

a) 硬件负载均衡：基于专用设备（如负载均衡器）。

b) 软件负载均衡：通过算法和规则动态调度任务。

（2) 商业价值：

1) 应用场景：云计算平台服务、企业内部服务器群组、在线业务高并发处理。

2) 优势：

a) 提高系统稳定性：避免因单点过载导致的服务中断。

b) 优化用户体验：保证高并发场景下的快速响应。

（3) DeepSeek如何借用、产生了什么效果

1) 平行化：使用软件负载均衡，对MoE网络里的专家资源进行调度，确保资源利用率最大化及延时最小化

6. 存储换取带宽：AI计算性能的瓶颈与突破

（1) 技术简介：

1) GPU显存：存储用于计算的数据（如模型参数、输入数据）的空间，其大小直接影响模型训练规模和推理速度。

2) 带宽：GPU与显存之间的数据传输速率，影响计算任务的执行速度。

3) 挑战：

a) 显存不足：限制了大模型的训练和推理能力。

b) 带宽瓶颈：导致GPU计算能力无法完全发挥。

（2) 商业价值：

1) 应用场景：大规模AI模型训练（如Transformer模型）、视频流处理、实时分析。

2) 优势：

a) 优化显存利用：通过技术手段（如混合精度训练、显存压缩）支持更大规模的模型。

b) 提升带宽效率：通过硬件和软件优化提高数据访问速度。

（3) DeepSeek如何借用、产生了什么效果

1) 精准优化：H800等GPU所“阉割”的主要是NVLINK的带宽，因此节省带宽是提高性能的突破口

2) DeepSeek通过改造数据存储节奏，加大显存利用率，降低对带宽的消耗，把阉割版英伟达GPU的性能用到极致

7. PTX精细化性能调优：GPU计算的底层优化

（1) 技术简介：

1) 什么是PTX：PTX（Parallel Thread Execution）是NVIDIA CUDA编程的中间汇编语言，用于描述GPU上的并行计算任务。

2) PTX的优势在于灵活性：开发者可以通过PTX直接优化底层代码以提升GPU计算性能。

（2) 商业价值：

1) 应用场景：高性能AI模型训练、实时图像渲染、科学计算。

2) 优势：

a) 提供更高的性能优化空间：通过直接操作GPU的指令集。

b) 灵活适配硬件：支持不同GPU架构的性能调优。

（3) DeepSeek如何借用、产生了什么效果

1) 通过PTX优化大规模神经网络的训练效率，将计算时间缩短了30%，显著降低了云资源成本。

三、 DeepSeek对全球AI格局的影响

1. 国家战略：人工智能作为“新基建”重点领域 重要性提高

2. 能源霸权（Energy Supremacy）：核聚变 重要性降低

3. 算力霸权（Computing Power Supremacy）：量子计算 重要性降低

4. 国产芯片：重要性提高

(1) GPU: 聚焦生态建设

(2) ASIC / TPU: 新架构才是最好的突破口

(3) 高速连接: Infiniband的国产替代, 高带宽RDMA, CXL等

(4) 高速存储： HBM4、NVMe-oF、Gluster Storage、存算一体

四、 数据层面

1. DeekSeek使用中文进行思考、效率比使用英语高

2. 中文语料严重稀缺

(1) 与传统企业深度结合，推动数字化转型

(2) 从“数字化转型”进一步跨越到“数据化升级“

(3) 数据牧场（Data Farm）

3. 多语言场景, 包括语音

(1) 方言、文化、和行业术语的深度适配

4. 工具链

(1) 谁是中国的Databricks

(2) 内核都一样，工程封装定胜负

五、应用垂直行业的定制化机会

1. 中国特有应用场景（如电商、社交、政务）的需求

2. 医疗、教育、金融等高价值行业的垂直大模型

3. 从企业内部自用（智能客服、文档生成、知识管理等）扩展到对外提供行业数据服务

分组讨论：以自身行业/企业为例，讨论如何利用DeepSeek高效生产“行业数据“

六、 庞大的C端用户基础和商业化潜力

1. 海量用户带来“量变到质变“的机会

(1) 微信、抖音、淘宝、美团、百度、网易云音乐等各种称霸多年的App都处于最容易被颠覆的时候

(2) 微信诞生在“iPhone时刻“后三年，QQ无法彻底自我革命

(3) 文娱及游戏产业链翻天

2. 广告、电商、内容生成等领域的变现路径明显优于海外

七、 机器人及具身智能

一、 制造业优势

二、 人口密集生活环境：机遇与挑战并存

(1) 规模效应明显

(2) 成本优势巨大

(3) 对敏捷度与环境理解力要求极高

(4) 3D地图（室内与室外）需求

三、 国防军工

八、 总结与分享

讲师背景| Introduction to lecturers

了解更多

珀菲特顾问|纪顺友老师

讲师简介 / About the Program Leader

企业战略与产品创新专家—纪顺友老师

背景介绍

Ø 加州大学伯克利分校MBA

Ø 普林斯顿大学电机及电子工程系全奖直博

Ø 现任：香港Apricot AI公司CEO

Ø 现任：香港城市大学管理系客席教授

Ø 曾任：中科招商集团联席总裁丨中科乐创基金管理合伙人

Ø 曾任：腾讯即时通讯部（QQ）总经理、腾讯云创始副总裁

Ø 曾任：美国雅虎公司个人门户产品负责人（美国工作）

Ø 曾任：美国思科公司高级研发工程师（美国工作）

Ø 腾讯首个产品研发金奖获得者

Ø 科技部863计划中国云操作系统项目课题负责人

Ø 26年中外企业实战经历，包括12年世界500强企业、7年PEVC基金管理、以及10年硅谷产品研发经验

实战经验

纪老师在美国和中国共26年工作经验，有横跨互联网、高科技、战略咨询和投资等多个领域的从业经历，有2家世界500强公司思科和腾讯的研发和产品管理经验。纪老师是具有深厚技术背景的优秀产品经理，其在腾讯从零开始打造的WebQQ，在2010年腾讯管理大会上，被Pony马化腾嘉许为“腾讯近年最创新的产品“，同时也获得当时谷歌公司Chrome Book产品线的负责人、现任谷歌CEO Sundar Pichai的赏识，邀请共同打造中国版Chrome Book。

纪老师在2008年回国加入腾讯，担任即时通讯部助理总经理职务，一开始只负责QQ的Web端产品，并没有很大的用户量，团队也只有15人。纪老师凭借先进的产品理念、前瞻性的科技洞察、和个人的努力和激情，把Web端产品系列做到可以跟PC客户端相媲美的流量和用户口碑，因而获得腾讯“总办”嘉许，并被托付与开创腾讯云计算产品线的重任，成为腾讯云创始副总裁及产品负责人，带领腾讯云从零开始到百亿营收千人团队的规模，并取得世界Top10云服务商的优异成绩。

在为腾讯服务7年后，纪老师投身PEVC行业，主管中科招商集团（福布斯2014年中国最佳PE投资机构第3名）旗下的百亿创投基金“中科乐创基金”。纪老师前后共领投了近20个早期项目，涵盖互联网、人工智能、企业服务、大健康、线上教育、机器人等领域。纪老师作为多家创业企业的董事会成员，一直为这些早期创业项目提供战略方向和商业决策的辅导，其中有一家成功被并购、有一家发展壮大成为了独角兽，另外还有多家正在迈向上市的途中。

同时，早在2016年，也就是Sam Altman创立Open AI（ChatGPT）的同一时间，纪老师就已经创立了基于NLP和机器学习的人工智能投顾项目“阿尔妮塔”并担任CEO。至今，纪老师仍然看好人工智能和机器人带来的新质生产力和巨大商机，继续投身人工智能应用领域的创业，并把多年在“大厂”内部创业孵化新产品、以及多年创投的经验，与香港城市大学商学院的学子们分享，并参与筹建港城大的人工智能学院。

风格特点

l 只讲干货：课程内容源自老师近30年亲身实践经验总结，课程贴近实战、实用、实效

l 前瞻引领：老师会专门针对当下局势与未来趋势，引领学员思考如何应用所学的知识

l 逻辑性强：系统架构强，课程的逻辑严密，能够紧紧抓住每个听众的思维，全程无尿点

l 国际视野：老师曾在美国学习工作十多年，并在跨国企业任职，曾到访全球数十个国家，个人阅历与选用的案例都非常国际化

l 激情风趣：老师风趣幽默，课程氛围活跃，通过互动、故事、案例点燃培训现场

l 体验性强：课程概念环节，运用情景体验模式，互动性强，摆脱枯燥无味的讲授

培训课程 / Training courses

一、企业战略

《战略思维与管理》

《商业决策》

《全球视野与趋势预判》

二、产品创新

《如何打造爆款产品》

《产品经理的自我修炼》

《创新力》

三、AI生产力

《第二波人工智能爆发的中国机会》

《领导必修的人工智能课》

《AI生产力行业落地》

代表性客户 / PART OF TRAINED COMPANIES INCLUDED BUT NOT LIMITED TO

华为、腾讯、GLG、金地集团、博将资本等

开课地点

开课时间

热门搜索

梯度领导力解决方案

企业内训师解决方案

一线班组长解决方案

智能工厂解决方案

新员工培养解决方案

企业内训课关键词

珀菲特顾问|纪顺友老师

讲师简介 / About the Program Leader

培训课程 / Training courses

代表性客户 / PART OF TRAINED COMPANIES INCLUDED BUT NOT LIMITED TO

服务流程

服务优势

对行业特性的深刻理解

丰富的案例库及落地方案

经验深厚的咨询团队

关于珀菲特顾问

我们是？人才培养与智能制造解决方案提供商。

我们做什么？承接组织绩效提升与人才学习发展业务。

服务的客户：世界五百强企业、合资工厂、国有企业、快速发展的民营企业、行业领头企业。

2011年成立

6000+

600000+

1500+

10000+

800+

20+

线下业务

内训课

项目咨询

公开课

视频资讯

培训的客户涵盖多个行业的知名企业

数字化搭建企业学习平台，加速人才培养

解决方案

企业内训

企业公开课

企业在线平台

400-008-4600

6000⁺

600000⁺

1500⁺

10000⁺

800⁺

20⁺