企业内训课关键词

KEY WORDS OF Corporate Training

培训地址:
关键字:
企业级 SRE 工程体系与平台化能力建设

联系我们:
13382173255(Karen郑老师)

学员背景| Course Background

参加对象:SRE工程师 运维工程师 运维开发工程师

授课形式:内训

授课天数:2 天

课程背景| Course Background

随着业务系统规模持续扩大、微服务与分布式架构成为主流,企业的软件系统复杂度和运维难度显著提升。在任务日益繁重、系统变更频率不断加快的背景下,如何通过工程化方法保障系统稳定性、降低故障恢复对专家的依赖、提升自动化运维与平台化能力,成为企业技术团队必须面对的核心课题。

本课程面向企业真实运维与研发场景,聚焦 大型分布式系统稳定性设计、SRE 方法论体系、自动化运维与数据驱动运维、平台化能力建设 四大领域,通过系统化理论讲解与案例推演,帮助学员建立统一的 SRE 工程认知,并形成可用于企业落地的平台化建设路线。

课程重点解决以下实际问题:

如何设计、构建、运行一套稳定的分布式系统(从架构到运维的全链路视角)

如何理解并落地 SRE 核心方法论(SLO/可观测性/自动化/事故管理)

如何在 k8s 等现代基础设施之上构建稳定性保障体系(明确边界与常见误区)

如何基于监控、日志、链路数据构建运维数据处理方案,并推动工具整合与平台化演进(对标一站式运维平台建设目标)

课程收益| Program Benefits

1. SRE 体系认知与稳定性工程能力:掌握 SRE 的核心思想与方法论框架,建立对大型分布式系统稳定性问题的正确预期与工程化治理思路,能够指导团队从“经验型运维”向“工程化稳定性”转型。

2. 可观测性与运维数据体系能力:理解指标、日志、链路等可观测性数据在稳定性管理中的角色分工,掌握“数据驱动决策”的基本方法,能够规划运维数据采集、处理、告警与分析的整体体系。

3. 自动化运维与执行体系能力:掌握自动化运维的分级模型与适用边界,能够识别发布、扩缩容、故障处理等场景的自动化落地点,降低关键流程对个人经验的依赖。

4. 事故管理与持续改进能力:掌握事故管理的工程化流程与无责复盘机制,能够把事故经验转化为流程、规范与平台能力,形成可持续的稳定性改进闭环。

5. 平台化建设与演进能力:理解从工具堆砌到一站式平台的演进逻辑,掌握平台化 SRE 的核心抽象(数据、事件、流程、自动化、审计),形成企业级 SRE 能力建设路线图。

课程大纲| Course Outline

�� Day 1|统一 SRE 工程认知

第一讲:SRE 体系认知与稳定性方法论

第一章:为什么我们需要 SRE

章节目标:帮助学员理解传统运维在系统规模化背景下的根本局限,并建立稳定性需要工程化解决的基本认知。

1. 传统运维 vs SRE 的本质差异

2. 系统规模化带来的复杂度挑战

3. “经验型运维”到“工程化稳定性”

第二章:常见的系统与运维认知误区

章节目标:识别并纠正常见的稳定性认知偏差,为后续 SRE 方法论学习建立正确。

1、 “系统不出故障就是稳定”

2、 “上了云 / k8s 就天然高可用”

3、 “监控越多系统越安全”

第三章:SRE 的核心目标与价值边界

章节目标:明确 SRE 在企业技术体系中的职责边界与定位,避免将其误解为工具或单一岗位。

1、 SRE 解决什么问题

2、 SRE 不解决什么问题

3、 SRE 在企业技术体系中的定位

第二讲:为什么一定会失败 —— 分布式系统的工程现实

第一章:分布式系统的天然不可靠性

章节目标:建立对分布式系统不可靠性的现实预期,为理解稳定性设计的必要性奠定基础。

1、 网络不可靠与延迟不确定性

2、 时钟与状态不一致问题

3、 部分失败的常态化

第二章:系统复杂度与失效概率

章节目标:理解系统复杂度随规模增长而失控的规律,以及服务依赖对稳定性的放大效应。

1、 系统规模与复杂度的非线性增长

2、 服务依赖关系的放大效应

3、 级联故障的形成机制

第三章:稳定性问题的真实来源

章节目标:帮助学员区分表面技术问题与系统性问题,理解稳定性风险的真实来源。

1、 技术问题 vs 系统性问题

2、 架构设计对稳定性的长期影响

3、 运维方式对故障的放大作用

第三讲:SRE 的核心方法论框架

第一章:SRE 的方法论整体结构

章节目标:建立对 SRE 方法论整体结构的系统认知,为后续具体能力学习提供框架视角。

1、 SRE 的四大核心支柱

2、 工程化稳定性的基本思路

3、 方法论在企业中的应用方式

第二章:SLI / SLO 的基本概念

章节目标:理解如何通过 SLI / SLO 将系统稳定性从抽象概念转化为可量化目标。

1、 什么是 SLI,什么是指标

2、 SLO 与业务目标的关系

3、 技术指标与业务可用性的映射

第三章:Error Budget 的管理思想

章节目标:理解 Error Budget 如何在稳定性与研发效率之间建立可管理的平衡机制。

1、 为什么稳定性不能追求 100%

2、 Error Budget 的约束作用

3、 稳定性与研发效率的平衡

第四讲:从人治运维到工程化稳定性

第一章:人治运维的结构性瓶颈

章节目标:识别人治运维在规模化系统中的不可持续性及其带来的系统性风险。

1、 专家依赖与知识孤岛

2、 经验不可复用的问题

3、 运维能力难以规模化

第二章:工程化稳定性的关键特征

章节目标:理解工程化稳定性的核心特征,建立稳定性可设计、可管理的认知基础。

1、 可度量的稳定性目标

2、 可约束的研发与运维行为

3、 可自动化的执行能力

第三章:SRE 与组织协作模式

章节目标:理解 SRE 在组织中的协作方式及其对研发与运维协同的影响。

1、 SRE 与开发团队的协作关系

2、 SRE 与运维团队的角色演进

3、 SRE 在技术治理中的作用

�� Day 2|平台化落地能力

 

第五讲:SRE 数据体系与可观测性能力

第一章:SRE 所依赖的数据基础

章节目标:理解数据在稳定性工程中的基础性作用以及数据缺失带来的运维风险。

1、 为什么数据是稳定性的基础

2、 数据驱动决策的必要性

3、 数据缺失带来的风险

第二章:可观测性的核心组成

章节目标:明确指标、日志与链路在稳定性分析中的不同角色与价值。

1、 指标(Metrics)的角色

2、 日志(Logs)的价值

3、 链路(Traces)的作用

第三章:从监控到可观测性

章节目标:理解可观测性相较传统监控所提供的能力边界与决策价值。

1、 传统监控的局限

2、 可观测性支持的能力边界

3、 可观测性与稳定性管理的关系

第六讲:告警体系与稳定性管理能力

第一章:告警在 SRE 中的角色

章节目标:理解告警在稳定性工程中的真实作用以及其与人类注意力的关系。

1、 告警的真实目的

2、 告警与人类注意力的关系

3、 告警失效的常见原因

第二章:告警设计的基本原则

章节目标:掌握告警设计的基本原则,避免无效告警和告警泛滥问题。

1、 哪些问题值得被告警

2、 告警的优先级与分级

3、 告警与业务目标的关联

第三章:从告警响应到稳定性管理

章节目标:理解告警如何从被动响应工具演进为稳定性管理的重要手段。

1、 告警与决策的关系

2、 告警系统的长期演进

3、 避免告警疲劳的方法

第七讲:自动化运维与工程化执行能力

第一章:自动化运维的演进阶段

章节目标:理解自动化运维能力的阶段性演进路径,避免对自动化的过度期待。

1、 人工操作阶段

2、 脚本化与流程化阶段

3、 自动化与自愈系统阶段

第二章:自动化的价值与边界

章节目标:识别适合自动化的运维场景,并理解自动化可能带来的新风险。

1、 哪些场景适合自动化

2、 自动化带来的新风险

3、 过度自动化的典型问题

第三章:自动化与稳定性工程

章节目标:理解自动化在稳定性工程中的作用及其对运维模式的影响。

1、 自动化在发布中的作用

2、 自动化在故障处理中的应用

3、 自动化对运维模式的改变

第八讲:平台化 SRE 能力建设与演进路线

第一章:从工具堆砌到平台化能力

章节目标:认识工具割裂的长期成本,并理解平台化建设的必要性。

1、 工具割裂带来的长期成本

2、 平台化建设的必要性

3、 能力沉淀与复用的问题

第二章:平台化 SRE 的核心能力模型

章节目标:理解平台化 SRE 的核心能力构成,为企业平台建设提供方法论参考。

1、 数据能力的统一

2、 事件与流程的统一

3、 自动化能力的统一

第三章:企业级 SRE 能力演进路径

章节目标:建立企业 SRE 能力分阶段演进的整体认知,明确不同阶段的建设重点。

1、 初级阶段:工具与流程

2、 中级阶段:能力沉淀与自动化

3、 高级阶段:智能化与决策支持

 

讲师背景| Introduction to lecturers

珀菲特顾问|谢海林老师

讲师简介 / About the Program Leader

谢海林老师  AI企业级应用实战专家

前腾讯T12级技术专家(CDG技术委员会第一个运维领域12级专家)

前虾皮PE技术专家

腾讯学员优秀讲师、虾皮学院“十全十美”讲师

 22年互联网技术开发与智能化运维实战经验

曾任:腾讯(世界500强,上市公司)丨金融科技研发部负责人

曾任:虾皮(东南亚最大的电商平台)丨首席工程师

曾任:长沙创智软件园丨软件开发工程师

 擅长领域:AI+办公效能提升、AI+项目管理提效、AI+人力资源管理优化、AI+智能体工作流搭建、AI+企业流程自动化、企业级AI应用架构、AI+行业场景落地等

 30+企业级智能化应用系统和平台搭建擅长AIOps智能运维工具链、DevOps平台架构、云原生技术栈,深度融合AI算法、大数据处理、自动化运维等技术,为互联网、金融、电商等多行业定制化搭建30+企业级智能化系统和平台:

01」主导腾讯微信支付、理财通、自选股等核心业务技术升级:通过智能运维系统构建,实现服务器资源弹性扩展50倍,推动企业级运维自动化率提升超50%,系统可用性达99.99%+。

02主导搭建虾皮5秒级粒度的智能数据监测平台,聚焦AI效率优化与大数据实时处理,实现交易流量、订单转化等核心指标的实时智能分析,通过AI风险预测模型,将电商大促系统稳定性风险降低90%。

 

实战经验:

谢海林老师深耕互联网大厂开发和运维22年,拥有10万+服务器大型互联网系统运维以及运维平台体系化建设的落地实战经验,聚焦AI与DevOps、智能运维(AIOps)、云原生架构的深度融合,擅长从技术研发到团队管理的全链条落地,为企业构建智能化、自动化、高可靠的技术运营体系,助力传统运维向“人机协同”模式转型,实现效率跃升与成本优化。

 

——任职【腾讯】期间——

01】打造腾讯首个具备一键跨城容灾切换能力的金融级平台

——牵头建设“磐石高可用运维平台”,整合监控、日志、故障定位等12大核心平台,管理30000+服务器,日均处理百亿级数据,实现10分钟故障处理、无损灰度发布、常态化跨城容灾演习,系统可用性达99.99%。

02】搭建腾讯金融新一代提升开发效率的开发者平台

——担任总架构师,统筹建设devops云原生一体化开发者平台,打通30+技术系统,推动1000+开发者团队向云原生转型,实现研发自助发布率>90%,版本交付周期从30天压缩至9天,组织效率提升40%。

03】构建金融级统一配置管理中枢

——主导“腾讯金融统一配置中心”项目,解决业务路由与变量配置的复杂性难题,首次实现金融业务配置的集中化管控,设计“极致容灾+全网agent管控+灰度兼容”三大核心能力,消除本地配置依赖,大幅提升配置变更的安全和效率,成为腾讯金融业务系统最终依赖的平台和标准。

04】打造腾讯首个TEG数平秒级智能监控中枢

——主导“TEG数平秒级监控平台”建设,构建每日处理100亿+海量日志与监控数据的实时分析体系,提出“面积算法”“斜率杠杆”等创新型监控算法,保障主要业务系统、推荐系统、数据系统的稳定运行,实现业务系统稳定性的“秒级感知-分钟级响应

 

——任职【虾皮】期间——

01】构建电商行业领先的智能化SRE运维体系

——主导业务SRE相关工具和系统建设,服务深圳100+SRE团队的资源管理、故障定位、大促保障等核心场景,提出“三颗树”“管理模型”及“握手点・最小资源模型”协作方法论,落地资源管理、需求交付、标准发布、故障定位处理四大核心系统,实现工单需求标准工具自动率>40%,故障定位准确性>90%,运维责任故障下降70%。

02】建设支撑电商大促的AI数据可视化分析系统平台

——为双11、双12等大促场景定制AI数据可视化分析系统,借助Spark等工具对海量交易数据进行实时处理,搭建5秒粒度的实时数据统计,成为公司实时观测大屏。实现对交易流量、订单转化率等关键指标的实时监测,提前预警服务器负载风险,减少并降低了大促系统稳定性90%的风险,同时为大促期间的业务决策提供精准依据。

03】搭建公司内部统一工单系统

——通过“工作台”和“工单SLA环节交互可视化”的方法,成功上线需求提交、工单分发、交付进度实时追踪以及反馈评价四大关键模块,同时对接后端工具自动化交付系统,实现工单需求提交的合规率超80%,工单平均处理时长缩短60%,部门间因沟通不畅导致的工单退回率降低50%,工单自动化率>40%,大幅提升工作协作效率和内部客户满意度。

 

授课风格:

实战导向:拥有丰富的实践经验,将理论知识与实际案例紧密结合,深度剖析AI技术与企业应用结合点、落地路径、挑战及解决方案,助力学员掌握从需求分析到执行的全流程技能。

通俗易懂:洞悉学员对AI技术的畏难心理,以生活化类比拆解复杂算法,解读背后商业逻辑。减少专业术语,通过生动演示、图表拆解技术概念,确保零基础学员也能轻松理解。

系统架构:课程遵循“理论奠基-场景应用-实战创新”逻辑,构建完整知识体系。从AI基础概念、发展历程讲起,逐步深入行业应用场景与解决方案,帮助学员建立具备竞争力的AI商业知识框架。

互动教学:秉持互动教学理念,采用“讲授+研讨+实战”等多元模式。鼓励学员分享经验,组织跨行业交流,实时关注学员反馈,提供个性化指导,让学员在轻松氛围中实现主动学习。



培训课程 / Training courses

《职场效率革命:AI助力10倍综合办公效能提升》

《职场效率革命:AI助力10倍项目管理效能提升》

《职场效率革命:AI助力10倍人力资源效能提升》

《企业效率革命:AI工作流程自动化实战》

《企业效率革命:AI agent(智能体+AI应用产品)搭建实战》

《企业效率革命:从入门到精通的企业AI实战

《AI赋能高效数据处理与数据分析——从手工劳动到智能协同》



代表性客户 / PART OF TRAINED COMPANIES INCLUDED BUT NOT LIMITED TO

部分服务客户:公开课19期、广州中南民航空管技术装备工程有限公司、江苏苏美达集团有限公司、广州市岭头投资有限公司、中国广核集团有限公司、中国储备粮管理集团有限公司广东分公司、中国电信股份有限公司湘西分公司、中国航发燃气轮机有限公司、中山西部外环高速公路有限公司、广东省建筑工程监理有限公司、福建省烟草公司厦门市公司安徽中烟工业有限责任公司合肥卷烟厂


服务流程

Service Procedure

  • 提交需求
  • 沟通诊断
  • 项目调研
  • 方案设计
  • 达成共识
  • 项目实施
  • 持续跟踪
  • 效果评估

服务优势

Service Advantages

  • 对行业特性的深刻理解

    我们拥有几百家各类企业的项目咨询基础、多行业数据库、多年的行业经验,并对企业进行深度研究和剖析,总结出一系列深入的观点和经验。

  • 丰富的案例库及落地方案

    我们的咨询方案的设计过程秉承“知行合一”的理念,既具备理论知识,又重视项目的实操性。经过多年的经验,我们积累了丰富的案例库,涉及18个领域,近千个案例,并将案例与咨询项目完美结合。

  • 经验深厚的咨询团队

    我们的咨询团队分布于各大领域,拥有多年的业内从业经验,具备丰富的企业管理实操经验。在定制咨询方案前,我们会为客户匹配多位业内咨询师,供客户进行比对选择,根据客户需求及问题,定制化地设计咨询方案,确保项目的顺利进行。

关于珀菲特顾问

ABOUT PERFECT CONSULTANT

我们是?人才培养与智能制造解决方案提供商。

We are? Talent training and intelligent manufacturing solutions provider.

我们做什么?承接组织绩效提升与人才学习发展业务。

What we do ?Provide organizational performance improvement and talent learning development business.

服务的客户:世界五百强企业、合资工厂、国有企业、快速发展的民营企业、行业领头企业。

Customers:Each year, we serves more than 1000 enterprises (including fortune 500 enterprises, joint venture factories, state-owned enterprises, rapidly developing private enterprises and industry-leading enterprises).

  • 2011年成立

    10年更懂你

  • 6000+

    中大型企业共同选择

  • 600000+

    累计培训学员

  • 1500+

    现有公开课

  • 10000+

    现有内训课

  • 800+

    现有在线课程

  • 20+

    辐射城市

线下业务

OFFLINE BUSINESS

  • 内训课

    高层团队引导工作坊

    中层管理内训

    基层管理内训

  • 项目咨询

    人才梯队建设咨询项目

    工厂运营咨询项目

    TTT内训师咨询项目

  • 公开课

    领导力公开课

    精益智造公开课

    个人效能公开课

视频资讯

Video Information

【见证企业成长每一步】
AI效能提升 × HR实战干货 × 领导力精要,前沿管理智慧每周更新,
关注视频号获取全场景管理解决方案,让卓越触手可及!


企业视频号


官网电话:400-008-4600;手机号:13382173255(Karen郑老师);网站:www.perfectpx.com

培训的客户涵盖多个行业的知名企业

PART OF TRAINED COMPANIES INCLUDED BUT NOT LIMITED TO

数字化搭建企业学习平台,加速人才培养

专属云大学,一键部署,智能配课,千人千面

1.点击下面按钮复制微信号

13382173255

点击复制微信号

珀菲特企业管理
Karen /郑老师