SRE / AIOps 转型训练营

SRE / AIOps 转型训练营

这个栏目把两份本地文档整理成一条可以在博客里执行的学习路线:

  • 30岁职业危机与AI转型行动方案.md
  • 运维开发SRE练习路线与GitHub案例.md

主线不是泛泛地学技术栈,而是围绕一个可展示项目推进:

ops-diagnose:私有云基础组件自助诊断 + 监控 + AI Runbook 知识库

01 职业方向判断

先确定为什么走 SRE / 运维开发 / AIOps,而不是从零转算法或纯前端。

02 12 周路线

按周拆解 Linux、基础组件、CLI、监控、K8s、数据库、Ansible、AI 知识库。

03 第一周马上开始

今天就能执行的 5 天任务,不先买课,不先收藏资料。

04 主项目设计

定义 ops-diagnose 的目录、命令、检查项、报告、指标和简历表达。

05 Runbook 与复盘模板

把每一次答疑变成标准化资产,能被脚本、监控和 AI 复用。

06 GitHub 资料索引

本地下载路径、资源优先级、使用方法和待重试仓库。

学习原则

  1. 每天只做一个小闭环:选问题、复现或分析、写命令、记录证据、沉淀文件。
  2. 每天必须有文件变更:.md.py.yaml.rules.ymlREADME.md
  3. 不以“看了多少资料”为进度,只以可运行项目、runbook、复盘、截图、简历 bullet 为进度。
  4. AI 只能做建议和辅助检查,不能直接执行危险修复;所有 AI 答案都要能回溯到 runbook。

最终交付物

  • 1 个项目:ops-diagnose
  • 10 篇 runbook
  • 8 个故障复盘案例
  • 1 套 Prometheus 告警规则
  • 1 个 Grafana Dashboard 截图
  • 1 个 AI 运维知识库 Demo
  • 5 条可写进简历的项目 bullet