06 GitHub 资料索引
本页记录路线中需要用到的 GitHub 资料、用途和本地下载状态。
本地资料目录:
F:\hugo_blog\my_blog\external\sre-aiops-github该目录已加入 .gitignore,用于本地学习,不进入 Hugo 站点源码提交。
已下载
| 资源 | 本地路径 | 用途 |
|---|---|---|
| bregman-arie/devops-exercises | external/sre-aiops-github/devops-exercises |
DevOps/SRE 题库,只刷 Linux、Network、DNS、Shell、Python、Kubernetes、Prometheus、Databases |
| trimstray/test-your-sysadmin-skills | external/sre-aiops-github/test-your-sysadmin-skills |
Linux/Unix 系统管理员面试题和排障题 |
| robusta-dev/kubernetes-demos | external/sre-aiops-github/kubernetes-demos |
制造 K8s 故障场景:CrashLoopBackOff、OOMKilled、ImagePullBackOff、Pending、Probe 失败 |
| chadmcrowell/CKA-Exercises | external/sre-aiops-github/CKA-Exercises |
恢复 K8s 操作熟练度 |
| prometheus/client_python | external/sre-aiops-github/client_python |
给 Python 诊断工具暴露 Prometheus 指标 |
| prometheus/blackbox_exporter | external/sre-aiops-github/blackbox_exporter |
HTTP、TCP、DNS 黑盒探测 |
| prometheus-community/postgres_exporter | external/sre-aiops-github/postgres_exporter |
PostgreSQL 监控练习,与数据库运维经验结合 |
| samber/awesome-prometheus-alerts | external/sre-aiops-github/awesome-prometheus-alerts |
告警规则参考 |
| langgenius/dify | external/sre-aiops-github/dify |
搭建 AI 运维知识库 |
| infiniflow/ragflow | external/sre-aiops-github/ragflow |
RAG 文档解析和知识库问答对比 |
重新下载命令
如果以后需要重新下载这些仓库,可以使用:
cd F:\hugo_blog\my_blog
git clone --depth 1 https://github.com/robusta-dev/kubernetes-demos.git external\sre-aiops-github\kubernetes-demos
git clone --depth 1 https://github.com/chadmcrowell/CKA-Exercises.git external\sre-aiops-github\CKA-Exercises
git clone --depth 1 https://github.com/prometheus/client_python.git external\sre-aiops-github\client_python
git clone --depth 1 https://github.com/prometheus/blackbox_exporter.git external\sre-aiops-github\blackbox_exporter
git clone --depth 1 https://github.com/samber/awesome-prometheus-alerts.git external\sre-aiops-github\awesome-prometheus-alerts
git clone --depth 1 https://github.com/langgenius/dify.git external\sre-aiops-github\dify
git clone --depth 1 https://github.com/infiniflow/ragflow.git external\sre-aiops-github\ragflow使用顺序
第一优先级:
test-your-sysadmin-skillsdevops-exerciseskubernetes-demosclient_pythonblackbox_exporterdify
第二优先级:
CKA-Exercisespostgres_exporterawesome-prometheus-alerts- Google SRE Book / Workbook
第三优先级:
ragflow- Kubernetes the Hard Way
- awesome-sre
第三优先级不是不好,而是当前阶段容易变成“看很多但没有作品”。
每个资源怎么用
devops-exercises
每天选 3 个问题,不背答案,改写成自己的排查笔记。每周从里面挑 1 个问题转成脚本或 runbook。
test-your-sysadmin-skills
每周选 10 题,每题输出 3 行:核心概念、常用命令、真实生产场景。遇到和工作相关的题,改写成自己的 runbook。
postgres_exporter
第 9 周使用:本地启动 PostgreSQL,接入 exporter,观察连接数、慢查询、事务、锁等待、数据库大小等指标。
kubernetes-demos
第 7-8 周使用:每次只 apply 一个故障,按“现象 -> 命令 -> 根因 -> 修复 -> runbook”写复盘。
client_python
第 5 周使用:给 ops-diagnose 增加 /metrics,暴露诊断结果指标。
blackbox_exporter
第 6 周使用:监控 yum repo HTTP 可访问性、DNS 解析、内部服务 TCP 端口。
Dify / RAGFlow
第 11 周使用:上传 runbook 和 cases,做运维排障助手。要求回答必须有引用来源,不确定时必须说不确定,高风险操作必须要求人工确认。