Hello World Dev Conference 2025: 你不是 SRE,但活在 K8s 的叢林裡:開發者的 K8s 求生指南

smalltown20110306 120 views 44 slides Oct 22, 2025
Slide 1
Slide 1 of 44
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20
Slide 21
21
Slide 22
22
Slide 23
23
Slide 24
24
Slide 25
25
Slide 26
26
Slide 27
27
Slide 28
28
Slide 29
29
Slide 30
30
Slide 31
31
Slide 32
32
Slide 33
33
Slide 34
34
Slide 35
35
Slide 36
36
Slide 37
37
Slide 38
38
Slide 39
39
Slide 40
40
Slide 41
41
Slide 42
42
Slide 43
43
Slide 44
44

About This Presentation

在許多團隊中,Kubernetes 被視為 SRE 的神秘領域。但當你開發的應用被部署在 K8s 中時,你就已經身處其中。這場分享不講 HPA 參數怎麼調,也不會手把手寫 Helm Chart,而是聚焦在:開發人員在日常工作中,該具備哪些 Kubernetes 基�...


Slide Content

你不是 SRE,但活在 K8s
的叢林裡 : 開發者的 K8s
求生指南
Hello World Dev Conference 2025

Hello!I’m smalltown
MaiCoin Group 打雜小弟大叔
主要涉略範圍: SRE, IT, Data, QA
時常擔任組織首位推動 DevOps 的人

你以為 Kubernetes
跟你沒關係?

其實你每天都活在 K8s 裡
Develop Testing Online

不同角色都離不開 K8s
用它讓程式上線 Dev
用它驗證品質 QA
透過它交付 產品 PM
則守護它的穩定 SRE

Dev 想專心寫程式,但環境總在鬧脾氣
Dev:程式沒 Bug,是環境有 Bug

QA 報錯總是一句:它壞了

PM 語言像謎語
使用者說登不進

整個系統怪怪的
付款頁卡住

SRE 最怕聽到
系統壞了

別問,問就是壞了

我們都在
同一艘船上
其實
會不會一起沈船?!

K8s 是大家的基礎設施,不只是某個角色的專業
SRE
QA
Dev
PM
交警:我只是指揮,不是幫你開車

所以這場分享 跟你有關

不懂 K8s,災難接踵而來
01 報錯模糊 03 自助不足
02 缺乏共通語言
黑衣人: 它壞了 小事也要 SRE 出馬
效率低落
各說各話
問題難定位

●CrashLoopBackOff
●ImagePullBackOff
●OOMKilled
●Pending
●Not NotReady
●Back-off restarting
failed container
報錯太模糊:壞了 vs 常見錯誤訊息
●壞了
●怪怪的
●跑不動
●東西不見了
●整個都爆掉了
●反正不能用

缺乏共通語言 = 問題難定位
QA: 登入壞了!
Dev: 在我的電
腦沒問題啊!
PM: 系統卡住啦!
SRE: 今天可以準時
下班嗎?

自助不足: SRE 永遠在救火
幫我查 Log
幫我 Rollback
幫我看一下 CI 失敗
幫我清 Cache
幫我重啟 Redis
幫看網路是不是有問題
幫我看 Deploy 失敗
幫我把 Quota 調大一點

本質問題:知識落差
模糊描述 資訊落差 問題難定位
●『登入壞了』
●『系統卡住了』
●『頁面怪怪的』
●沒有 namespace /
pod 名稱
●沒有 log/ error
code
●沒有時間點 / 操作
步驟
●花時間追問「哪個
環境?哪個服
務?」
●額外查詢 Pod 狀
態、DB 連線、
Service 設定
●調查成本高,修復
時間被拉長
QA/PM 的典型回報
缺乏 K8s 基本概念,
無法精確定位
造成 SRE 只能靠猜的

你不是 SRE,但要
學會 K8s 的語言

不學會 K8s 語言的 五大缺點
溝通成本過高:回報模糊, SRE 得一再追問細節 01.
問題定位延遲:缺乏基礎概念,導致 查問題像大海撈針 02.
自助能力不足:小問題也要找 SRE,團隊效率低落 03.
錯誤決策風險:資訊不足, PM 或 Dev 容易做出錯誤判斷 04.
職涯發展受限:缺乏雲原生常識,不利職涯發展 05.

懂一點概念 + 一點文化,就能少掉 80% 誤會
01 溝通有效
大家說同一種語言,
問題更快被理解
03 SRE 回歸本業
少了救火雜務, SRE
才能專注可靠性
02 提升自助
基礎概念到手,小問
題自己就能解

Pod、Job、Secret、Ingress 跟你超有關
這四個元件,就是你每天和 K8s 打交道的入口
讓我們想像
K8s Cluster
是一家餐廳

Pod = 廚房 = 應用程式實際運行的地方
沒有廚房,就沒有地方能真正煮菜(應用程式無法執行)

Job = 點菜單 = 你熟悉的批次任務
廚師按照單子完成一道道菜(批次任務,一次做完就結束)

Secret = 醬料配方保險櫃 = 別再把密碼放 Git
餐廳的祕密醬汁配方鎖在櫃子,不能隨便放出來(密碼、金鑰)

Ingress = 餐廳大門 = 使用者怎麼找到你
客人要吃飯,得先從大門進來才能找到這間餐廳(服務入口)

報錯該怎麼 說?
Before
●標題:系統壞了
●描述:登入不上去!快修!
●附件:無
After
●標題:登入服務
CrashLoopBackOff
●描述:2025/10/01 上午 10:15 測
試環境無法登入,錯誤訊息
CrashLoopBackOff,相關
Pod:auth-service-xyz
●附件:log 截圖、重現步驟

如何自己先看 log?
Log 一開始像天書,但很多時候會很慶幸找得到 Log

部署完成了嗎?怎麼確認
確認 Pipeline 狀態:最後一步顯示 Success/綠燈 ✅
檢查 Pod 狀態:kubectl get pods → Running ✅
驗證服務是否可存取:健康檢 查或簡單 API call ✅
觀察 Log:確認沒有持續的 Crash 或 Error ✅
SRE 不需要被驚動:先自助檢 查三步,減少誤報 ✅

哪些問題你可以自己解?
發現問題
交給 Dev
環境問題
服務
Running?
通知 SRE
查看 Log
自行解決
服務重啟
Yes
No
Yes
No

普及核心概念的方法
K8s Dashboard
K9s
Freelens
GUI 與 CLI 各有粉絲

共通語言怎麼建立
讓大家知道系統有哪
些服務,誰負責什麼
清楚定義「誰該接」哪種
問題,避免錯誤傳遞
Service Catalog On-call 流程
一次給足訊息,避免
來回追問
錯誤回報模板

推動自助文化的做法
提供統一的平台(如 ELK /
Loki / Datadog)讓開發者、 QA
可以自己搜尋 log
提供可視化介面,讓非 SRE 也
能清楚看到部署狀態,並可自
助進行回滾
Log Management GitOps Tool

文化轉型需要平台支撐
資訊透明
自助入口
團隊自助
協作提升
知識傳遞
協作習慣

自助平台 (IDP) 正在崛起
將基礎設施、自動化工具、文件與開發流程整合到一個平

ArgoCD +
自助回滾
案例
終於不用拜託 SRE

K9s 幫助 QA
案例
黑底白字也能很療癒

Backstage
縮短溝通
案例
PM 也能找到正確入口

如何推廣這些方法?
小團隊試點
小規模快速驗證
每月回顧
回饋迭代持續改善
內部訓練
經驗轉教材、 SOP

從工具到文化的連動
解決短期痛點
建立
共通語言
推動
自助文化
持續
協作習慣
解決長期問題

最後檢查:SRE 是否能回歸本業?
隨時救火 專注改善可靠性

K8s 從黑盒子變成 共用工具

學會用 K8s 的語言,才能在叢林裡活下去

THANKS FOR LISTENING!
Do you have any
questions?

We’re Hiring!
來吧,跟我們一起在叢林中冒
險!一起來當同事 ??????
●Senior Site Reliability Engineer
●Blockchain Engineer (Wallet Team)
●(Senior) Backend Engineer
●Micro Service Software Engineer
●Security Researcher