SRE工程師
SRE工程師(Site Reliability Engineer,網站可靠性工程師)是運用軟體工程方法來處理系統與軟體運維的專業角色,目標是確保大規模系統的可靠、高效運行。他們透過自動化、監控、故障排除,並在開發(Dev)與營運(Ops)之間取得平衡,確保服務高可用性、可擴展性,並能快速應對業務變化與突發狀況。
核心職責
-
系統穩定與可用性:監控系統效能,快速識別和解決問題(MTTR),確保滿足服務等級協議(SLA)。
-
自動化與流程優化:利用程式設計與工具自動化日常維運任務(如部署、監控、配置),減少人工干預。
-
基礎架構管理:管理雲端服務 (AWS, Azure, GCP) 或本地 (On-Premises) 基礎設施,確保其高效與成本效益。
-
開發與營運的橋樑:協助開發團隊快速迭代,同時確保發布的穩定性,處理發布後的影響。
-
容量規劃與災難復原:規劃系統的擴展性,並建立災難備援 (DR) 策略。
關鍵技能
-
軟體開發:具備程式設計能力(至少一種腳本語言、一種編譯語言),了解資料結構與演算法
-
系統與網路:精通 Linux/Windows 操作系統、網路基礎,了解分散式系統。
-
雲端與容器:熟悉主流雲平台 (AWS, GCP, Azure) 和容器技術 (Docker, Kubernetes)。
-
自動化工具:熟悉 CI/CD 流程 (Jenkins) 和自動化/配置管理工具 (Ansible, Terraform)。
-
監控與日志:熟練使用監控工具 (Prometheus, Grafana, ELK Stack)。