跳转至

SRE工程師

SRE工程師(Site Reliability Engineer,網站可靠性工程師)是運用軟體工程方法來處理系統與軟體運維的專業角色,目標是確保大規模系統的可靠、高效運行。他們透過自動化、監控、故障排除,並在開發(Dev)與營運(Ops)之間取得平衡,確保服務高可用性、可擴展性,並能快速應對業務變化與突發狀況。 

核心職責

  1. 系統穩定與可用性:監控系統效能,快速識別和解決問題(MTTR),確保滿足服務等級協議(SLA)。

  2. 自動化與流程優化:利用程式設計與工具自動化日常維運任務(如部署、監控、配置),減少人工干預。

  3. 基礎架構管理:管理雲端服務 (AWS, Azure, GCP) 或本地 (On-Premises) 基礎設施,確保其高效與成本效益。

  4. 開發與營運的橋樑:協助開發團隊快速迭代,同時確保發布的穩定性,處理發布後的影響。

  5. 容量規劃與災難復原:規劃系統的擴展性,並建立災難備援 (DR) 策略。 

關鍵技能

  1. 軟體開發:具備程式設計能力(至少一種腳本語言、一種編譯語言),了解資料結構與演算法

  2. 系統與網路:精通 Linux/Windows 操作系統、網路基礎,了解分散式系統。

  3. 雲端與容器:熟悉主流雲平台 (AWS, GCP, Azure) 和容器技術 (Docker, Kubernetes)。

  4. 自動化工具:熟悉 CI/CD 流程 (Jenkins) 和自動化/配置管理工具 (Ansible, Terraform)。

  5. 監控與日志:熟練使用監控工具 (Prometheus, Grafana, ELK Stack)。