サイトリライアビリティエンジニアリング
表示
サイト・リライアビリティ・エンジニアリング(英:Site Reliability Engineering、略:SRE)は、Google社が提唱、実践しているシステム管理とサービス運用の方法論である[1]。サイト信頼性エンジニアリングと訳される場合もある。また、サイトリライアビリティエンジニアリングを担当するエンジニアをサイトリライアビリティエンジニア(SRE)と呼ぶ。
概要
[編集]Googleのサービスやインフラの信頼性を支えているのがSREチームである。高度なソフトウェア技術を用いてシステム運用管理全般を担当している。 SREチームは世界規模のグローバル組織で、24時間365日サービス提供可能な体制が取られている。[2]
Infrastructure as CodeやDevOpsの広がりとともに日本でもSRE(Googleが蓄積したベストプラクティス)が普及し始めており、世界規模のサービス展開を行っている大企業やインターネット関連企業を中心に運用技術者(インフラエンジニア)からSREへの転換が加速している。
役割
[編集]SREはシステム運用管理(ITインフラ)を担当するエンジニアであるが、運用技術者(作業者)ではなく、ソフトウェアエンジニアである[3]。SREの主たる業務はソフトウェア開発であるため、運用作業工数は全体の50%以下と制限されており、超過分は開発チームに差し戻す。SREは高度なソフトウェア開発能力とシステム運用管理のスキルを併せ持つ人材が求められるため、採用基準が高く、必然的に採用の対象者が少なくなる。
- 組織横断的なインフラ整備
- オペレータ、運用技術者のタスク(定常作業、窓口業務、障害対応、インフラ管理等)を積極的にソフトウェアで置き換え
- 自動化、自律化の仕組みを整備
関連項目
[編集]脚注
[編集]- ^ SRE サイトリライアビリティエンジニアリング Googleの信頼性を支えるエンジニアリングチーム - ISBN 978-4-87311-791-1
- ^ “第19回 「エンジニアリング・スペシャリストとしてのキャリアを楽しむ」 Google サイト・リライアビリティ・エンジニアの仕事とは?”. Junglecity.com. 2016年12月閲覧。[リンク切れ]
- ^ コレ1枚で分かる「SRE(Site Reliability Engineer)」 - ITmedia 2017年01月31日