×
網站可靠性工程工作手冊|導入SRE的實用方法
作者: Betsy Beyer 等
譯者:江少傑
書號: A594
出版日: 2020/09/28
ISBN:9789865026011
附件: 無
定價: 780
電子書: 未出版
內容特色
《網站可靠性工程》曾在業界引爆一陣探討現代生產服務運行的意義,以及為何可靠性考量是服務設計的基礎的熱潮。現在,這本熱銷書的原班人馬,再度推出了一本實戰手冊。以具體的案例,說明如何將SRE的原則與操練,應用在實際的工作環境。

本書不只結合了Google的實用經驗,也涵蓋了Google雲端平台(GCP)客戶的個案研究,包括Evernote、家得寶(Home Depot)、紐約時報等公司在實務上的成敗經驗。

無論您的公司規模大小,研讀本書都能讓您的SRE實踐更加得心應手。

透過本書,您可以了解:
.如何在你無法完全掌控的環境(如雲端)運維可靠服務
.如何以服務水準目標(SLO)建立、監控並運維服務的實務
.如何把現有的運維團隊轉變成SRE團隊,同時擺脫運維過載夢魘
.從零開始或半路出家的SRE實踐方法



名人推薦

「本書都是實際的案例,告訴你如何專注在使用者與工程師間,以及技術與工具間的互動,來優化可靠性,又不拖累開發步調。內容引人入勝、饒富趣味、看過《網站可靠性工程》,也不能錯過這一本」,Casey Rosenthal, Backplane技術長

「這本書補上了《網站可靠性工程》欠缺的部分。前一本書說明他們做了什麼,但你未必能夠套用這些案例的解法。本書不只示範了他們怎麼做,並為你設身處地,量身打造屬於你的做法。」,David N. Blank-Edelman,全球SRE大會的共同發起人

「這本實用又切中實務的指南,引導實行SRE,讓大大小小公司的工程師們,都能獲益匪淺。他們分享的細節鉅細靡遺,令我印象深刻,有這樣一本實務經驗分享的書,真是太好了。你可以運用這本書,馬上躬行實踐SRE,打造更可靠的系統。」,Tammy Bütow, Gremlin首席可靠性工程師

「讓SRE演變成大規模運維之必要實踐的幕後推手Google SRE團隊,及時地提醒我們:可靠性是人創造的。本書有許多實用的案例,說明如何專注於使用者與工程師的互動,以及技術與工具間的相輔相成,從而以可靠性為基礎優化系統,同時又不用犧牲功能開發的速度。結果就是這本很有說服力、引人入勝又啟迪人心的SRE指南。」,—Casey Rosenthal, Bckplane.io技術長

「Google第一本SRE之書解釋了SRE是什麼,以及為什麼要SRE。這本書則是說明如何實行SRE,這是Google編輯團隊的又一鉅作。」,—Jonah Horowitz, Stripe網站可靠性工程師

「《網站可靠性工程》描述Google做了什麼,本書則是告訴讀者,Google如何實行SRE,以及您也可以如何依樣畫葫蘆。」,David N. Blank-Edelman, 全球SREcon大會共同創辦人
作者介紹
Betsy Beyer, Niall Richard Murphy, Dave Rensin, Kent Kawahara & Stephen Thorne等人,都是Google SRE團隊的現任與過往成員,負責管理與維護Google的正式系統環境
當我們撰寫《網站可靠性工程》一書時有個目標:闡釋Google生產工程和運維的基本原理與原則。那本書是我們的一次嘗試,希望能與業界的同行們分享我們團隊的最佳實踐和教訓。我們當時假定那本SRE 書可能只會吸引為數不大多的工程師—他們的工作牽涉到大型並且注重可靠性的任務或協作,而且以該書內容的份量與焦點,可能不會引起太多關注。

結果證明,我們很高興在這兩點看法上都搞錯了。

讓我們感到驚訝和欣喜的是,第一本SRE 書在發布後這段令人興奮的期間內,是計算(computing)領域的暢銷書。此外,在購買或下載後並未被束之高閣,而是真被閱讀了。我們收到了來自世界各地關於本書、SRE 團隊、SRE 實踐與成效的相關問題。我們受邀去解說書中的內容、方法和事故。邀約實在出乎意料的多,以致於我們只能謝絕一些外部的邀約,因為實在是排不出時間。

人怕出名豬怕肥,這SRE 書成名創造了機會讓我們得以更多人力(「雇用更多人吧!預約更多講演吧!」),或透過一些更能擴增的辦法應付。出乎少數讀者意料,作為SRE工程師,我們選擇了後者。我們決定寫第二本書—增補了我們最常受邀講解的內容,回應了讀者們閱讀第一本書時最常提出的問題。
在我們收到的許多關於第一本SRE書不同的問題、請求和評論中,有兩個主題特別有趣;如果不予解決,將妨礙SRE經驗教訓之充分有效利用。這些主題可以大致歸納成:
.原則聽起來挺有意思,但我如何在我的專案/團隊/公司中付諸實踐?
.SRE的方法在我這兒鑿枘不投;只在Google的文化裡才行得通,而且只有達到Google的規模才有意義。

這本SRE書的目的是:(a)在第一本書概述的原則中添加更多施行細節,以及(b)打消這樣的念頭:SRE只能在「Google規模」或「Google文化」中實踐。

本書是前一本著作的手冊—不是新版,這兩本書應該相互參照。若已熟悉前作,那您可以從本書得到最大的收穫。本書將大致沿襲第一本的結構。希望您能夠對照著閱讀這些章節。本書中的每一章都假定您熟悉上一本著作中的對應部分;目標是讓您一邊閱讀一邊印證時,在原則和實踐之間來回對照參考。如此一來,兩本書是相輔相成的。接下來,關於本書的價值觀:聽一些讀者說當我們在描述Google的運維發展歷程時,太過於自我中心了。有讀者認為我們已經脫離了Google以外的現實,而且沒能解釋我們的想法與DevOps原則之間如何互為表裡。這是一個相當不錯的指正,我們虛心接受,體現在此書中。

無論如何,我們確實覺得SRE作為一門專業,其高度武斷剛愎的本質還是頗有用武之地。對我們來說這是一種功用,而不是問題。我們並沒提倡SRE是建構和運行高可靠性系統的唯一方式(或甚至是一體適用的最佳方式)。只是對我們而言,這是至今最成功的方式。我們還會談談SRE和DevOps之間彼此如何相互關聯共鳴。重點是請記住,它們沒有相互矛盾。

我們先承認,這本書必然不會包羅萬象。即使在Google範疇內,SRE專業也是一個很廣闊的領域,而且如今在Google外部也廣泛施行,因此演進更加快速。本書會著重在回答第一本書中最常被問及的實作細節,而不是面面俱到、泛泛而談。

最後,這系列書的創作初衷並非想要被奉為圭臬。請不要這樣看待它們。即使這麼多年過去了,還是發現有許多狀況和案例,需要我們去調整(或在某些案例中,取代)先前堅持的信念。SRE 是一門專業,也是一趟旅程。

希望您會喜歡這本書,而且覺得它能派上用場。本書的編寫協作是出於興趣,不求任何回報。我們很高興有一個不斷成長茁壯的SRE專業社群,可以和大家一起學習進步。一如既往,我們重視您的直接意見回饋,總是因此而受益匪淺。
章節目錄
前言一
前言二
序言
譯序


第一章 SRE 與 DevOps 如何琴瑟和鳴


【第一篇 基礎】
第二章 實施 SLO
第三章 SLO 工程案例研究
第四章 監控
第五章 就 SLO 告警
第六章 消滅苦工
第七章 簡單性



【第二篇 實踐】
第八章 on-call
第九章 事故回應
第十章 事後檢討文化:從失敗中學習
第十一章 管理負載
第十二章 非抽象大型系統設計簡介
第十三章 資料處理流水線
第十四章 組態設定的設計與最佳實踐
第十五章 組態設定的細節
第十六章 金絲雀發布



【第三篇 流程】
第十七章 識別過載並從其中復原
第十八章 SRE 積極參與模型
第十九章 SRE:跨越疆界
第二十章 SRE 團隊之生命週期
第二十一章 SRE 組織變革管理


結論
附錄A SLO 文件範本
附錄B 範例犯錯預算政策
附錄C 事後檢討分析結果
索引
網站可靠性工程工作手冊|導入SRE的實用方法 分享
  • 作者: Betsy Beyer 等
  • 書號:A594
  • ISBN:9789865026011
  • 出版日:2020/09/28
  • 定價:$ 780
  • 電子書:已出版
  • 購買紙本書

    內容特色
    《網站可靠性工程》曾在業界引爆一陣探討現代生產服務運行的意義,以及為何可靠性考量是服務設計的基礎的熱潮。現在,這本熱銷書的原班人馬,再度推出了一本實戰手冊。以具體的案例,說明如何將SRE的原則與操練,應用在實際的工作環境。

    本書不只結合了Google的實用經驗,也涵蓋了Google雲端平台(GCP)客戶的個案研究,包括Evernote、家得寶(Home Depot)、紐約時報等公司在實務上的成敗經驗。

    無論您的公司規模大小,研讀本書都能讓您的SRE實踐更加得心應手。

    透過本書,您可以了解:
    .如何在你無法完全掌控的環境(如雲端)運維可靠服務
    .如何以服務水準目標(SLO)建立、監控並運維服務的實務
    .如何把現有的運維團隊轉變成SRE團隊,同時擺脫運維過載夢魘
    .從零開始或半路出家的SRE實踐方法



    名人推薦

    「本書都是實際的案例,告訴你如何專注在使用者與工程師間,以及技術與工具間的互動,來優化可靠性,又不拖累開發步調。內容引人入勝、饒富趣味、看過《網站可靠性工程》,也不能錯過這一本」,Casey Rosenthal, Backplane技術長

    「這本書補上了《網站可靠性工程》欠缺的部分。前一本書說明他們做了什麼,但你未必能夠套用這些案例的解法。本書不只示範了他們怎麼做,並為你設身處地,量身打造屬於你的做法。」,David N. Blank-Edelman,全球SRE大會的共同發起人

    「這本實用又切中實務的指南,引導實行SRE,讓大大小小公司的工程師們,都能獲益匪淺。他們分享的細節鉅細靡遺,令我印象深刻,有這樣一本實務經驗分享的書,真是太好了。你可以運用這本書,馬上躬行實踐SRE,打造更可靠的系統。」,Tammy Bütow, Gremlin首席可靠性工程師

    「讓SRE演變成大規模運維之必要實踐的幕後推手Google SRE團隊,及時地提醒我們:可靠性是人創造的。本書有許多實用的案例,說明如何專注於使用者與工程師的互動,以及技術與工具間的相輔相成,從而以可靠性為基礎優化系統,同時又不用犧牲功能開發的速度。結果就是這本很有說服力、引人入勝又啟迪人心的SRE指南。」,—Casey Rosenthal, Bckplane.io技術長

    「Google第一本SRE之書解釋了SRE是什麼,以及為什麼要SRE。這本書則是說明如何實行SRE,這是Google編輯團隊的又一鉅作。」,—Jonah Horowitz, Stripe網站可靠性工程師

    「《網站可靠性工程》描述Google做了什麼,本書則是告訴讀者,Google如何實行SRE,以及您也可以如何依樣畫葫蘆。」,David N. Blank-Edelman, 全球SREcon大會共同創辦人
    作者介紹
    Betsy Beyer, Niall Richard Murphy, Dave Rensin, Kent Kawahara & Stephen Thorne等人,都是Google SRE團隊的現任與過往成員,負責管理與維護Google的正式系統環境
    當我們撰寫《網站可靠性工程》一書時有個目標:闡釋Google生產工程和運維的基本原理與原則。那本書是我們的一次嘗試,希望能與業界的同行們分享我們團隊的最佳實踐和教訓。我們當時假定那本SRE 書可能只會吸引為數不大多的工程師—他們的工作牽涉到大型並且注重可靠性的任務或協作,而且以該書內容的份量與焦點,可能不會引起太多關注。

    結果證明,我們很高興在這兩點看法上都搞錯了。

    讓我們感到驚訝和欣喜的是,第一本SRE 書在發布後這段令人興奮的期間內,是計算(computing)領域的暢銷書。此外,在購買或下載後並未被束之高閣,而是真被閱讀了。我們收到了來自世界各地關於本書、SRE 團隊、SRE 實踐與成效的相關問題。我們受邀去解說書中的內容、方法和事故。邀約實在出乎意料的多,以致於我們只能謝絕一些外部的邀約,因為實在是排不出時間。

    人怕出名豬怕肥,這SRE 書成名創造了機會讓我們得以更多人力(「雇用更多人吧!預約更多講演吧!」),或透過一些更能擴增的辦法應付。出乎少數讀者意料,作為SRE工程師,我們選擇了後者。我們決定寫第二本書—增補了我們最常受邀講解的內容,回應了讀者們閱讀第一本書時最常提出的問題。
    在我們收到的許多關於第一本SRE書不同的問題、請求和評論中,有兩個主題特別有趣;如果不予解決,將妨礙SRE經驗教訓之充分有效利用。這些主題可以大致歸納成:
    .原則聽起來挺有意思,但我如何在我的專案/團隊/公司中付諸實踐?
    .SRE的方法在我這兒鑿枘不投;只在Google的文化裡才行得通,而且只有達到Google的規模才有意義。

    這本SRE書的目的是:(a)在第一本書概述的原則中添加更多施行細節,以及(b)打消這樣的念頭:SRE只能在「Google規模」或「Google文化」中實踐。

    本書是前一本著作的手冊—不是新版,這兩本書應該相互參照。若已熟悉前作,那您可以從本書得到最大的收穫。本書將大致沿襲第一本的結構。希望您能夠對照著閱讀這些章節。本書中的每一章都假定您熟悉上一本著作中的對應部分;目標是讓您一邊閱讀一邊印證時,在原則和實踐之間來回對照參考。如此一來,兩本書是相輔相成的。接下來,關於本書的價值觀:聽一些讀者說當我們在描述Google的運維發展歷程時,太過於自我中心了。有讀者認為我們已經脫離了Google以外的現實,而且沒能解釋我們的想法與DevOps原則之間如何互為表裡。這是一個相當不錯的指正,我們虛心接受,體現在此書中。

    無論如何,我們確實覺得SRE作為一門專業,其高度武斷剛愎的本質還是頗有用武之地。對我們來說這是一種功用,而不是問題。我們並沒提倡SRE是建構和運行高可靠性系統的唯一方式(或甚至是一體適用的最佳方式)。只是對我們而言,這是至今最成功的方式。我們還會談談SRE和DevOps之間彼此如何相互關聯共鳴。重點是請記住,它們沒有相互矛盾。

    我們先承認,這本書必然不會包羅萬象。即使在Google範疇內,SRE專業也是一個很廣闊的領域,而且如今在Google外部也廣泛施行,因此演進更加快速。本書會著重在回答第一本書中最常被問及的實作細節,而不是面面俱到、泛泛而談。

    最後,這系列書的創作初衷並非想要被奉為圭臬。請不要這樣看待它們。即使這麼多年過去了,還是發現有許多狀況和案例,需要我們去調整(或在某些案例中,取代)先前堅持的信念。SRE 是一門專業,也是一趟旅程。

    希望您會喜歡這本書,而且覺得它能派上用場。本書的編寫協作是出於興趣,不求任何回報。我們很高興有一個不斷成長茁壯的SRE專業社群,可以和大家一起學習進步。一如既往,我們重視您的直接意見回饋,總是因此而受益匪淺。
    章節目錄
    前言一
    前言二
    序言
    譯序


    第一章 SRE 與 DevOps 如何琴瑟和鳴


    【第一篇 基礎】
    第二章 實施 SLO
    第三章 SLO 工程案例研究
    第四章 監控
    第五章 就 SLO 告警
    第六章 消滅苦工
    第七章 簡單性



    【第二篇 實踐】
    第八章 on-call
    第九章 事故回應
    第十章 事後檢討文化:從失敗中學習
    第十一章 管理負載
    第十二章 非抽象大型系統設計簡介
    第十三章 資料處理流水線
    第十四章 組態設定的設計與最佳實踐
    第十五章 組態設定的細節
    第十六章 金絲雀發布



    【第三篇 流程】
    第十七章 識別過載並從其中復原
    第十八章 SRE 積極參與模型
    第十九章 SRE:跨越疆界
    第二十章 SRE 團隊之生命週期
    第二十一章 SRE 組織變革管理


    結論
    附錄A SLO 文件範本
    附錄B 範例犯錯預算政策
    附錄C 事後檢討分析結果
    索引