《SRE：Google运维解密谷歌SRE技术入门教程书籍 SRE书籍 sre技术分布式网络部》[30M]百度网盘|亲测有效|pdf下载

书籍详情

SRE：Google运维解密谷歌SRE技术入门教程书籍 SRE书籍 sre技术分布式网络部
热度:8884
上架时间:2024-06-30 08:52:20
价格:0.0

书籍下载

点击下载

书籍预览

查看链接

免责声明

本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源，一旦发现资源涉及侵权，将立即删除。希望所有用户一同监督并反馈问题，如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正

内容介绍

商品基本信息,请以下列介绍为准
商品名称：	SRE:Google运维解密 (谷歌SRE技术深度曝光中国运维领军人物集体力荐【地球上有这么一个团队，将运维推向高度】)
作者：
市场价：	108元
ISBN号：	9787121297267
出版社：	电子工业出版社
商品类型：	图书

其他参考信息（以实物为准）
装帧：平装	开本：16开	语种：中文
出版时间：2016-10-01	版次：1	页数：450
印刷时间：2016-10-01	印次：1	字数：695千字

主编
√ ，Amazon主站排名，打标#1 Best Seller √ 运维高烧不退，谷歌神书问世，继续为这一热潮推波助澜 √ 本书解密球神秘*让人仰望的技术岗位——谷歌SRE √ 未出先火，本书原著问世时各大社区火爆异常、人气爆棚

媒体评论

我们都知道 Google公司的分布式设计和实现在业界遥遥*先，这些分布式多年前就已经运行在百万台服务器上，很多公司也都在觊觎这么多服务器是如何运行和管理的。本书揭开了这层神秘的面纱， SRE就是运行和管理这百万台服务器和众多分布式的关键。

多年前，Google是通过发布技术论文帮助业界解决分布式难题的，如今各种分布式百花齐放，如何管理这些对传统的运维技术和理念产生了极大的挑战，现在 Google给我们带来了技术指导和*实践。该书汇集了 Google多年生产环境的管理经验，连编写工作都采用了分布式实现的方法，由各个领域的专家联合创作而成。可以把本书看作是一座灯塔，很多公司的集群规模还远达不到 Google的规模，但是参照本书中的技术指导和*实践，不仅可以加速传统运维向 SRE的进化，更重要的是可以帮助公司高效地运维和管理各种复杂的分布式。

——吕宏利，Google Ads SRE

信息技术领域是英文缩写词的高产领域，几乎所有的新概念、新技术和新产品的推出甚至一场市场营销的策划都会伴随着新的英文缩写词的出现。 SRE这个缩写，在公司内部不仅代表了一个全新的运维理念和其伴随的崭新的工程领域、一套完整的运维体系和其对应的*实践，而且也是我和我的好朋友——本书的译者孙宇聪一起工作了数年的战斗集体。而本书的作者们也都是这个大集体中的师长和伙伴。

运维长久以来都依赖实践积累之上的口口相传，经验通常是领域从业者手里掌握的秘诀。本书从
......

前言xxxi
序言xxxv
第Ⅰ部分概览
**章介绍2
管理员模式2
Google的解决之道：SRE4
SRE方法论6
确保长期关注研发工作6
在保障服务SLO的前提下*大化迭代速度7
监控8
应急事件处理8
变更管理9
需求预测和容量规划9
资源部署10
效率与性能10
小结10
第2章Google生产环境：SRE视角11
硬件11
管理物理服务器的管理软件13
管理物理服务器13
存储14
网络15
其他软件16
分布式锁服务16
监控与警报16
软件基础设施17
研发环境17
莎士比亚搜索：一个示范服务18
用户请求的处理过程18
任务和数据的组织方式19
第Ⅱ部分指导思想
第3章拥抱23
管理23
度量服务的24
服务的容忍度25
辨别消费者服务的容忍度26
基础设施服务的容忍度28
使用预算的目的30
预算的构建过程31
好处32
第4章服务质量目标34
服务质量术语34
指标34
目标35
协议36
指标在实践中的应用37
运维人员和*终用户各关心什么37
指标的收集37
汇总38
指标的标准化39
目标在实践中的应用39
目标的定义40
目标的选择40
控制手段42
SLO可以建立用户预期42
协议在实践中的应用43
第5章减少琐事44
琐事的定义44
为什么琐事越少越好45
什么算作工程工作46
琐事繁多是不是一定不好47
小结48
第6章分布式的监控49
术语定义49
为什么要监控50
对监控设置合理预期51
现象与原因52
黑盒监控与白盒监控53
4个黄金指标53
关于长尾问题54
度量指标时采用合适的精度55
简化，直到不能再简化55
将上述理念整合起来56
监控的长期维护57
Bigtable SRE：警报过多的案例57
Gmail：可预知的、可脚本化的人工干预58
长跑59
小结59
第7章Google的自动化的演进60
自动化的价值60
一致性60
平台性61
修复速度更快61
行动速度更快62
节省时间62
自动化对Google SRE的价值62
自动化的应用案例63
Google SRE的自动化使用案例63
自动化分类的层次结构64
让自己脱离工作：自动化所有的东西66
舒缓疼痛：将自动化应用到集群上线中67
使用Prodtest检测不一致情况68
幂等地解决不一致情况69
化倾向71
以服务为导向的集群上线流程72
Borg：仓库规模计算机的诞生73
可靠性是*基本的功能74
建议75
第8章发布工程76
发布工程师的角色76
发布工程哲学77
自服务模型77
追求速度77
密闭性77
强调策略和流程78
持续构建与部署78
构建78
分支79
测试79
打包79
Rapid80
部署81
配置管理81
小结82
不仅仅只对Google有用83
一开始就进行发布工程83
第9章简单化85
的稳定性与灵活性85
乏味是一种美德86
我优势地位不放弃我的代码86
“负代码行”作为一个指标87
*小API87
模块化87
发布的简单化88
小结88
第Ⅲ部分*佳实践
**0章基于时间序列数据进行有效报警93
Borgmon的起源94
应用软件的监控埋点95
监控指标的收集96
时间序列数据的存储97
标签与向量98
Borg规则计算99
报警104
监控的分片机制105
黑盒监控106
配置文件的维护106
十年之后108
**1章on-call轮值109
介绍109
on-call工程师的110
on-call工作平衡111
数量上保持平衡111
质量上保持平衡111
补贴措施112
安全感112
避免运维压力过大114
运维压力过大114
奸诈的敌人——运维压力不够115
小结115
**2章有效的故障排查手段116
理论117
实践119
故障报告119
定位119
检查120
诊断122
测试和修复124
神奇的负面结果125
126
案例分析127
使故障排查更简单130
小结130
**3章紧急事件响应131
当出现问题时怎么办131
测试导致的紧急事故132
细节132
响应132
事后总结132
变更部署带来的紧急事故133
细节133
事故响应134
事后总结134
流程导致的严重事故135
细节135
灾难响应136
事后总结136
所有的问题都有解决方案137
向过去学习，而不是重复它138
为事故保留记录138
提出那些大的，甚至不可能的问题：假如……138
鼓励主动测试138
小结138
**4章紧急事故管理140
无流程管理的紧急事故140
对这次无流程管理的事故的剖析141
过于关注技术问题141
沟通不畅141
不请自来142
紧急事故的流程管理要素142
嵌套式职责分离142
控制中心143
实时事故状态文档143
明确公开的职责交接143
一次流程管理良好的事故144
什么时候对外宣布事故144
小结145
**5章事后总结：从失败中学习146
Google的事后总结哲学146
协作和知识共享148
建立事后总结文化149
小结以及不断优化151
**6章跟踪故障152
Escalator152
Outalator153
聚合154
加标签155
分析155
未预料到的好处156
**7章测试可靠性157
软件测试的类型158
传统测试159
生产测试160
创造一个构建和测试环境163
大规模测试165
测试大规模使用的工具166
针对灾难的测试167
对速度的渴求168
发布到生产环境170
允许测试失败170
集成172
生产环境探针173
小结175
**8章SRE部门中的软件工程实践176
为什么软件工程项目对SRE很重要176
Auxon案例分析：项目背景和要解决的问题177
传统的容量规划方法177
解决方案：基于意图的容量规划179
基于意图的容量规划180
表达产品意图的先导条件181
Auxon简介182
需求和实现：成功和不足183
提升了解程度，推进采用率185
团队内部组成187
在SRE团队中培养软件工程风气187
在SRE团队中建立起软件工程氛围：招聘与开发时间188
做到这一点189
小结190
**9章前端服务器的负载均衡191
有时候硬件并不能解决问题191
使用DNS进行负载均衡192
负载均衡：虚拟IP194
第20章数据中心内部的负载均衡197
理想情况198
识别异常任务：流速控制和跛脚鸭任务199
异常任务的简单应对办法：流速控制199
一个可靠的识别异常任务的方法：跛脚鸭状态200
利用划分子集连接池大小201
选择合适的子集201
子集选择算法一：随机选择202
子集选择算法二：确定性算法204
负载均衡策略206
简单轮询算法206
*闲轮询策略209
加权轮询策略210
第21章应对过载212
QPS陷阱213
给每个用户设置213
客户端侧的节流机制214
重要性216
资源利用率信号217
处理过载217
决定何时重试218
连接造成的负载220
小结221
第22章处理连锁故障223
连锁故障产生的原因和如何从设计上避免224
服务器过载224
资源耗尽225
服务不可用228
防止软件服务器过载228
队列管理229
流量抛弃和优雅降级230
重试231
请求和截止时间234
慢启动和冷缓存236
保持调用栈永远向下238
连锁故障的触发条件238
进程崩溃239
进程更新239
新的发布239
自然增长239
计划中或计划外的不可用239
连锁故障的测试240
测试直到出现故障，还要继续测试240
测试*常用的客户端241
测试非关键性后端242
解决连锁故障的步骤242
增加资源242
停止健康检查导致的任务死亡242
重启软件
......

内容简介

大型软件生命周期的绝大部分都处于“使用”阶段，而非“设计”或“实现”阶段。那么为什么我们却总是认为软件工程应该首要关注设计和实现呢？在本书中，Google SRE的关键成员解释了他们是如何对软件进行生命周期的整体性关注的，以及为什么这样做能够帮助Google成功地构建、部署、监控和运维世界上现存*大的软件。通过阅读本书，读者可以学习到Google工程师在提高部署规模、改进可靠性和资源利用效率方面的指导思想与具体实践——这些都是可以直接应用的宝贵经验。任何一个想要创建、扩展大规模集成的人都应该阅读本书。本书针对如何构建一个可长期维护的提供了**宝贵的实践经验。

作者简介

Betsy Beyer是Google纽约负责SRE的一名技术文档作家。她之前曾为遍布的Google数据中心与Mountain View硬件运维团队编写文档。在搬到纽约之前，Betsy是Stanford大学技术性写作课程的讲师。她曾经学习关系与英文文学，并在Stanford和Tulane获得学历。
Chris Jones是Google App Engine的一名SRE。Google App Engine是一个PaaS服务，每天处理超过280亿个请求。他的办公室在旧金山，他之前的工作包括Google广告统计、数据仓库，以及用户支持的维护。在之前，Chris曾经在学校IT行业任职，同时参与过竞选数据分析，以及一些BSD内核的修改。他有计算机工程、经济学，以及技术政策学的学位。同时他也是一名有执照的职业工程师。
Jennifer Petoff 是Google SRE团队的一名项目经理，工作地点在都柏林，爱尔兰。她曾经负责管理大型项目，包括：科学研究、工程、人力资源，以及广告等。Jennifer在加入Google之前，曾在化工行业任职八年。她获得了Stanford大学的化学博士与学士学位，同时她还拥有Rochester大学的心理学学位。
Niall Murphy 是Google爱尔兰团队广告SRE的负责人。他拥有20年互联网行业经验，目前是INEX（爱尔兰网络互联枢纽）的主席。他曾经写作以及参与写作很多科技文章与书籍，包
......

.........

2册微服务架构与实践第2版

分布式机器学习:算法理论与实践书籍

SRE：Google运维解密 谷歌SRE技术入门教程书籍 SRE书籍 sre技术分布式网络部

SRE：Google运维解密谷歌SRE技术入门教程书籍 SRE书籍 sre技术分布式网络部