本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正
商品基本信息,请以下列介绍为准 | |
商品名称: | SRE:Google运维解密 (谷歌SRE技术深度曝光 中国运维领军人物集体力荐【地球上有这么一个团队,将运维推向高度】) |
作者: | |
市场价: | 108元 |
ISBN号: | 9787121297267 |
出版社: | 电子工业出版社 |
商品类型: | 图书 |
其他参考信息(以实物为准) | ||
装帧:平装 | 开本:16开 | 语种:中文 |
出版时间:2016-10-01 | 版次:1 | 页数:450 |
印刷时间:2016-10-01 | 印次:1 | 字数:695千字 |
主编 | |
√ ,Amazon主站排名*,打标#1 Best Seller |
媒体评论 | |
我们都知道 Google公司的分布式设计和实现在业界遥遥*先,这些分布式多年前就已经运行在百万台服务器上,很多公司也都在觊觎这么多服务器是如何运行和管理的。本书揭开了这层神秘的面纱, SRE就是运行和管理这百万台服务器和众多分布式的关键。 |
目录 | |
前言xxxi 序言xxxv 第Ⅰ部分概览 **章介绍2 管理员模式2 Google的解决之道:SRE4 SRE方法论6 确保长期关注研发工作6 在保障服务SLO的前提下*大化迭代速度7 监控8 应急事件处理8 变更管理9 需求预测和容量规划9 资源部署10 效率与性能10 小结10 第2章Google生产环境:SRE视角11 硬件11 管理物理服务器的管理软件13 管理物理服务器13 存储14 网络15 其他软件16 分布式锁服务16 监控与警报16 软件基础设施17 研发环境17 莎士比亚搜索:一个示范服务18 用户请求的处理过程18 任务和数据的组织方式19 第Ⅱ部分指导思想 第3章拥抱23 管理23 度量服务的24 服务的容忍度25 辨别消费者服务的容忍度26 基础设施服务的容忍度28 使用预算的目的30 预算的构建过程31 好处32 第4章服务质量目标34 服务质量术语34 指标34 目标35 协议36 指标在实践中的应用37 运维人员和*终用户各关心什么37 指标的收集37 汇总38 指标的标准化39 目标在实践中的应用39 目标的定义40 目标的选择40 控制手段42 SLO可以建立用户预期42 协议在实践中的应用43 第5章减少琐事44 琐事的定义44 为什么琐事越少越好45 什么算作工程工作46 琐事繁多是不是一定不好47 小结48 第6章分布式的监控49 术语定义49 为什么要监控50 对监控设置合理预期51 现象与原因52 黑盒监控与白盒监控53 4个黄金指标53 关于长尾问题54 度量指标时采用合适的精度55 简化,直到不能再简化55 将上述理念整合起来56 监控的长期维护57 Bigtable SRE:警报过多的案例57 Gmail:可预知的、可脚本化的人工干预58 长跑59 小结59 第7章Google的自动化的演进60 自动化的价值60 一致性60 平台性61 修复速度更快61 行动速度更快62 节省时间62 自动化对Google SRE的价值62 自动化的应用案例63 Google SRE的自动化使用案例63 自动化分类的层次结构64 让自己脱离工作:自动化所有的东西66 舒缓疼痛:将自动化应用到集群上线中67 使用Prodtest检测不一致情况68 幂等地解决不一致情况69 化倾向71 以服务为导向的集群上线流程72 Borg:仓库规模计算机的诞生73 可靠性是*基本的功能74 建议75 第8章发布工程76 发布工程师的角色76 发布工程哲学77 自服务模型77 追求速度77 密闭性77 强调策略和流程78 持续构建与部署78 构建78 分支79 测试79 打包79 Rapid80 部署81 配置管理81 小结82 不仅仅只对Google有用83 一开始就进行发布工程83 第9章简单化85 的稳定性与灵活性85 乏味是一种美德86 我优势地位不放弃我的代码86 “负代码行”作为一个指标87 *小API87 模块化87 发布的简单化88 小结88 第Ⅲ部分*佳实践 **0章基于时间序列数据进行有效报警93 Borgmon的起源94 应用软件的监控埋点95 监控指标的收集96 时间序列数据的存储97 标签与向量98 Borg规则计算99 报警104 监控的分片机制105 黑盒监控106 配置文件的维护106 十年之后108 **1章on-call轮值109 介绍109 on-call工程师的110 on-call工作平衡111 数量上保持平衡111 质量上保持平衡111 补贴措施112 安全感112 避免运维压力过大114 运维压力过大114 奸诈的敌人——运维压力不够115 小结115 **2章有效的故障排查手段116 理论117 实践119 故障报告119 定位119 检查120 诊断122 测试和修复124 神奇的负面结果125 126 案例分析127 使故障排查更简单130 小结130 **3章紧急事件响应131 当出现问题时怎么办131 测试导致的紧急事故132 细节132 响应132 事后总结132 变更部署带来的紧急事故133 细节133 事故响应134 事后总结134 流程导致的严重事故135 细节135 灾难响应136 事后总结136 所有的问题都有解决方案137 向过去学习,而不是重复它138 为事故保留记录138 提出那些大的,甚至不可能的问题:假如……138 鼓励主动测试138 小结138 **4章紧急事故管理140 无流程管理的紧急事故140 对这次无流程管理的事故的剖析141 过于关注技术问题141 沟通不畅141 不请自来142 紧急事故的流程管理要素142 嵌套式职责分离142 控制中心143 实时事故状态文档143 明确公开的职责交接143 一次流程管理良好的事故144 什么时候对外宣布事故144 小结145 **5章事后总结:从失败中学习146 Google的事后总结哲学146 协作和知识共享148 建立事后总结文化149 小结以及不断优化151 **6章跟踪故障152 Escalator152 Outalator153 聚合154 加标签155 分析155 未预料到的好处156 **7章测试可靠性157 软件测试的类型158 传统测试159 生产测试160 创造一个构建和测试环境163 大规模测试165 测试大规模使用的工具166 针对灾难的测试167 对速度的渴求168 发布到生产环境170 允许测试失败170 集成172 生产环境探针173 小结175 **8章SRE部门中的软件工程实践176 为什么软件工程项目对SRE很重要176 Auxon案例分析:项目背景和要解决的问题177 传统的容量规划方法177 解决方案:基于意图的容量规划179 基于意图的容量规划180 表达产品意图的先导条件181 Auxon简介182 需求和实现:成功和不足183 提升了解程度,推进采用率185 团队内部组成187 在SRE团队中培养软件工程风气187 在SRE团队中建立起软件工程氛围:招聘与开发时间188 做到这一点189 小结190 **9章前端服务器的负载均衡191 有时候硬件并不能解决问题191 使用DNS进行负载均衡192 负载均衡:虚拟IP194 第20章数据中心内部的负载均衡197 理想情况198 识别异常任务:流速控制和跛脚鸭任务199 异常任务的简单应对办法:流速控制199 一个可靠的识别异常任务的方法:跛脚鸭状态200 利用划分子集连接池大小201 选择合适的子集201 子集选择算法一:随机选择202 子集选择算法二:确定性算法204 负载均衡策略206 简单轮询算法206 *闲轮询策略209 加权轮询策略210 第21章应对过载212 QPS陷阱213 给每个用户设置213 客户端侧的节流机制214 重要性216 资源利用率信号217 处理过载217 决定何时重试218 连接造成的负载220 小结221 第22章处理连锁故障223 连锁故障产生的原因和如何从设计上避免224 服务器过载224 资源耗尽225 服务不可用228 防止软件服务器过载228 队列管理229 流量抛弃和优雅降级230 重试231 请求和截止时间234 慢启动和冷缓存236 保持调用栈永远向下238 连锁故障的触发条件238 进程崩溃239 进程更新239 新的发布239 自然增长239 计划中或计划外的不可用239 连锁故障的测试240 测试直到出现故障,还要继续测试240 测试*常用的客户端241 测试非关键性后端242 解决连锁故障的步骤242 增加资源242 停止健康检查导致的任务死亡242 重启软件 ...... |
内容简介 | |
大型软件生命周期的绝大部分都处于“使用”阶段,而非“设计”或“实现”阶段。那么为什么我们却总是认为软件工程应该首要关注设计和实现呢?在本书中,Google SRE的关键成员解释了他们是如何对软件进行生命周期的整体性关注的,以及为什么这样做能够帮助Google成功地构建、部署、监控和运维世界上现存*大的软件。通过阅读本书,读者可以学习到Google工程师在提高部署规模、改进可靠性和资源利用效率方面的指导思想与具体实践——这些都是可以直接应用的宝贵经验。任何一个想要创建、扩展大规模集成的人都应该阅读本书。本书针对如何构建一个可长期维护的提供了**宝贵的实践经验。 |
作者简介 | |
Betsy Beyer是Google纽约负责SRE的一名技术文档作家。她之前曾为遍布的Google数据中心与Mountain View硬件运维团队编写文档。在搬到纽约之前,Betsy是Stanford大学技术性写作课程的讲师。她曾经学习关系与英文文学,并在Stanford和Tulane获得学历。 Chris Jones是Google App Engine的一名SRE。Google App Engine是一个PaaS服务,每天处理超过280亿个请求。他的办公室在旧金山,他之前的工作包括Google广告统计、数据仓库,以及用户支持的维护。在之前,Chris曾经在学校IT行业任职,同时参与过竞选数据分析,以及一些BSD内核的修改。他有计算机工程、经济学,以及技术政策学的学位。同时他也是一名有执照的职业工程师。 Jennifer Petoff 是Google SRE团队的一名项目经理,工作地点在都柏林,爱尔兰。她曾经负责管理大型项目,包括:科学研究、工程、人力资源,以及广告等。Jennifer在加入Google之前,曾在化工行业任职八年。她获得了Stanford大学的化学博士与学士学位,同时她还拥有Rochester大学的心理学学位。 Niall Murphy 是Google爱尔兰团队广告SRE的负责人。他拥有20年互联网行业经验,目前是INEX(爱尔兰网络互联枢纽)的主席。他曾经写作以及参与写作很多科技文章与书籍,包 ...... |
.........