返回列表 发帖

Google总结的一些数据蛮有意思的

Google总结的一些数据蛮有意思的,我这里收集了一些,如果大家有其他的数据,不妨也拿出来给朋友们分享.

1)我们的观点是,不可靠的硬件数量最好是可靠机型的两倍。你需要将可靠性放在软件层面。假如你运行1万台机器,那么每天都有一些死机。(Google研究员Jeff Dean)

2)在每个服务器集群运行的头一年,一般有1千台机器会发生故障;数千块硬盘会出问题;一个“电源分配单元”(PDU)将坏掉,令 500到1000台机器当机6小时;20个服务器机架将出现故障,造成40到80台机器从网络上掉线;5个服务器机架将变得不稳定,这使得机架上的服务器 处理的一半信息包失去响应;一个服务器集群需要重新连接,这将影响5%的机器,影响的时间跨度一般为2天。服务器集群有50%的过热可能性,过热会让绝大 多数服务器在5分钟内当机,并且耗时1到2天来重新恢复。(Google研究员Jeff Dean)

3)Google目前为每40个服务器组成的机架配备一个机箱,而不是象一般情况那样为每个服务器配备一个机箱。(Google研究员Jeff Dean)

4)Google将40台服务器编为一个集群,而在全球范 围,Google拥有36个数据中心。每个数据中心有150个服务器集群,这意味着Google拥有的服务器数量超过20万台,不过Google服务器的 数量应该远远超过这一数字,而且每天都在增长。

5)Google使用了一些常规服务器,同时,Google将1800台服务器组成了集群,这些集群服务器负责Google日常的搜索处理任务,这部分服务器的数量大约是700到1000台。

6)我们确实喜欢多核机器。对我们来说,多核机器用少量的机器实现了良好的连接性能。对我们而言,它们更容易使用。(Google研究员Jeff Dean)

7)单个线程的性能对我们来说确实没有多大关系。我们将重点主要放在并行处理问题上。(Google研究员Jeff Dean)

8)Google软件的三大核心元素:Google文件系统(GFS);Google大表(BigTable);MapReduce算法。

BigTable::是Google一种对 于半结构化数据进行分布存储与访问的接口或服务
MapReduce算法:它是Google开发的C++编程工具,用于大于1TB数据的大规模数据集并行运算。

9)在任何一天,Google运行有大约10万个MapReduce工作任务;每项任务大约会占用4百台服务器,时间大约是5到10分钟。

10)假设服务器只完成MapReduce工作,每台服务器一次只完成一项任务,那么大约要耗时24小时,如果这些工作任务 每个耗时5分钟,这意味着MapReduce任务要占用大约13.9万台服务器。如果耗时7.5分钟,那么需要的服务器数量增加到20.8万台;如果需要 10分钟,服务器的数量增加至27.8万台。

11)MapReduce的可靠性曾经在一个由1800台服务器组成的集群进行维护时经受住了严格考验。工作人员将其中80台机器拔掉,其它1720台机器承担起了80台机器的处理任务。Dean说:“它运行有一些慢,但全部完成了任务。”

12)曾经有一个1800台机器组成集群,其中1600台当机了,但整个系统经受住了考验。(Google研究员Jeff Dean)

13)未完代续……
liuyis[AT]live.com

好像结论是用n个烂机来代替服务器

如谷之歌 扎根土里 与风共存 与种子越冬 与鸟歌颂

TOP

返回列表