Hadoop性能模型(7)
4 网络传输性能模型
在shuffle阶段,所有map任务生成的数据都要拷贝到运行reduce任务的节点上(除了在本地),整个在网络中传输的数据是:
这里的finalOutMapSize是单个map任务生成的数据大小。
整个网络消耗:
5 Map-Reduce Job的性能模型
MapReduce Job由多个map、reduce任务并行执行,有两种基本方法来评估job的总消耗,(i)用任务调度仿真器仿真任务的执行,(ii)计算期望的总消耗。
仿真包括在虚拟族上调度,模仿独立任务的执行。每个任务的消耗可以用上面的性能模型计算。
第二个方法可以用下面的方法计算:
整个job消耗就是所有map和reduce任务的消耗总和。
总的I/O,CPU,网络的消耗:
(完)