HDFS balancer重新平衡,即实现HDFS Block数据物理存储重新分布,可以有效解决物理磁盘空间占用高的问题。
在CDH HDFS集群中,务必至少有1个节点为balancer节点,否则CM平台将无“重新平衡”选项。如果集群中无balancer节点,则需要新增balancer角色。另外,balancer节点应运行在非namenode节点上
CM平台的“重新平衡” 实际上调用的是hadoop重平衡命令,即:hadoop balancer -threshold 5
参数注释:其中-threshold参数是用来判断数据平衡的依据,值范围为0-100。默认值为10,表示HDFS达到平衡状态的磁盘使用率偏差值为10%,如果机器与机器之间磁盘使用率偏差小于10%,那么我们就认为HDFS集群已经达到了平衡的状态。
注:Balancer阈值越高,需要平衡的量越少,DN占用率不够均衡;阈值越低,需要平衡的量越大, DN占有率越均衡;
CM平台中重新平衡阈值设定
判断集群是否平衡的目标参数,每一个 Datanode 存储使用率和集群总存储使用率的差值都应该小于这个阀值,理论上,该参数设置的越小,整个集群就越平衡,但是在线上环境中,Hadoop集群在进行balance时,还在并发的进行数据的写入和删除,所以有可能无法到达设定的平衡参数值。
balancer命令帮助
查看帮助:hadoop balancer -help
1 | [root@hadoop ~]# hadoop balancer -help |
- 本文作者: GaryWu
- 本文链接: https://garywu520.github.io/2019/04/01/HDFS的Block数据balancer重新分布/
- 版权声明: 本博客所有文章除特别声明外,均采用 MIT 许可协议。转载请注明出处!