YARN健康检测
1 | NodeManager 还提供了检测磁盘好坏的机制。 |
1 | 某个目录可不可用的定义是:运行 NodeManager 节点的进程是否对这个目录可读、可写、可执行。如果这些条件都满足,这个目录则健康,否则该目录就被放入 failedDirs 列表里面。 |
现象:Yarn不能给某些机器分配任务-解决方案
1 | 通过Ganglia登陆yarn群集任一主机,查看所有yarn运行状态 |
故障原因:
1 | Yarn程序对服务器硬件有套检测机制,会及时检测内存数量、vcore数量以及磁盘空间,当某个分区磁盘空间超过90%以上,yarn会将该服务器的节点状态改为UNHEALTHY,此时yarn不会再给此服务器分配任务。 |
解决方案:
#目标:释放空间,让nodemanager恢复健康
#第一步:停止向该服务器继续向/data/A存放数据
1 | 登陆CDH - HDFS - 实例 - 搜索对应服务器 - 配置 - 删除“DataNode 数据目录”配置的/data/A/dfs/dn - 保存 |
#第二步:删除机器上的/data/A目录下的dfs元数据
1 | 原理了解: |
#让这台Yarn故障机器恢复使用
1 | 空间被释放了,如何让Yarn重新给这台机器分配任务继续劳作呢? |
- 本文作者: GaryWu
- 本文链接: https://garywu520.github.io/2017/07/06/Yarn不能给某些机器分配任务-解决方案/
- 版权声明: 本博客所有文章除特别声明外,均采用 MIT 许可协议。转载请注明出处!