描述
今天flume报错:supervisor强制重启了所有flume进程,频繁提示此故障
解决思路:
1. 查看kafka消费情况
/opt/kafka/bin/kafka-consumer-offset-checker.sh --zookeeper zookeeper:2181 --topic alc_raw --group alc
任意一台kafka只要能连接到zookeeper就可以看到,有个错误:Could not parse broker info due to null
2.查看Grafana kafka生产情况监控,的确,与告警时间能对上,告警后,kafka没有了速度,值变成了0
3.查看“数据收集流程”拓扑图,查看其flume与kafka关系。可以看出,kafka所有生产消息均有zookeeper集群控制
4.显示所有zookeeper brokers的topic节点(任意一台kafka只要能连接到zookeeper就可以看到)
/opt/kafka/bin/kafka-topics.sh --zookeeper zookeeper:2181 --describe --topic alc_raw
此命令结果中,如果有异常,“Leader”列将会出现横杠“-”,而不是IP。这时,我们看后面的"Isr"列,找到对应的kafka节点服务器IP,重启对应的kafka服务即可解决问题。
原因及解决方法
原因可能是我们第三个kafka节点服务器(36个分区)个别分区坏道导致,处理方法:重启了该kafka节点的kafka服务
命令: supervisorctl status kafka
后现象
kafka生产正常,flume拉取正常,flume无报错
- 本文作者: GaryWu
- 本文链接: https://garywu520.github.io/2017/05/27/flume与kafka那点儿事儿/
- 版权声明: 本博客所有文章除特别声明外,均采用 MIT 许可协议。转载请注明出处!