为vip.com大数据平台优化

< > >
作者:蔡永成

大数据平台在最近几年-发展迅速。它已经完成了从0到1的过程,各个部门逐渐将其引入到实际业务中。进一步,进一步推进“增加企业集群压力和负荷条件,实现平台优化”是2017的主题。
< > >

报警系统必须满足三个要求:第一个框架是涵盖了机器的各个方面,水平,日志级别和服务不可偏颇;二必须实时监控,故障从电子邮件、短信和电话到不同级别的晋升与降职;第三也是很重要的,是报警规则必须简单的配置。

用ES监视日志文件和Zabbix机器水平监测。我们已经做了很长时间了。我们今年的新尝试是介绍普罗米修斯与Grafna重建服务水平的监测。普罗米修斯是相当于borgmon开源的版本,和Borgmon是一个大型集群监控系统在谷歌。-采用普罗米修斯主动拉指标数据,通过Grafana完善部门的大屏幕仪表板。目前,grafana已经停靠原Zabbix数据源和ES数据源。同时,还推出了各种开源组件监控基于JMX的,包括卡夫卡,卡桑德拉,等,Hadoop,这是用于生产的邮件、短信和电话报警。
< > >

可以核实的监测数据通过grafana显示链接。Grafana提供了一个拉-拉功能,我们设置了一部大屏与各种不同指标的监控图。通过大屏幕的统一表述,我们可以一目了然地了解系统。我每天要去上班的第一件事就是打开部门,看看系统。

蜂巢上的多个HDFS集群


完成监控部分,我们开始尝试着陆今年# 8211;多个HDFS集群。在调查中,我们发现流行的社区联合计划与业务不太兼容。在此基础上,我们研究了多个HDFS集群的应用,保持纱线和支持多个HDFS的聚类方法。这种做法的特点是使HDFS透明在蜂房里层,并最大限度地提高原应用程序的兼容性。
< > >

是联盟非常类似XML的配置,但它消除了一些山表的配置和减轻繁重的客户端viewfs方式。我们添加的internal.dataservices属性指定默认的簇。


已经部署半年了。用户的唯一不便是写HDFS程序直接使用特定的集群。因为我们internal.nameservices添加到配置,如果用户不写,默认会默认群集。反射的各个方面仍然很好。
强>纱线性能优化分配> >
的第三部分是围绕纱线进行的优化。 >


提出了“p”的问题。在优化之前,每一containser分配资源需要0.8ms,然后共7万个集装箱,如果订单分配,大约需要1分钟。这需要优化。


优化首先需要知道分配的原则是什么。用-纱线分配策略是公平调度器,其特点是倾向于公平分配。每个作业调度资源最大的空缺。所以每次分配层的遍历和逆序都要根据空缺,然后尽量分配。


我们通过玩指标来分析耗时的时间,发现资源的分配是时间的一半。当然,分配失败的原因是多方面的,这里没有列举。如何提高资源配置的成功率,缩短分配时间,提高资源利用率,是本文研究的重点。

资料全部来自网络,如果有问题可以发邮件到站长邮箱