服务运行

当产品部署完成,点击"运维中心-服务-运行状态”进入集群运维页面,各组件上服务的运行状态代表了集群的运行状态、稳定状态。

运行状态查看

image.png
  • 服务版本号:可在服务名称的后面查看该服务的版本号;

  • 服务运行实例:列表中展示内容为该服务部署在哪几台主机上,一个服务在一台主机上部署,称之为一个"服务实例";

  • 服务运行状态:查看各服务实例的运行状态,当运行状态为run failed状态时,运维同学应及时查看日志,故障修复,恢复服务运行;

  • 服务健康状态:主要以服务是否告警、主机健康检查脚本是否正常执行、主机是否告警三种状态来反映整体服务在该主机上的健康状态。健康检查通过脚本中的自定义规则来实现,服务部署配置中包含健康检查的检查周期、超时时间等参数,一般为20s检查一次。当服务处于不健康状态时,也需要及时查看;

  • 组件版本号:指该服务所属组件的版本号,即组件安装包的版本号。如hdfs_datanode属于Hadoop组件,则组件版本指Hadoop安装包的版本;

  • 更新时间:服务实例的更新时间,一般服务停止/启动、滚动重启,时间都会更新;

组件管理,查看部署产品中包含的组件,以及可对组件进行启停操作。

image.png

组件列表

不同的产品包含不同的组件、服务,目前EM经常部署的产品为数栈(DTinsight),其包含的组件包括:

组件名称 组件释义

Hadoop

Hadoop安装包,主要包含数栈引擎的组件,如HDFS、Spark、Yarn、Flink

DTBase

基础组件包,包含MySQL、Kafka、Promethus、Redis、Zookeeper等基础服务

Ecology

DTSchedule

数栈任务调度组件

DTCommon

DTFront

DTBatch

离线开发组件

DTStream

实时开发组价

DTAIWorks

算法开发组件

DTAssets

数据资产组件

DTVaild

数据质量组件

DTTag

智能标签组件

DTAPI

数据服务组件

DTConsole

控制台组件

DTUIC

用户中心(UIC)组件

组件启停

组件启停针对该组件下的所有服务。

组件停止
组件停止时将按照服务依赖顺序进行停止。组件停止指服务不再运行,不耗费集群资源,但组件并未卸载。

1.组件停止后,运行在该组件上的任务将无法运行,故组件停止需慎重!会影响生产或测试环境的任务加工和运行;
2.组件停止后,该组件下的服务将不再发送告警;
3.组件停止后,若服务器发生断电恢复的情况,服务将自动重启;

组件启动
组件停止后,可进行组件启动。组件启动时将按照服务依赖顺序启动,并恢复运行与健康检查。

运行日志查看

点击查看日志,会跳转到日志管理界面,查看该服务实例的运行日志,具体操作详见 日志查看页面。

服务停止/启动

  • 服务停止:服务停止需二次确认后,停止后,该服务处于waiting状态,不再运行;

  • 服务启动:服务启动后,提供集群服务;

需避免全部服务实例处于停止状态,会造成服务不可用,服务停止时可单台停止,至少保障一台服务实例在运行状态

服务滚动重启

当服务修改配置,需要服务重启时,可采用服务滚动重启,服务实例轮番启停,保障服务一致处于可用状态。

运行状况

运行状况主要包含 “服务告警”、“主机告警”、“健康检查” 两块内容。

  • 服务告警:主要为来自服务仪表盘中配置告警的指标当前的告警状态,红色表示存在告警、绿色表示正常无告警,异常告警的指标会展示最近一次告警时间帮助运维进行判断。
    列表提供指标所属的仪表盘,可点击一键跳转相应仪表盘查看指标图表配置。

image.png
  • 主机告警:展示该服务所在主机的相关指标在仪表盘中配置告警后的正常状态,若指标处于告警未恢复状态,则该指标状态将显示异常,来源仪表盘供用户快速跳转至主机仪表盘进行对应指标趋势查看及问题排查。

image.png
  • 健康检查:服务在部署至节点后,会周期性的在主机上运行健康检查脚本,此处展示该服务对应需在主机上运行的脚本,以及脚本的检查时间、检查是否失败,提供定时执行、手动执行双模式,通过切换运行主机查看各主机脚本执行情况,灵活实现主机健康检查监控。