任务状态

运行信息将展示任务的实时运行信息。您可以通过任务的状态来分析、判断任务的状态是否健康。

登陆任务运维页面

  1. 登录数栈-实时计算。

  2. 选择目标项目,点击 运维中心,进入 任务运维

  3. 任务运维页面,在搜索栏右侧可查看当前所有实时计算任务的状态及总数。

image.png

任务状态

任务状态为您显示作业各状态的数量。任务存在以下9种状态:

  • 失败

  • 运行中

  • 取消

  • 等待提交

  • 提交中

  • 资源队列中

  • 集群资源不足

  • 等待运行

  • 停止中

状态栏中未运行包含等待提交、提交中、资源队列中、集群资源不足、等待运行五种状态。

任务提交运行状态详解

2021 02 26 11 44 26

默认状态下,任务进入提交至引擎后在资源队列中正常等待;以任务A为例,若顺序执行到A缺少资源请求超时时,会进入到超时队列;

2021 02 26 11 45 23
超时队列会按照固定时间按照顺序对队列中的任务进行重新提交,在等待重新提交的过程中,资源队列的任务正常执行;

当将A’重新提交至资源队列时,会晚于重新提交时间节点之前的任务3,但早于重新提交时间节点之后的任务4、5、6; 若此时3任务执行后,剩余资源不足以执行A‘,则A’继续返回超时队列等待执行;若反复多次后A’在队列中的时间大于最大超时时间,则任务置失败;

2021 02 26 11 45 52

CheckPoint续跑&重跑

Flink具有CheckPoint机制,通过保存任务运行时的状态,来实现任务状态的快速回滚和恢复。 实时任务可通过环境参数实现对CheckPoint保存间隔的控制。在任务运行过程中会自动保存CheckPoint,用户也可以在手动停止任务时选择保存SavePoint。

3 4 2021 19 58 19 PM

续跑

通过Flink的CheckPoint机制,平台支持用户手动选择 指定时间点的CheckPoint指定HDFS的文件 对任务进行续跑,在进行系统升级、系统异常、自动上版等情况下数据不丢、不漏、不重;

2021 09 22 14 37 32
CheckPoint默认保留最近11个。

重跑

对任务重跑时,任务已保存的状态均删除,将根据配置的任务参数重新开始执行。当用户进行重跑时,可选择 使用上次任务参数重跑 或 修改Kafka Offset至一个具体的时间点对任务进行重跑。

3 4 2021 20 03 30 PM