入门概述

算法开发采用HDFS数据存储,兼容多种机器学习与深度学习框架,可快速完成算法建模到模型应用的全生命周期开发工作,构建一站式可视化机器学习平台。基于此平台,可对数据智能化应用场景提供有效支持,主要包含以下功能:

  • 数据管理

支持多种数据源接入,对数据进行建模探索,包含大批量数据库同步,小批量数据本地上传。基于数据同步工具,可实现RDBMS、Hive、Elasticsearch、HBase、Redis、MongoDB、FTP、GBase、Kylin、MaxCompute、Kudu、ClickHouse等多类数据源的数据接入,并支持本地CSV、TXT数据上传。

  • 可视化建模

平台封装丰富的高性能算法组件,包含数据源/目标、数据处理与分析、特征工程、机器学习、模型选择与评估等,通过拖拉拽组件的方式,组成可视化的实验流,提高开发效率,并快速查看数据运行结果、模型评估结果,以柱状图、条形图、箱型图等图形可视化展示,简单易上手。

  • Notebook建模

具备Notebook代码式开发环境,支持深度学习任务与机器学习任务的代码开发,包含TensorFlow、Keras、PyTorch、Python、PySpark等任务类型,与可视化实验建模方式互补,提供灵活的开发方式。

  • JupyterLab交互式开发

集成开源JupyterLab环境,执行某段语句查看相应结果与运行日志,为数据分析师提供灵活的数据探索环境。

  • 模型周期训练

可视化实验任务、Notebook代码开发任务都支持周期性调度,进行模型训练,查看模型评估结果,选取并应用合适的模型参数。

  • 模型部署中心

经过模型训练与参数选择后,可对模型进行在线部署,部署后,模型可进行在线实时传参调用,如某模型是一个心脏病预测模型,该模型部署后,便可实时传入某位病人的身体健康信息,经过模型计算后,返回该病人是否有患心脏病的风险。