面向高性能计算、大数据和人工智能领域,可对大规模FHPC应用程序进行实时“CT”扫描,秒级监控应用程序的CPU、GPU、内存、显存、磁盘、网络等系统级性能指标,以及处理器微架构级和程序函数级等多级性能指标,实时智能分析、诊断故障及定位性能瓶颈。
基于多维度指标建立形成应用运行特征库,为资源精准调配和扩容设计新集群提供量化数据支撑;是管理人员保障集群高效运行的必备利器,也是开发人员优化程序的利器,亦是领导科学决策的支撑利器。
同一界面支持数以千计节点规模进行性能监控与智能诊断,大幅提升管理效率。
无损采集监控系统级、作业级、微架构级、函数级等多维数据,满足不同维度数据需求。
基于智能算法,快速识别大规模FHPC应用程序性能异常,基于应用运行特征历史数据快速直观定位瓶颈,为程序优化提供直观依据。
数据驱动,基于量化的应用运行特征数据精准调配资源和扩容设计新集群,科学决策。
广泛应用于高性能计算、大数据和人工智能领域,秒级监控集群和应用的系统级、微架构级以及函数级等性能指标,智能分析性能异常,实时告警,是管理人员保障集群高效运行的必备基础软件,也是开发人员优化程序的利器。
丰富的色彩指标,秒级动态刷新集群运行状态,行业同仁参访,生动直观展现先进的运营管理水平
一键显示异常节点,快速排查集群异常
同一界面多级指标关联分析,快速定位性能瓶颈
智能分析作业性能,主动推送异常告警
按用户作业维度,快速定位查看作业状态