|
解决方案
|
Platform IT资源整合解决方案
一 Platform IT资源整合解决方案引言 在当今的各行业中,IT 投入是巨大的,条块分割、各自为政的现状又常常导致计算机大部分时间被闲置,这无疑是资源的极大浪费。通过IT资源整合,实现软硬件资源共享调度,将所有软硬件资源有机地组合在一起,根据事先定义的调度策略,如先来先服务(FIFS)、公平调度(FairShare)、优先级调度等,统一调度、统一管理,建立先进制造公共IT资源平台,实现设计、生产、试验的一体化,提高软硬件资源的利用率。具体包括: l 计算资源的统一管理。通过 LSF 驻留程序将硬件资源的运行情况收集到一起, 实现先进IT资源平台的统一监视和管理。在此基础上,根据用户作业对资源的需求情况和系统管理员事先定义的调度策略,动态地统一调度和管理。 l 软件许可证自动排队和管理。 l 资源运行情况和使用报表。整个系统软、硬件的使用效率,以及它们是如何被 使用的,每个用户或项目对资源的使用情况,对企业来说都是非常重要的数据,利用这些数据既可以对企业的目前投资回报和工作效率作出评估,又能找出资源的瓶颈,为下一步投资提供依据。 简单易用的资源门户(Portal)系统,降低工程应用人员使用IT综合资源系统的门槛。
Platform 资源整合解决方案包括 Platform LSF HPC、Platform HPC Portal、Platform LSF Report、Platform LSF License Scheduler四个模块: l Platform LSF HPC 通过其上的驻留程序将各计算机组合成一体,形成一虚拟计算机。并统一调度、统一管理,实现硬件资源共享以及在其上运行的应用软件资源共享; l Platform HPC Portal提供了一个简化使用流程,方便管理、易于维护的可定制的门户系统。 l 以Platform LSF HPC为基础,Platform LSF Report 提供了整个硬件资源、软件资源的运行情况和使用分析。包括这些软硬件资源的运行情况、使用效率,以及各部门、各课题、项目组的使用情况等。 Platform LSF License Scheduler针对基于Flexlm的应用软件许可证提供支持对许可证的抢占式调度(Preemption Scheduling),保证在许可证不足时,优先级高的作业能抢占优先级低的作业的许可证而优先执行。实现对License的合理分配和无效占用等功能的有效控制。 1.系统监控与管理
Platform LSF HPC 将把所有计算机纳入统一管理,系统管理员可通过任何运行 LSF HPC 的机器或通过 Web 监控集群的运行状况,包括所有服务器负载如:内存、CPU 利用率等,以及用户作业运行情况,并管理整个集群。
2.计算资源的统一调度与管理2.1 统一排队和管理
Platform LSF HPC 通过主批处理程序建立相应的用户程序队列管理中心,根据系统负荷情况、用户程序运行所需要的资源需求信息以及系统管理员事先定义的调度算法和策略自动选择排在前面的作业执行。运行在各计算节点的从批处理程序接收来自主批处理程序的运行用户程序请求并启动相应的用户程序运行。 Platform LSF HPC 提供节点分组和用户分组的功能,利用这种功能,集群可以划分为多个功能区(节点组), 提供不同的服务。同时,Platform LSF HPC 可以按用户组来限 定用户能够访问的节点组。这样,通过 Platform LSF HPC,集群在保持完整性的同时,可以按功能划分为独立的工作区,用户可以彼此独立地在各个工作区运行作业。 Platform LSF HPC 提供的分组功能还能够灵活地配置,在不改变集群系统运行的情况下调整分组。
2.2 多调度策略Platform LSF HPC 提供了多种调度策略,包括: l 先来先服务(FIFS) l 轮循式调度 l 公平共享式(Fairshare)调度 l 抢占式(Preemption)调度。 l 独占式调度 Exclusive l 主机公平调度 HostParation l 资源预约调度 Resource Reservation l 高级处理器预约 Advance Reservation 系统管理员可以根据实际情况选择相应的调度策略,满足科研、生产的需要。下面对公平共享式(Fairshare)调度和抢占式(Preemption)调度作一介绍。 公平共享式调度能规定用户或用户组对计算资源的使用分额,保证计算资源能被公平合理的使用。下图演示了 Fairshare 的调度策略, 研究所 EDA 设计的两个部门用户被分成 A、B 两组,对计算资源按 7:3 分配,A 组的用户 User2、User4 和 User6 按 4:2:4的比例来使用 A 组的资源,B 组的用户 User1、User2、User3、User7 按 1:1:1:7 的比例来使用B组的资源。
抢占式调度。有效保证作业的优先级,优先级高的作业能抢占优 先级低作业的抢占式调度。有效保证作业的优先级,优先级高的作业能抢占优 先级低作业的计算资源(CPU、内存、许可证等),从而以最快速度完成。这样,在实际管理中优先级高的项目或用户总能迅速地获得所需要的计算资源。 另外,LSF HPC 还提供机器分组和用户分组的功能,利用这种功能,机群可以划分为多个功能区(节点组),提供不同的服务。同时, LSF 可以按用户组来限定用户能够访问的节点组。这样,通过 LSF, 机群在保持完整性的同时,可以按功能划分为独立的工作区,用户可以彼此独立地在各个工作区运行作业。例如,可以为各部门分配机器组和用户组,在保证统一管理的情况下,各部门能相对独立地使用计算资源。 2.3 负载平衡Platform LSF HPC 可以轻易实现如下的负载平衡,以提高资源的利用率: 时间上的负载平衡。为了充分利用晚上和周末的空闲时段,可采用 LSF 的“队列运行时窗管理”功能,定义一个名为“offtime”队列, 将此队列的运行时窗设置为晚上和周末,这意味着 offtime 队列中的 作业只能在晚上和周末运行,在工作时间则处于等待状态,而不消耗 计算资源。这样,耗时长、不紧急的作业,就可以推送到下班时间运行,既避免了干扰用户工作时间用机,又提高了机器的利用率。
空间上负载平衡。利用 LSF 的机器级和队列级的限流功能,很容易实现机器间的负载平衡。系统管理员可以根据系统的作业数和负载水平,设置每个机器的流量限制。LSF将自动关闭达到流量限制的机器,使这些机器不再继续接受作业。其他作业将被 LSF分配到空闲的机器上运行。结合LSF的机器筛选机制,研究所机群可实现如下的机器间负载均衡模式:
l 作业总是首先在性能最高的机器上执行; l 当高性能机器达到设定负荷或流量限制后,新的作业被分配到 其他闲置的机器上; l 当所有机器达到设定负荷或流量限制后,作业将暂停在LSF的队列缓冲中,等待有机器空闲;
这样,保证作业尽可能向高性能机器集中,同时也防止用户往往主观的将大量的作业提交到某几个机器上,致使这些机器过载,系统响应缓慢,过多的任务拥塞在系统中,互相争抢CPU、内存等资源,使系统的计算能力大量浪费在任务切换中,导致系统忙而无效。
空间上的负载平衡,作业尽可能平均分配到集群的所有节点上,所有节点保持在一个合理地负载水平上。交互作业和批处理作业间的均衡。为了避免交互作业和批处理作业的冲突,可以使用 LSF HPC 的独占式调度(Exclusive Scheduling)功能,当一个交互作业在图形工作站上运行时,该机器将被关闭,其他作业将不能再运行于其上,从而保证交互用户在使用上的效率。而没有交互作业时,该图形工作站又可以运行批处理作业。另外,还可以提高交互作业的优先级,通过前面提到的抢占式调度,保证交互作业的优先执行,防止批处理作业占用所有机器,交互作业无法执行的情况。
3.软件许可证排队和管理LSF HPC 可以将许可证抽象成一种计算资源,并通过LSF HPC 的资源预约的方式管理和调度需要许可证的作业。在作业运行前,首先向 LSF HPC 申请许可证资源,只有获得许可证资源的作业才能实际运行,其他作业将暂停在 LSF HPC 队列中,直到许可证资源被释放出来。这样,许可证就可以被连续使用,而用户可以不再考虑许可证的问题,将作业送出后,LSF HPC 总能保证作业被正确执行,避免因为作业无法抢到许可证,而不断重新提交作业。用户的效率和许可证的利用率都大大提高。 Platform LSF HPC 也可以把所有应用程序按队列管理,不同的应用程序对应不同的队列,并按队列配置不同的管理策略,分配不同的计算资源。这样既保证了应用程序之间的独立,也有利于所有应用程序的集中统一管理,也减少了应用程序管理和使用上的复杂性。
Platform LSF HPC 按队列管理应用程序,用户的请求按应用程序分类,简化了应用程序的管理。
4.系统的容错性和可靠性
在容错性和可靠性方面 LSF HPC 提供了三种级别的容错:网络级,系统级及作业级。 网络级容错保证了任何服务器(包括 Master)的宕机不会影响到系统的运行。集群中只要有一台计算机正常运行,集群服务就可使用,因为该服务能在各计算机之间"浮动";即使整个网络都瘫痪,作业也不会丢失。所有作业事件都记录在指定文件系统中。 当第一台机器恢复正常时,集群服务就可恢复并继续运行。 系统级容错保证了当作业运行时,计算机系统发生故障,该作业能被重新调度到其它机器上执行。 作业级容错保证了作业运行时,因为的偶然故障(如磁盘空间不足)引起的作业失败时,作业能自动重新执行。 另外,LSF HPC还提供了更智能的容错性机制—作业级异常管理(Job-Level Exception Management),可以在作业运行时间太长、作业运行时间太短、作业消耗 CPU 太少的情况下,执行预定义的例外操作,提高系统的自我管理能力。
5.软硬件资源运行情况和使用分析Platform LSF Reports 是一套企业级的负载分析工具,它与 LSF HPC 紧密集成,提供对机群系统全面的负载和运行状况分析报表。利用这些分析报表,企业可以有针对性地调整系统的性能,优化系统的使用,优化项目或人员的管理;从而减少运营和 IT 基 础建设的成本,并为下一步的投资提供决策依据,以实现投资回报最大化。 LSF Reports 能以 PDF、HTML 和 CSV(Comma Separated Values)三种格式输出近百种报表,归纳起来有如下几类: 机群总体及各机器的负载分析,如 CPU、内存、交换区利用率和内存换页率、 磁盘 IO 等。 机群的运行情况分析,如机群中作业运行情况(等待/运行/结束/失败),并行作业数量,作业等待原因,及按机群、机器、队列统计吞吐量(及每小时/每 天等待/运行/完成的作业数)。
l 商用软件许可证利用率报表以及使用分析
资源的使用分析,可以按用户、项目、队列和应用程序分类统计分析对 CPU、 内存、交换区、许可证的使用情况。
6.与系统软件及应用程序集成。Platform LSF 可以方便与众多第三方CAE/EDA应用厂商集成。实现对资源的统一利用于管理。
二 、 应用程序性能管理解决方案OPNET 提供业内首屈一指的集成式应用程序性能管理解决方案套件,适用于以下领域: l 最终用户体验监控 l 应用程序组件监控 l 端到端事务分析 这些解决方案可利用一流的分析功能进行实时监控、高级应用程序故障排除以及预部署测试和规划。OPNET 面向完整生命周期的方法可实现以下目标: l 确保遵守 SLA,利用全天候不间断的监控和报警,提高端到端性能 l 通过实时分析和自动化诊断功能,加速故障的修复进程 l 在部署前检验应用程序网络的准备程度,从而降低部署延迟或失败的风险 l 通过预测规划,避免低效、高昂的基础架构投资 l 避免负责应用程序性能的各个团队之间互相推诿 端到端应用程序性能管理 l 业内首款集成式端到端解决方案,用于应用程序性能监控、故障排除以及问题解决 l 面向完整生命周期,用于部署规划、测试和生产环境 l 利用网络、系统和应用程序分析的综合性解决方案 l 成功部署 WAN 优化、VoIP 和服务器虚拟化的关键 1 ,最终用户体验监控:ACE Live 可持续监控最终用户应用程序响应时间,通过基于硬件的解决方案提供企业范围内所有事务和用户的全方位实时信息。ACE Live 具有先进的实时分类功能,可以将应用程序响应时间按服务器、网络和应用程序延迟进行分配。ACE Live 与 ACE Analyst 和 Panorama 相结合,成为业内首屈一指的用于监控、报警和故障排除的集成式解决方案套件。
最终用户体验监控和实时网络分析
最终用户监控 企业需要一套可执行最终用户体验监控和应用程序性能管理的综合方法。ACE Live 是一款集 SLA 违规情况网络监控、测评及检测于一身的端到端解决方案,可密切联系各种因素来揭示应用程序性能问题的根本原因。 ACE Live: § 为企业中所有的应用程序事务和用户提供全面的可视性 § 提供关于应用程序性能、资源利用率、路由质量、ISP 性能以及最终用户响应时间等详细的实况和历史信息 § 支持复杂的网络基础架构和技术 § 根据应用程序和用户定义的业务组(如部门、校园等)自动汇总数据,从而以具有业务意义的方式展现结果 § 通过连接到镜像端口或 TAP(分光器)的被动式以太网连接监控实际网络流量 - 持续监控所有通信量 结合 OPNET 的 ACE Analyst,ACE Live 可进行快速、全面且详细的事务级故障排除。ACE Analyst 业内领先的分析功能内嵌有关网络协议及应用程序网络行为的专家知识,可以对网络应用程序的端到端性能进行深入分析。利用基于软硬件的设备,ACE Live 可帮助中大型企业主动检测响应时间问题,以更快地进行诊断和解决,从而尽量减轻对业务的影响。
利用非侵入式软硬件 ACE Live 设备跨整个网络监控最终用户体验。 主要功能 § 无代理部署,迅速增强网络可视性 § 全天候基于硬件的应用程序性能监控,包含历史趋势 § 通过 SPAN 或镜像端口或 TAP 进行快速、非侵入式安装 - 时间通常短于一个小时 § 通过用户定义的应用程序和业务组自动化应用程序发现和分类 § 针对大量日常管理任务的独特的点击式导引工作流程,例如对应用程序性能问题进行诊断和故障排除 § 先进的实况和历史数据分析,准确确定导致延迟的组件、最高带宽使用者、趋势以及报告异常行为 § 直接深入分析 ACE Analyst,以快速、全面地进行应用程序故障排除 § 集中化探测管理,包括数据聚合和合并 § 高管级业务报告和基于 Web 的仪表盘,用于监控 SLA 和应用程序性能 § 高速数据包捕获和长期存储功能,用于快速分析应用程序问题的根本原因 § 实时 VoIP 性能管理功能,用于语音和数据聚合网络 § NetFlow 数据收集,可扩展对网络容量的可视性
ACE Live 模块 NetFlow 监控
ACE Live NetFlow 模块在独特的统一视图和单个设备中结合了实时最终用户响应数据和利用率指标。 可利用 NetFlow 模块实现以下目标: § 扩展对网络容量的可视性,其中包括分公司之间的通信量 § 通过功能强大的基于 Web 的仪表盘,在单个统一的视图中显示并报告实况应用程序响应时间数据和 NetFlow 利用率指标 § 通过利用 NetFlow 数据识别并报告关键通信量和带宽指标,其中包括最高带宽使用者和带宽消耗最多的用户 ACE Live VoIP 模块内嵌实时的语音质量分析功能,可轻松对语音通话质量进行监控和故障排除。 可利用 VoIP 监控模块实现以下目标: § 针对任何 VoIP 供应商的通话质量进行监控和故障排除 § 将损失、失真、解码、延迟、信号级、噪音级、回声和等待时间的贡献率从 MOS 分数中分离出来,以了解真实的最终用户体验情况 § 查看业务环境中的整体网络状况和 VoIP 性能,以确定问题解决的优先次序并制定合理的 SLA ACE Live on Riverbed Services Platform (RSP) ACE Live 设备在数据中心和分公司中部署。ACE Live on RSP 可运行在 Riverbed Steelhead 设备中,能够提高对远程站点应用程序响应时间的可视性。
2, 应用程序组件监控:Panorama 可持续监控性能关键性应用程序,从而提供应用程序环境中所有服务器的实时组件级信息。Panorama 能够跟踪 Java/.NET 应用程序服务器、Web 服务器和数据库层中数以千计的系统及应用程序指标。Panorama 具有功能强大的实时关联技术,可自动对多个应用层中的指标进行关联,从而快速确定问题的根本原因。同时,Panorama 采用了独特的测量技术,在生产环境中仅需少量资源开销便可以对各个应用程序进行深入测量
实时应用程序监控和分析 AppInternals Xpert 应用程序监控
复杂、多层应用程序的性能会受到众多相互关联因素的影响,其中包括系统资源、数据库和应用程序架构、应用程序代码的效率以及网络基础架构。由于这些因素的相互依赖,性能问题的征兆通常在一层或多层中出现。为了分别确定各个问题的根本原因,通常需要对不同 IT 团队所拥有的不同工具所报告的性能指标进行耗时的手动分析。当出现问题时,修复过程将异常复杂、耗时且昂贵。 Panorama 可轻松比较各组相关指标的值,并根据"主要违规因素"自动生成相关视图。 OPNET Panorama™ 可以为关键性 Java 和 .NET 应用程序提供全方位的性能管理,管理过程涵盖整个应用程序周期,从开发和 QA 直到部署和运营。Panorama 能够持续监控所用层面的每个服务器中数以千计的系统和应用程序指标,并利用先进的偏差跟踪功能自动确定性能异常。Panorama 独一无二的关联技术能够自动检测指标和事件的模式,从而识别因果关系并指出可能无法检测到的问题征兆。通过在 Java 虚拟机 (JVM) 和 .NET 公共语言运行时 (CLR) 虚拟机中进行深入事务跟踪,Panorama 能够用于查看方法级别的应用程序代码,从而执行根本原因分析和快速问题修复。
Key Features § 兼容数百种定制和第三方业务应用程序,其中包括 SOA 环境 § 关键应用程序组件(Java、.NET、数据库、Web 服务)的全天候高清监控 § 针对关键性应用程序的实时仪表盘可显示关键性能指标 (KPI) § 直接自动配置数千项 KPI 的限值 § 动态阈值可根据历史性能自动调整限值,减少错误报警量< § 取证‘快照&rsquo可以捕获并存档关键事件的深入数据 § 取证“快照”可以捕获并存档关键事件的深入数据 § 先进的偏差跟踪可以自动确定异常和正常行为自动关联数千项应用程序和系统测量值,以揭示应用程序性能问题的未知来源;对SOA 性能管理 § 具有很高的价值通过跨平台查看所选Web 服务器, 数据库,和系统资源的相关信息,能够对性能瓶颈进行深入分析 § 深入分析功能可识别特定的资源,例如无法有效扩展的 Java 类或数据库组件 § 深入事务跟踪能够在方法级对执行时间进行详细分析,并识别造成应用程序性能问题的特定的 JDBC 或 ADO 调用和 SQL 语句 § 内存分析和实时内存泄露检测 § 只需一秒钟即可了解VMware 虚拟化服务器的物理资源消耗 § 了解客户虚拟机的物理资源消耗,从而主动确定与 VMware 配置不足相关的性能问题 Panorama 的竞争优势:先进的分析功能 PPanorama 能够通过了解每项指标每天特定时间的正常状态来动态设定限值。可自动识别与正常状态存在偏差的指标,并根据行为的“异常程度”自动为这些指标打分。这样即可对不同层中的不同指标进行比较和评级。 Panorama 的统计关联引擎具有跨多个应用层、技术和平台关联事件和指标的独特功能。可自动将随时间共同变化或同时违反限值的指标标记为相关指标,并在单个视图中对这些指标进行分析。 凭借这些先进的分析功能,Panorama 能够自动筛选数以千计的 KPI 以确定模式和关系,从而解答与背景相关的问题,例如: § 某一层上的某一指标是否相对于特定时间的正常状态发生了显著变化? § 这些变化是否与应用程序的性能问题同时出现?它们是否在每次应用程序运行缓慢时出现? § 报告网页的速度缓慢是否与某些数据库指标有关? § 间歇性 CPU 峰值与特定 ASP.NET 页面、servlet 或通用类的执行之间是否存在某种关系? § 应用程序运行缓慢,通常是由哪些因素造成的? 重要使用案例
生产监控
在实况或历史模式下显示应用程序性能的主要方面 就全天侯业务活动的维持和生产 SLA 的遵守而言,对关键应用程序进行全天候的性能监控至关重要。在生产过程中,Panorama 可持续监控应用程序环境中所有服务器的 KPI,并能够通过仪表盘提供实时性能信息,同时在超出性能阈值时主动发出通知警报。取证‘快照’可以捕获关键事件的深入数据,使故障排除专家能够在无需重现问题的情况下执行详细分析。Panorama 先进的分析功能可引导用户直接确定问题领域,帮助应用程序支持团队快速修复性能问题并实现服务水平目标。
预部署测试 对于确保整个应用程序生命周期内的应用程序质量而言,在部署之前使用与生产相似的负载条件分析应用程序的性能是必不可少的一步。在 QA 测试实验室中,Panorama 可以在测试环境中监控不同服务器的系统和应用程序指标,并与负载测试工具相集成以分析事务负载条件下的性能瓶颈。Panorama 的自动化基准分析和高级偏差跟踪功能可识别负载条件下扩展比例失调的组件,从而为开发团队提供可执行反馈以进行性能优化。凭借 Panorama,QA 团队能够快速确定及解决潜在的性能瓶颈,并信心十足地部署可满足生产服务水平目标的应用程序。
监控 J2EE/.NET 应用环境中主要组件的负载、吞吐量和响应时间
SOA 性能管理
客户感言:
"Panorama 能够在我们的团队成员意识到问题发生之前,帮助我们即时识别性能下降的原因,并解决任何与应用程序相关的性能问题。"
3, 端到端事务分析:ACE Analyst 是一款业内领先的解决方案,可利用内嵌的有关网络协议及应用程序网络行为的专家知识对事务进行深入分析。Panorama 可提供应用程序内部(包括 Java 及 .NET 组件、类和方法)的深层次信息,与 ACE Analyst 的功能形成互补。ACE 解决方案套件直接与 Panorama 相集成,可以跨所有网络、系统和应用层实现先进的端到端分析。
3展开 网络应用程序分析
现为AppTransaction Xpert
应用程序故障排除
如今的企业依靠网络应用程序来开展业务。应用程序性能不佳会导致企业生产力低下,进而对预期收益造成影响。然而,生产应用程序的性能问题却很普遍,新应用程序部署也因为性能问题而屡屡延迟,甚至以失败告终。 主要功能 § 具有无限制、自由、轻便且安全的 ACE 捕获装置,可用于捕获问题应用程序中的跟踪记录 § 可以对网络数据包跟踪记录和关键统计数据进行高级分析 § 协调式多层捕获和跟踪记录同步 § 用于分析间歇性应用程序问题的持续捕获功能 § 用于呈现应用程序行为的直观且功能强大的图表 § 用于确定应用程序性能瓶颈并汇总响应时间延迟原因的自动化诊断报告 § 具有数百种协议和事务级解码,其中支持 Wireshark § 快速准确地预测应用程序在虚拟环境中的响应时间,该环境由多个客户端、服务器和应用程序组成 § 强大的“白板”环境,可用于构建并验证对复杂的应用层逻辑和行为所作的更改,其中包括 Web 2.0 应用程序 § 自动生成的标准化专业报告,可针对主要利益相关方(如应用程序开发人员、网络工程师和管理人员)轻松定制 § 可利用 ACE 企业管理服务器通过 Web 浏览器进行集中装置管理和符合最终用户需要的捕获
恢复网络层可视性: ACE Analyst 可提供网络层的可视性,将端到端的应用程序事务与 WAN 优化设备引入的其它活动相分离,进而有效解决响应速度慢的问题。 规划 WAN 优化部署: ACE Analyst 可采用“假设”预测分析进行规划,以及针对 WAN 优化环境中的响应时间问题验证建议的修复。该软件能帮助企业识别可实现最大效益的站点和应用程序,并更有效地规划 WAN 优化设备的部署。
15 | |||||||||||||||||||
-总 部
北京朝阳区东四环中路78号大成国际中心2号楼A0816室
邮编:100124
电话:010-59625257/58/59/60
传真:010-59625262
-成都办事处
成都市人民南路二段18号川信大厦24楼F-2座
邮编:610016
电话:028-86200061/2
传真:028-86200063
-南京办事处
南京市石鼓路107号华威大夏12A1座
邮编:210004
电话:025-68907817、68907818、68907819
传真:025-68907816
-上海办事处
上海市徐汇区裕德路168号“徐汇商务大厦”2302室
邮编:200030
电话:021-33634548
|
| 关键词: | |
北京京汇思维科技发展有限公司 版权所有 2011 技术支持:中国万网 京公网安备110105009089

