什么是集群?
集群是一组使用某种互连网络连接的独立计算机的集合。集群中的每个节点可以是工作站、个人计算机,甚至是一个多处理器系统。
节点是自治的计算机,它可以参与其私有活动,同时在某些计算任务的上下文中与其他单元协作。每个节点都有其输入/输出系统和其操作系统。
当集群中的所有节点都具有相同的架构并运行相同的操作系统时,该集群称为同构集群,否则称为异构集群。互连网络可以是快速局域网或交换机。
为了实现高性能计算,互连网络必须提供高带宽和低延迟通信。集群的节点可能始终专用于集群;因此,可以在整个集群上执行计算。专用集群通常紧凑地打包在一个房间内。
专用集群通常使用高速网络,例如快速以太网和 Myrinet。或者,互联网上不同个人拥有的节点可能只在部分时间参与集群。在这种情况下,如果获得所有者的许可,集群可以利用每个参与节点的空闲 CPU 周期。
体系结构中的中间件层使集群对用户看起来像一台并行机器,这称为单一系统映像 (SSI)。SSI 基础设施通过支持以下几个功能提供对系统资源的统一访问:−
单一入口点 − 用户可以连接到集群而不是连接到特定节点。
单一文件系统 − 用户看到一个单一的目录和文件层次结构。
单一管理映像 − 从单个窗口管理整个集群。
协调资源管理 − 作业可以透明地竞争整个集群中的资源。
集群的主要目标是高可用性,中间件还将支持使集群服务能够从故障中恢复并在集群所有节点之间实现容错的功能。
例如,中间件应该提供用于检查点的必要基础设施。检查点方案确保定期保存进程状态。在节点发生故障的情况下,可以在另一个工作节点上重新启动故障节点上的进程。
广告