Windows Server 2003 服务器群集创建和配置指南(2)

      技术 2004-12-16 10:55

为群集应用启用:如果选定了该复选框,群集服务将使用该网络。默认对所有网络选定该复选框。

仅用于客户端访问 (公用网络):如果您想让群集服务仅使用该网络适配器与其他客户端进行外部通信,则可选择该选项。该网络适配器将不进行节点对节点的通信。

仅用于内部群集通信 (专用网络):如果您想让群集仅使用该网络进行节点对节点的通信,则可选择该选项。

所有通信 (混合网络):如果您想让群集服务使用该网络适配器进行节点对节点通信和外部客户端通信,则可选择该选项。默认对所有网络选定该选项。

本白皮书假定仅使用两个网络。它解释如何将这两个网络分别作为混合网络和专用网络进行配置。这是最常见的配置。如果您具有可用的资源,建议使用两个专门的冗余网络用于内部群集通信。

配置心跳

1.

启动“群集管理器”。

2.

在左侧窗格中,单击群集配置,单击网络,右击专用,然后单击属性

3.

单击仅用于内部群集通信 (专用网络),如下面的图 22 所示。

Figure 22: Using Cluster Administrator to configure the heartbeat.

图 22:使用“群集管理器”配置心跳。

4.

单击确定

5.

右击公用,然后单击属性 (如下面的图 23 所示)。

6.

单击选定为群集应用启用该网络复选框。

7.

单击所有通信 (混合网络),然后单击确定

Figure 23: The Public Properties dialog box.

图 23:“公用属性”对话框。

心跳适配器优先化

配置完群集服务如何应用网络适配器的角色后,下一步是对内部群集通信应用进行优先排序。这仅适用于两个或多个被配置为节点对节点通信的网络。屏幕右边的优先级箭头指定了群集服务使用各个网络适配器在节点间进行通信的先后顺序。群集服务总是尝试使用列于首位的网络适配器进行节点间的远程过程调用 (RPC) 通信。只有当群集服务无法使用第一个网络适配器进行通信时,才会使用列表上的下一个网络适配器。

1.

启动“群集管理器”。

2.

在左窗格中,右击群集名称 (位于左上角),然后单击属性

3.

单击网络优先级选项卡,如下面的图 24 所示。

Figure 24: The Network Priority tab in Cluster Administrator.

图 24:“群集管理器”中的“网络优先级”选项卡。

4.

确认专用网络列于最顶部。使用上移下移按钮,更改优先顺序。

5.

单击确定

配置群集磁盘

启动“群集管理器”,右击您想从群集删除的任何磁盘,然后单击删除

请注意:默认状态下,所有磁盘并不在相同的总线上,因为系统磁盘将为它们创建“物理磁盘资源”,并将其群集。因此,如果节点具有多条总线,可能列出的某些磁盘将无法用作共享存储,例如,内部 SCSI 驱动器。应该从群集配置中删除这些磁盘。如果您计划对某些磁盘实施“卷装载”点,则可能要删除这些磁盘的当前磁盘资源,删除驱动器盘符,然后创建一个未分配驱动器盘符的新的磁盘资源。

仲裁磁盘配置

“群集配置向导”自动选择将作为仲裁设备的驱动器。并将使用 50 MB 以上的最小分区。您可能要把自动选择的磁盘更改为您自己指定的仲裁磁盘。

配置仲裁磁盘

1.

启动“群集管理器”(CluAdmin.exe)。

2.

右击位于左上角的群集名称,然后单击属性

3.

单击仲裁选项卡。

4.

仲裁资源列表框中,选择一个不同的磁盘资源。在下面的图 25 中,仲裁资源列表框中选定的是“磁盘 Q”。

Figure 25: The Quorum resource list box.

图 25:“仲裁资源”列表框。

5.

如果磁盘具有的分区不止一个,单击您要在其中存储群集指定数据的分区,然后单击确定

其他相关信息,请参见“Microsoft 知识库”中的下列文章:

280353 如何更改仲裁磁盘指定

创建一个延迟启动

当所有的群集节点均同时启动并尝试附加到仲裁资源时,群集服务可能无法启动。例如,在发生电源故障后,同时对所有节点恢复电力时,可能出现这种情况。要避免这类情况的发生,可以增加或减少显示操作系统列表的时间设置。要找到该设置,单击开始,指向我的电脑并右击我的电脑,然后单击属性。单击高级选项卡,然后在启动和故障恢复框中,单击设置

测试安装

在“安装”程序结束后,有几种可供验证群集服务安装的方法。其中包括:

群集管理器:如果仅完成了节点 1 的安装,启动“群集管理器”,然后尝试连接到群集。如果已安装了第二个节点 2,在任意一个节点上启动“群集管理器”,然后确认第二个群集显示在列表上。

“服务”小程序: 使用服务管理单元确认群集服务已显示在列表上并已启动。

事件日志:使用“事件查看器”检查系统日志中的 ClusSvc 条目。您会看到有关确认群集服务已经顺利形成或加入一个群集的条目。

群集服务注册表项:确认群集服务安装程序已将正确的项写入注册表。您可以在 HKEY_LOCAL_MACHINE\Cluster 下找到许多注册表设置

单击开始,单击运行,然后键入“虚拟服务器”的名称。确认您可以连接并看到资源。

测试故障转移

验证资源可以执行故障转移

1.

依次单击开始程序管理工具,然后单击群集管理器,如下面的图 26 所示。

Figure 26: The Cluster Administrator window.

图 26:“群集管理器”窗口。

2.

右击磁盘组 1 组,然后单击移动组。该组及其所有资源将转移到另一个节点。稍后,磁盘 F:G:将在第二个节点上实现联机。在窗口中观察该转移。退出“群集管理器”。

恭喜!您已经完成了所有节点上的群集服务配置。服务器群集已经可以完全正常地运作了。您现在可以准备安装群集资源,如,文件共享、打印机后台处理程序、诸如分布式事务协调器、DHCP、WINS 等群集敏感服务、或者诸如 Exchange Server 或 SQL Server 等群集敏感程序。

附录

高级测试

现在,您已经配置好了您的群集并验证了基本的功能和故障转移,您可能想执行一系列的故障情境测试,来演示预期的结果,并确保群集在发生故障时会正确地进行响应。并不是在每一次实施时都需要进行这种程度的测试,但是如果您刚开始接触群集技术,而且不熟悉群集的响应方式,或者您正在自己的环境中实施一个新的硬件平台,这将有助于深入了解集群管理。所列出的预期结果是针对结合默认设置的干净群集配置,并未考虑任何用户自定义的故障转移逻辑。这不是一个包含所有测试的完整列表,而顺利完成这些测试并不能认为已经得到了“许可”或准备好进行生产运作。这只是一个关于某些可执行的测试的示范列表。其他相关信息,请参见“Microsoft 知识库”中的下列文章:

197047 Microsoft 群集服务器上的故障转移/故障恢复策略

测试:启动“群集管理器”,右击一个资源,然后单击启动故障。该资源将进入故障状态,然后将重新启动并在同一节点上回到联机状态。

预期结果:资源将在相同的节点上返回联机状态

测试:在相同的资源上,再执行三次上述启动故障测试。在第四次故障时,资源将对群集中的另一个节点执行故障转移。

预期结果:资源将针对群集中的另一个节点实施故障转移

测试:将所有资源转移到一个节点上。启动“计算机管理”,然后单击服务和应用程序下方的服务。停止群集服务。在另一个节点上启动“群集管理器”,确认所有资源均在该节点上正确地执行了故障转移并返回联机状态。

预期结果:资源将针对群集中的另一个节点实施故障转移

测试:将所有资源转移到一个节点上。在该节点上,单击启动,然后单击关闭。这将关闭该节点。在另一个节点上启动“群集管理器”,然后确认所有资源均在该节点上正确地执行了故障转移并返回联机状态。

预期结果:资源将针对群集中的另一个节点实施故障转移

测试:将所有资源转移到一个节点上,然后按服务器前方的电源按钮将其关闭。如果您有一台符合 ACPI (高级配置和电源接口) 标准的服务器,该服务器将执行“紧急关闭”功能进行关闭。在另一个节点上启动“群集管理器”,确认所有资源均在该节点上正确地执行了故障转移并返回联机状态。有关“紧急关闭”的其他信息,请参见“Microsoft 知识库”中的下列文章:

325343 操作指南:在 Windows Server 2003 中执行紧急关闭

297150 ACPI 计算机上的电源按钮可能强制执行紧急关闭

预期结果:资源将针对群集中的另一个节点实施故障转移

警告:执行“紧急关闭”测试可能导致数据遭破坏和丢失。不要在生产服务器上执行该测试

测试:将所有资源转移到一个节点上,然后拔掉服务器的电源线模仿一个硬故障。在另一个节点上启动“群集管理器”,然后确认所有资源均在该节点上正确地执行了故障转移并返回联机状态

预期结果:资源将针对群集中的另一个节点实施故障转移

警告:执行硬故障测试测试可能导致数据遭破坏和丢失。这是一个极端测试。确认您已备份了所有关键数据,然后在您自己的磁盘上执行该测试。不要在生产服务器上执行该测试

测试:将所有资源转移到一个节点上,然后拔掉该节点的公用网络电缆。IP 地址资源将失效,组将针对群集中的另一个节点执行故障转移。其他相关信息,请参见“Microsoft 知识库”中的下列文章:

286342 Windows Server 2003 群集中的网络故障检测与恢复

预期结果:资源将针对群集中的另一个节点实施故障转移

测试:拔掉专用心跳网络的网络电缆。心跳流量将针对公用网络执行故障转移,同时不会执行其他故障转移。如果发生了其他故障转移,请参见本文档前面有关“配置专用网络适配器”的部分

预期结果:不会进行其他任何故障转移或资源故障转移

SCSI 驱动器安装

本附录提供一套针对 SCSI 驱动器安装的一般性指导说明。如果 SCSI 硬盘供应商的指导说明与此处的指导说明相冲突,请遵从供应商所提供的指导说明。

硬件要求中所列的 SCSI 总线必须在安装群集服务器之前予以配置。配置涉及:

SCSI 设备。

SCSI 控制器和硬盘,以保证可以在共享 SCSI 总线上正常运行。

正确端接总线。共享 SCSI 总线必须在总线的每个终端上均具有一个端接器。群集的各个节点间可能具有多条共享 SCSI 总线。

除了以下几页信息外,请参见您的 SCSI 设备制造商的说明文档,或者可以向美国国家标准协会 (ANSI) 索取 SCSI 规格说明。 ANSI 网站 包含一个可用于搜索 SCSI 规格说明的目录。

配置 SCSI 设备

共享 SCSI 总线上的每个设备都必须有一个唯一的 SCSI 标识号 (ID)。由于多数 SCSI 控制器默认为 SCSI ID 7,因此配置共享 SCSI 总线包括将控制器上的 SCSI ID 号码更改为另一个号码,比如:SCSI ID 6。如果共享 SCSI 总线上的磁盘不止一个,每个磁盘都必须具有一个唯一的 SCSI ID 号码。

端接共享 SCSI 总线

有几种端接共享 SCSI 总线的方法,其中包括:

SCSI 控制器

SCSI 控制器具有可用于端接总线的内部软端接,但是不推荐对群集服务器使用该方法。使用该配置,如果一个节点被关闭,则 SCSI 总线将不能够正确端接,且不能正常地运作。

存储盒

存储盒也具有内部端接,如果存储盒位于 SCSI 总线的末端,其内部端接可用于端接 SCSI 总线。应该将其关闭。

Y 电缆

Y 电缆可用于连接位于 SCSI 总线末端的设备。外部活动端接器随后可以附加到 Y 电缆的一个分支,以便端接 SCSI 总线。该端接方法要求禁用或移除设备可能具有的任何内部端接器。

图 27 说明了 SCSI 群集的正确物理连接方式。

Figure 27: A diagram of a SCSI cluster hardware configuration.

图 27:SCSI 群集硬件配置示意图。
查看大图。

请注意:对于任何位于共享总线末端的设备,都必须禁用其内部端接。Y 电缆和活动端接连接器均是推荐的端接方法,因为即使节点未联机时,它们也能提供端接。

存储区域网络的考虑事项

在 Windows Server 2003 服务器群集中,有两种基于光纤通道的存储支持方法:仲裁环和交换架构。

重要: 在对这两类光纤通道实施进行评估时,请先阅读供应商的文档,并确定您了解每种实施的指定特性和限制。

虽然光纤通道这一术语暗示了光纤技术的应用,但是也允许使用铜制同轴电缆进行互连。

仲裁环 (FC-AL)

光纤通道仲裁环 (FC-AL) 是一套相互连接形成一个单一环路的节点和设备集合。FC-AL 提供了一个能将多达 126 个设备连接形成为一个单一网络的经济方法。通过 SCSI,结合集线器配置的 FC-AL 服务器群集最多可支持两个节点。图 28 为 FC-AL 的示意图。

Figure 28: FC-AL Connection

图 28:FC-AL 连接

FC-AL 以相对静态的配置为双节点和少量设备提供解决方案。环路上的所有设备共享介质,而且从一个设备传输到另一个设备的任何数据包都必须通过所有中间设备。

如果一个双节点服务器群集可以满足您对可用性的需求,那么 FC-AL 部署将具有以下几个优点:

成本费用相对较低。

环路可得到扩展以增加存储 (虽然不能添加节点)。

对于光纤通道供应商来说,这种环路很易于开发。

环路的缺点是难以在组织中进行部署。由于环路上的每个设备均共享同一个介质,因此群集中的整体带宽变窄了。有些组织还可能受到 126 个设备上限的限制。

交换架构 (FC-SW)

对于任何超过两个节点的群集,光纤通道交换架构 (FC-SW) 是唯一受支持的存储技术。在 FC-SW 中,设备在使用光纤通道交换器的多对多拓扑结构中进行连接 (如图 29 所示)。

Figure 29: FC-SW Connection

图 29:FC-SW 连接
查看大图。

当一个节点或设备同 FC-SW 中的另一个节点或设备进行通信时,通信源和通信目标对象建立起一个点对点连接 (类似一个虚拟电路),并直接进行相互通信。架构自身将通信源路由至通信目标对象。在 FC-SW 中,并不共享介质。任何设备都可以同其他任何设备进行通信,并以最高总线速度实现通信。这是一个完全可伸缩的企业解决方案,因此强烈建议与服务器群集一起部署。

FC-SW 是 SAN 中所采用的主要技术。FC-SW 的其他优点有易于部署、可支持数百万个设备,以及提供故障隔离和改换路由的交换机。另外,不存在像 FC-AL 中的共享介质,允许更快地进行通信。但是,要知道 FC-SW 对于供应商来说难以开发,而且交换机的价格很昂贵。供应商还必须考虑来自不同供应商或制造商的组件间的互操作性问题。

结合服务器群集使用 SAN

对于任何大型群集部署,建议您使用存储区域网络 (SAN) 进行数据存储。虽然较小的 SCSI 和独立光纤通道存储设备可以随服务器群集一起运作,但是 SAN 可以提供超强的容错能力。

SAN 是一套连接到常规通信和数据传输基础结构 (在 Windows Server 2003 群集中为 FC-SW) 的互连设备 (比如:磁盘和磁带) 和服务器。SAN 允许多个服务器接入存储池,同时任何服务器都可以在其中潜在地访问任何存储单元。

本部分中的信息提供了一个概述,可帮助您在 Windows Server 2003 群集中使用 SAN 技术。有关在 SAN 上部署服务器群集的其他信息,请参见 “Web 资源”页面 中的“Windows 群集:存储区域网络”链接 (位于http://www.microsoft.com/windows/reskits/webresources/ )。

请注意:提供 SAN 架构组件和软件管理工具的供应商具有一系列的工具,可用于构建、配置、监控和管理 SAN 架构。请联系您的 SAN 供应商,以了解您的特殊 SAN 解决方案的详细信息。

SCSI 复位

Windows 服务器群集的早期版本假定对于共享磁盘的所有通信应作为一个独立的 SCSI 总线。该做法略具破坏性,并且没有利用光纤通道的高级特性来提高仲裁性能和减少通信中断。

Windows Server 2003 中的一个关键改进是群集服务发出一个命令用以打断一个 RESERVATION,而 StorPort 驱动程序可以针对光纤通道拓扑结构上的磁盘执行目标或设备复位。在 Windows 2000 服务器群集中,整个总线范围的 SCSI RESET (复位) 得到了发布。这导致总线上的所有设备被断开连接。发布 SCSI RESET 时,很多时间被花在复位可能无需进行复位的设备上,比如,CHALLENGER 节点可能已经拥有的磁盘。

Windows 2003 中的复位按照以下顺序进行:

1.

1. 目标逻辑单元号码 (LUN)

2.

2. 目标 SCSI ID

3.

3. 整个总线范围的 SCSI RESET

请注意: 目标复位需要主机总线适配器 (HBA) 驱动程序中的功能。驱动程序必须是针对 StorPort 而不是 SCSIPort 编写的。使用 SCSIPort 的驱动程序将如同在 Windows 2000 中使用 Challenge 和 Defense 一样。请联系 HBA 制造商,以确定其是否支持 StorPort。

SCSI 命令

群集服务使用下列 SCSI 命令:

SCSI reserve:该命令由主机总线适配器或控制器发出,用于维护 SCSI 设备的所有权。除了最初对其进行保留的主机总线适配器 (即发起者) 发出的命令外,被保留的设备拒绝所有来自其他主机总线适配器的命令。如果发出了一个总线范围的 SCSI 复位命令,保留将丢失。

SCSI release:该命令由具有所有权的主机总线适配器发出;释放 SCSI 设备,以便让其他主机总线适配器对其进行保留。

SCSI reset:该命令将中断目标设备上的保留。有时该命令大体上指 "bus reset"。

相同的控制代码也可用于“光纤通道”。下同这篇合作伙伴的文章中定义了这些参数:

309186 群集服务如何获得共享总线上磁盘的所有权

317162 支持的光纤通道配置

以下部分概述一些直接影响服务器群集部署的 SAN 概念。

HBA

主机总线适配器 (HBA) 是将群集节点连接到 SAN 的接口卡,其连接方法类似于网络适配器将服务器连接到典型的 Ethernet 网络的方式。但是,HBA 并网络适配器更加不容易配置 (除非 HBA 由 SAN 供应商预配置)。所有节点中的 HBA 必须是完全一致的,而且必须采用相同的驱动程序和固件版本。

分区和 LUN 屏蔽

分区和 LUN 屏蔽是 SAN 部署的基础,尤其是当它们与 Windows Server 2003 群集部署相关时。

分区

许多设备和节点都可以附加到 SAN。由于数据存储在一个单一的 cloud 或存储实体中,控制哪些主机可以接入特定设备是很重要的。区域划分允许管理员在逻辑卷中对设备进行分区,从而将设备保留在一个卷中以便为服务器群集所用。这意味着,逻辑存储卷中群集节点和设备间的所有交互都被隔离在区域边界内;而其他 SAN 的非群集成员则不会受群集行为的影响。

图 30 对两个 SAN 区域进行了逻辑描述 (A 区域和 B 区域),每个区域均包含一个存储控制器 (分别为 S1 和 S2)。

Figure 30: Zoning

图 30:分区
查看大图。

在该实施中,节点 A 和节点 B 可以从存储控制器 S1 访问数据,但节点 C 不可以。节点 C 可以从存储控制器 S2 访问数据。

分区需要在硬件层次进行实施 (结合控制器或交换机),而不能通过软件来实现。主要的原因是:分区也是一个针对基于 SAN 的群集的安全机制,因为未经授权的服务器无法访问区域内的设备 (访问控制由架构中的交换机来执行,因此主机适配器无法访问未经配置的设备)。如果通过软件形式进行分区,如果软件组件出现故障,群集将无法得到安全保障。

除了提供群集安全性外,分区还对给定 SAN 环境中的流量进行了限制。端口间的流量只被路由到位于相同区域的架构段中。

LUN 屏蔽

LUN 是 SAN 中定义的逻辑磁盘。服务器群集发现 LUN 后会将其认作物理磁盘。LUN 屏蔽是在控制器层面执行的,它允许您定义 LUN 与群集节点间的关系。存储控制器通常提供创建 LUN 层次的访问控制的方法,这种访问控制允许为给定 LUN 接入一台或多台主机。通过在存储控制器上提供该访问控制,控制器本身可以对设备强制执行访问策略。

LUN 屏蔽提供了比分区更加细粒的安全性,因为 LUN 提供了端口层面的分区方法。例如,许多 SAN 交换机允许重叠的区域,从而可以使一个存储控制器位于多个区域中。多个区域中的多个群集可以共享这些区域中的控制器上的数据。图 31 说明了此类方案。

Figure 31: Storage Controller in Multiple Zones

图 31:多个区域中的存储控制器
查看大图。

A 群集所用的 LUN 可以从 B 群集屏蔽或隐藏,从而只有授权用户才可以访问共享存储控制器上的数据。

Windows Server 2003 群集和 SAN 的综合部署要求

下面的列表重点列出了在综合部署服务器群集和 SAN 存储解决方案时,需要遵守的一些部署要求。有关结合服务器群集使用 SAN 的更完整信息,可从一份白皮书中获得,请参见 “Web 资源”页面 中的“Windows 群集:存储区域网络”链接 (位于http://www.microsoft.com/windows/reskits/webresources/)。

SAN 上的每个群集都必须在其自己的区域中进行部署。群集用以保护磁盘访问的机制可对相同区域内的其他群集造成负面影响。通过使用分区将群集流量从其他节点或非节点流量孤立出来,就不存在相互干扰的问题。

位于一个单一节点中的所有 HBA 必须是同一种类型,并且具有相同的固件版本。许多存储和交换机供应商要求所有 HBA 位于同一区域上 (有时必须是在相同架构中),且这些 HBA 必须共享这些特性。

群集中所有存储设备的驱动程序和 HBA 设备的驱动程序必须具有相同的软件版本。

不允许多个节点接入相同的存储设备,除非它们位于相同的群集中。

不要将磁带设备放在群集磁盘存储设备所在的同一个区域。磁带设备可能会误解总线休眠,并在不恰当的时候 (如在大型备份过程中) 进行倒带。

结合 Windows Server 2003 服务器群集部署 SAN 的指导方针

除了上面讨论的 SAN 要求外,强烈建议您在服务器群集部署中遵从下列实践:

在一个高度可用的存储架构中,您需要通过多个 HBA 部署群集的服务器。在这些情况下,始终载入多路径驱动程序软件。如果 I/O 子系统发现两个 HBA,会将其假定为不同的总线,并枚举所有的设备,将它们看作是每条总线上的不同设备。同时,主机将看到通向一个磁盘的多条路经。载入多路径驱动程序的失败将禁用第二个设备,因为操作系统将认为它们是具有相同签名的两个独立磁盘。

不要将群集磁盘的硬件快照在相同群集中的节点中公开。硬件快照必须进入服务器群集以外的服务器。许多控制器提供控制器层面的快照,这些快照可作为完全独立的 LUN 公开到群集。当多个设备具有相同的签名时,群集性能会下降。如果快照通过原始磁盘联机重新回到原始节点,I/O 子系统会尝试重写签名。然而,如果快照公开到群集中的另一个节点,群集服务不会将其识别为一个不同的磁盘,因此可能会造成数据遭破坏。虽然这不是一个特定的 SAN 问题,但是 SAN 环境中通常会部署提供该功能的控制器。

其他相关信息,请参见“Microsoft 知识库”中的下列文章:

301647 存储区域网络的群集服务改进

304415 对连接到相同 SAN 设备的多个群集的支持

280743 Windows 群集与地理位置分散的站点

相关链接

更多信息,请参见下列资源:

Microsoft 群集服务安装资源,位于 http://support.microsoft.com/?id=259267

仲裁驱动器配置信息,位于 http://support.microsoft.com/?id=280345

建议的群集服务器专用心跳配置,位于 http://support.microsoft.com/?id=258750

服务器群集中的网络故障检测与恢复,位于 http://support.microsoft.com/?id=242600

如何更改仲裁磁盘指定,位于 http://support.microsoft.com/?id=280353

Microsoft Windows 群集:存储区域网络,位于 http://www.microsoft.com/windows.netserver/techinfo/overview/san.mspx

Windows Server 2003 中地理位置分散的群集,位于 http://www.microsoft.com/windows.netserver/techinfo/overview/clustergeo.mspx

服务器群集的网络要求和最佳实践,位于 http://www.microsoft.com/technet/prodtechnol/windowsserver2003/technologies/clustering/clstntbp.mspx

有关 Windows Server 2003 的最新信息,请参见 Windows 2003 Server 网站:http://www.microsoft.com/windowsserver2003/default.mspx

标签集:TAGS:
回复Comments() 点击Count()

回复Comments

{commentauthor}
{commentauthor}
{commenttime}
{commentnum}
{commentcontent}
作者:
{commentrecontent}