注意:
- 此教程需要访问 Oracle Cloud。要注册免费账户,请参阅开始使用 Oracle Cloud Infrastructure Free Tier 。
- 它使用 Oracle Cloud Infrastructure 身份证明、租户和区间示例值。完成实验室时,请将这些值替换为特定于您的云环境的值。
替换 Oracle Cloud Infrastructure 上 Oracle Cloud VMware Solution 集群中的故障 ESXi 主机
简介
本指南详细介绍了如何在 Oracle Cloud VMware Solution 集群中替换出现故障的 ESXi 主机。此过程涉及使用 Oracle Cloud Infrastructure (OCI) 控制台并通过 vCenter 和 NSX Manager 执行其余配置步骤。
目标
- 替换 Oracle Cloud VMware Solution 集群中的故障 ESXi 主机。此过程涉及在 VMware 环境中添加和删除通过 OCI 控制台启动的 ESXi 主机。有关更多信息,请参见 Add an ESXi Host to an Oracle Cloud VMware Solution Cluster 和 Delete a VMware ESXi Host from an Oracle Cloud VMware Solution Cluster 。
先决条件
在替换 Oracle Cloud VMware Solution 集群中的故障 ESXi 主机之前,请确保满足以下要求:
-
了解 Oracle Cloud VMware Solution:熟悉 Oracle Cloud VMware Solution 及其功能。有关详细信息,请参阅Oracle Cloud VMware Solution 入门。
-
软件定义的数据中心 (SDDC):您需要在 OCI 控制台中至少包含一个统一管理集群的现有 SDDC。主机替换涉及在现有群集中创建新主机。
-
标准配置群集注意事项:标准配置群集具有 32 个 ESXi 主机(包括任何替换主机)的严格限制。这意味着需要仔细规划,以确保在需要时有更换空间。为了避免在主机更换期间出现并发症,强烈建议在群集内维护一些备用容量。简单地说,不要将所有 32 个主机用于工作负载。如果您的群集已达到 32 个 ESXi 主机的最大容量,请考虑先删除一个,然后再继续执行替换过程。
-
最大块存储卷数:一个 OCI 块存储卷至多可以连接到 32 个实例。如果块存储卷已连接到 32 个 ESXi 主机,则无法添加其他主机进行替换。
-
-
租户允许列表:要使用替换主机功能,请提交支持请求以允许列出租户。此允许列表具有时间限制,因此要考虑您的计划。
-
访问 VMware 管理工具:请确保您具有与 SDDC 关联的 vCenter 服务器、NSX 管理器和 HCX 管理器的有效身份证明和访问权限。
-
管理权限:验证您是否在 OCI、vCenter、NSX Manager 和 HCX Manager 中具有必要的管理权限。管理 SDDC 资源(包括主机、集群、网络配置和数据存储)需要这些权限。
任务 1:从 OCI 控制台启动主机替换
在此任务中,我们将在 OCI 控制台中为您的 Oracle Cloud VMware Solution 集群启动主机替换过程。
-
登录到 OCI 控制台,然后导航到包含需要更换的故障 ESXi 主机的特定 VMware SDDC。
-
在 SDDC 中找到包含故障 ESXi 主机的群集。对于本教程,假设有故障的主机为
Cls2-Standard3-1
,该主机位于Cls2-Standard3
群集中。 -
单击故障 ESXi 主机右侧显示的三个点,然后选择替换主机。
注:继续之前,请确保您的租户已通过支持请求列入允许列表。有关更多信息,请参阅先决条件部分。
-
在替换主机窗口中,输入以下信息。
-
发行版名称:从下拉菜单中选择兼容的发行版名称。此版本应与 vCenter 集群中当前使用的内部版本号一致,以确保兼容性。
注:替换主机工作流通过仅显示 Oracle Cloud VMware Solution 正式提供的 SDDC 主 ESXi 版本(例如 ESXi 7 或 8)中的次要版本来简化兼容性。这允许您选择与现有设置匹配的准确版本,确保所有内容无缝地协同工作。
示例:想象一下,SDDC 是使用 ESXi 8 Update 1c-build 22088125-1 创建的。发行版名称下拉菜单将显示 Oracle Cloud VMware Solution 正式提供的 ESXi 8 的所有更新,从 Update 1c-build 22088125-1 到 ESXi 8 中的最新版本(例如 Update 2-build 22380479-1 )。您将看不到 Oracle Cloud VMware Solution 不提供的版本,从而消除了任何兼容性问题。
-
计费宽限期:查看有关替换主机创建的信息消息。该处理会创建一个新 loaner 主机,其宽限期为 24 小时,用于计费。此替换主机在宽限期之后按小时计费。在 VMware 环境中(vCenter 服务器、NSX 管理器等)完成所需的配置步骤并终止原始故障主机后,计费将自动切换到新的永久主机。
注:请注意,如果无法在 24 小时内终止原始有故障的主机,将导致对两个主机收费;原始主机具有现有计费承诺,而新替换主机具有每小时计费。
-
-
查看设置和潜在的计费影响,然后单击确认以启动主机更换过程。
-
(可选)如果意外启动了主机替换并希望取消,请找到显示在群集详细信息页面顶部的警告标题。单击取消替换可停止进程。
-
导航到所选集群中的工作请求部分。
本节允许您监视创建 ESXi 主机任务的进度,这是替换过程的一部分。
20-25 分钟后,您应当会看到工作请求已成功完成。
-
验证替换状态。
-
“群集详细信息”页:更换过程成功完成后,新添加的主机应显示 Active 状态。相反,原始故障主机现在应标记为更新。在群集详细信息页面上,将显示一个横幅,突出显示需要在特定时间范围内终止故障主机以防止双重计费。
-
原始故障主机:在故障主机的详细信息页上,将显示类似的标题,提醒您终止主机以避免双重计费。
-
新建替换主机:与有故障的主机不同,新替换主机将没有定价间隔结束日期。此值在终止后将从故障主机继承。但是,替换主机确实具有宽限期结束日期。如果发生故障的主机在此日期之后仍未终止,将按小时向您收取更换主机的费用。
-
任务 2:获取 ESXi 主机信息和默认 vCenter 密码
在此任务中,我们将从 OCI 控制台收集基本详细信息,包括新创建的 ESXi 主机信息和 vCenter 默认密码。
-
打开 OCI 控制台,导航到计算和实例。确定并记下主机信息。
-
从实例列表中,选择新添加的 ESXi 主机。
-
记下 Private IPv4 address(专用 IPv4 地址)和 Internal FQDN details(内部 FQDN 详细信息)以供以后使用。
-
获取 Attached Block Volumes iSCSI 目标服务器详细信息。
-
访问 iSCSI 附件信息。
-
访问 iSCSI 目标服务器详细信息。
-
请记下所有连接的块存储卷的相同 iSCSI 目标信息。
-
-
-
访问 OCI 控制台中的 SDDC 详细信息页面。找到并安全地存储 vCenter 默认密码。在后面的任务中将 ESXi 主机添加到 vCenter 时,将需要此密码。
注:请确保安全地存储 vCenter 密码。避免以纯文本形式共享,或将其存储在未加密的位置。
任务 3:在 vCenter 中添加和配置新的 ESXi 主机
在此任务中,我们将新创建的 ESXi 主机添加到 vCenter 群集并配置其网络设置。
-
要将 ESXi 主机添加到 vCenter,请打开 vCenter 服务器并找到要添加 ESXi 主机的所需数据中心。您可以在清单窗格中找到此数据中心。
-
右键单击所选数据中心,然后选择添加主机。
-
在添加主机向导中,输入以下信息。
-
主机名或 IP 地址:为任务 2 中注明的新 ESXi 主机输入 FQDN,然后单击下一步。
-
连接设置:输入 ESXi 主机的登录身份证明。用户名应为 root ,密码应为从 OCI 控制台 SDDC 详细信息页面获取的默认 vCenter 密码。单击下一步。
-
主机概要:查看有关主机的汇总信息,然后单击下一步。
-
主机生命周期:取消选择使用映像管理主机,然后单击下一步。
-
分配许可证:从可用选项中选择现有 vSphere 许可证,以将许可证分配给新的 ESXi 主机,然后单击下一步。
-
锁定模式:选择正常锁定模式,这是用于 Oracle Cloud VMware Solution 部署的标准设置。如果需要,可以根据您的特定环境调整此设置,然后单击下一步。
-
VM 位置:保留 VM 位置的默认设置,然后单击下一步。
-
复查并完成:最后一次复查所有配置详细信息,然后单击完成以提交任务并将 ESXi 主机添加到 vCenter 集群。
-
-
将 ESXi 主机设置为维护模式。
成功添加 ESXi 主机后,在 vCenter 清单中右键单击该主机,然后选择进入维护模式。这将使主机脱机,允许您配置其网络设置。
验证主机是否已成功进入维护模式。
-
在 NSX Manager 中验证主机状态(可选)。
在 NSX 管理器中,新 ESXi 主机应列在 Other Nodes 和 NSX Configuration 状态下为 Not Configured 。
-
将 ESXi 主机添加到分布式交换机。
-
导航到 vCenter 服务器中的 Networking 视图。
-
选择与 ESXi 主机将驻留的群集关联的分布式交换机 (DSwitch)。
-
右键单击 DSwitch 或单击操作,然后选择添加和管理主机。
-
在 Add and Manage Hosts(添加和管理主机)窗口中,输入以下信息。
-
添加主机:选择添加主机,然后单击下一步。
-
选择主机:从列表中选择新添加的 ESXi 主机,并确保该主机当前处于维护模式。单击下一步。
-
管理物理适配器:从下拉菜单中选择
vmnic0
和vmnic1
。 -
管理 VMkernel 适配器:将每个 VMkernel 适配器 (vmk) 分配给特定的端口组,如图所示。
VMKernal 适配器 端口组 vmk0 管理网络 vmk1 vMotion vmk2 vSAN vmk3 复制 vmk4 预配 -
迁移 VM 网络:保留用于迁移 VM 网络的默认值。
-
-
查看所有配置详细信息,然后单击完成以提交更改并将 ESXi 主机添加到分布式交换机。
-
-
将 ESXi 主机移动到 vCenter 群集。
-
网络配置完成后,可以将 ESXi 主机移动到预期的 vCenter 群集。右键单击主机,然后选择移至。
-
在移动到窗口中,选择群集,然后单击确定。
-
在 Move Host into Cluster 窗口中,保留默认选择 Put all of this host’s virtual machines in the cluster’s root resource pool ,然后单击 Ok 完成移动。
-
任务 4:验证 NSX 配置
在 NSX Manager 中,现在可以观察新添加的 ESXi 主机的配置状态。NSX 会自动将配置推送到主机并将其集成到群集中。
监视 NSX 配置以成功完成。此过程通常至少需要 5 分钟。NSX 配置首先更改为 Success(成功), Node Status(节点状态)显示为 Unknown(未知),几分钟后更改为 Down(关闭),然后更改为 Up(向上)。
配置完成后,验证 NSX 配置状态是否在 NSX Manager 中显示为 Success(成功)和 Up(启动)。这确认已经为 NSX 成功配置了 ESXi 主机。
任务 5:配置数据存储
此任务包括为新添加的 ESXi 主机配置数据存储。具体步骤取决于您是使用 OCI 块存储支持的虚拟机文件系统 (VMFS) 数据存储,还是使用具有密集配置实例的 vSAN 数据存储。
方案 1:配置标准配置实例(VMFS 数据存储)
请按照以下步骤使用 OCI 块存储配置 VMFS 数据存储。
-
确保连接到集群中其他 ESXi 主机的所有 OCI 块存储卷也连接到新添加的主机。
-
复制在步骤 1 中连接的所有块存储卷的 iSCSI 连接信息。稍后需要此信息。
-
访问 iSCSI 存储适配器。
-
在 vCenter 服务器中,选择新添加的 ESXi 主机。
-
导航到 Configure 和 Storage Adapters 。
-
-
配置 iSCSI 目标服务器。
-
从右侧窗格中,选择 iSCSI 存储适配器。
-
选择 Dynamic Discovery(动态搜索)选项卡,然后单击 Add(添加)以添加 iSCSI 目标服务器。
-
-
添加您在步骤 2 中收集的所有 iSCSI 目标服务器 IP。
-
添加所有 iSCSI 服务器后,再次选择 iSCSI 适配器,然后单击 Rescan Adapters(重新扫描适配器)以刷新连接。
-
验证块存储卷附加项。重新扫描完成后,您应该会看到所有附加为 Oracle iSCSI 磁盘的块存储卷。
-
从新添加的主机的数据存储选项卡验证数据存储可用性。您应看到已挂载的所有数据存储,这些数据存储与群集中其他主机的配置相匹配。
-
要确认存在数据存储,请导航到存储视图并选择数据存储集群。验证新添加的主机是否出现在 Hosts 部分下。
-
完成所有配置后,从维护模式中删除 ESXi 主机。
-
退出维护模式后,确认虚拟环境按预期保持稳定和健康。
方案 2:配置密集型实例(vSAN 数据存储)
注:仅当您将密集型实例与 vSAN 结合使用时,这些步骤才适用。
配置 vSAN 数据存储之前,请确保 ESXi 主机已脱离维护模式。监视进度直至完成。
-
访问 vSAN 磁盘管理。
-
选择数据中心下面的密集集群。
-
导航到 Configure 、 vSAN 和 Disk Management 。
-
-
要声明未使用的磁盘,请单击 Claim Unused Disks(声明未使用的磁盘)将可用磁盘合并到 vSAN 存储中。
-
配置 vSAN 磁盘:vSAN 集群通常要求每个主机至少有一个高性能高速缓存磁盘和一个或多个容量磁盘用于数据存储。选择第一个磁盘作为高速缓存,其余磁盘则选择容量(对于密集型,通常为 7 个)。您可以根据您的特定环境调整此配置。提交任务并等待成功完成。
-
在右侧窗格中,确认主机上的所有可用磁盘都已列出且正常运行。
-
要验证 vSAN 数据存储容量,请导航到 Storage view 并选择 vSAN datastore 。汇总页现在应反映由于添加的容量驱动器而增加的总容量。
-
要在 vSAN 中确认主机状态,请转到数据存储中的 Hosts(主机)选项卡。您应该会看到新添加的主机列有 Normal 状态。
-
配置 vSAN 容错域。
-
单个 OCI 区域通常有 3 个容错域,vSAN 容错域应镜像这些容错域。Oracle Cloud VMware Solution 预配通常在所有容错域中分配 ESXi 主机,以实现最佳平衡。由于这是替换现有故障主机,因此预配服务部署在同一容错域中。旨在将其与位于同一 OCI 容错域中的原始主机托管。
-
在 vSAN 下,单击 Fault Domains(容错域)。选择新添加的主机并将其移动到与原始主机相同的容错域(例如,
Fault-Domain-1
)。
-
-
验证容错域位置并确认新主机现在位于所需的容错域中。
任务 6:测试新的 ESXi 主机
此任务通过将测试虚拟机 (Virtual Machine,VM) 部署或迁移到该虚拟机来确保新添加的 ESXi 主机正常运行。
-
部署或迁移测试 VM。您可以直接在新添加的 ESXi 主机上部署新的测试 VM,或者将现有测试 VM 从群集中的其他主机迁移/克隆到新主机。
-
验证 VM 功能。部署或迁移 VM 后,打开 VM 电源并执行基本测试以确认其按预期工作。这可能包括:
- 登录到 VM 操作系统。
- 验证网络连接。
- 检查资源可用性(CPU、内存和存储)。
- 测试应用程序功能(如果适用)。
如果测试 VM 在新 ESXi 主机上成功运行,则可以确信主机已正确配置。
任务 7:从 vCenter 和 NSX 管理器中删除有故障的主机
在本任务中,我们将从 vCenter 集群和 NSX 管理器中删除 ESXi 主机。
-
准备删除 ESXi 主机。
-
登录到 vCenter 服务器并找到要报废的 ESXi 主机。
-
如果主机已处于 Disconnected(已断开连接)状态并且您要执行的所有操作是从 vCenter 中删除主机,则跳过步骤 2 到 5 并移至步骤 6( Disconnect and Remove host from vCenter Inventory )。
-
确保目标主机上的所有虚拟机已关闭电源,或者迁移到新主机或群集中的其他主机。具有正在运行的 VM 的主机无法进入维护模式。
-
-
要进入维护模式,请右键单击 ESXi 主机,然后选择 Maintenance Mode(维护模式)和 Enter Maintenance Mode(输入维护模式)。
数据迁移选项(基于主机类型):
-
标准配置:默认情况下,关闭电源和暂停的 VM 迁移到其他主机。接受默认值并提交任务。
-
密集配置:除了默认迁移之外,还从 vSAN 数据迁移下拉菜单中选择完全数据迁移。这可确保从主机完全清除数据。
注:在继续执行维护模式之前,单击 PRE-CHECK 以验证 vSAN 迁移过程。
-
-
验证成功的维护模式条目。
-
标准配置:由于数据移动极少,这应该很快。
-
密集配置: vSAN 数据清除可能需要时间,具体取决于环境。监视进度。
注:继续操作之前,请确保成功进入维护模式,以避免数据丢失或停机。
-
-
将故障主机移出群集。
-
要将主机与群集隔离,请右键单击该主机,然后单击移动。
-
选择数据中心。
-
验证故障主机是否不在 vCenter 群集中。
-
-
监视 NSX 配置删除。
-
要监视 NSX 配置删除,请登录到 NSX Manager 并观察主机上 NSX 配置的自动删除。
-
验证 NSX 配置删除完成。在 NSX 管理器中,确认主机在 Other Nodes 下显示 Not Configured 。
-
-
断开主机并将其从 vCenter 清单中删除。
-
要断开 ESXi 主机的连接,请右键单击该主机,然后在 vCenter 服务器中单击连接、断开连接。
-
验证主机已断开连接状态,因为主机现在应在 vCenter 服务器中显示为 Disconnected (已断开连接)。
-
要从清单中删除主机,请右键单击该主机,然后选择从清单中删除。这将从 vCenter 清单中永久删除主机(请谨慎操作)。
-
在 vCenter Server 和 NSX Manager 中验证环境的运行状况。
-
任务 8:删除 OCI 控制台中的故障主机
此任务将指导您终止 OCI 控制台中的故障 ESXi 主机。
-
打开 OCI 控制台并导航到包含要删除的 ESXi 主机的集群。
-
标识以前标记为替换的主机(以更新状态指示)。
-
要终止主机,请单击与故障主机关联的删除失败的主机。这位于顶部横幅或主机详细信息部分中。
-
现在,故障主机将更改为 Terminating 状态。
OCI 控制台将启动删除 ESXi 主机的任务。监视此任务的进度,直到任务成功完成。
请注意,定价间隔结束时间已在主机之间切换。
-
终止任务成功完成后,替换主机活动被视为完成。验证 SDDC 的状态是否正常,并返回到与启动替换主机活动之前相同的主机计数。
有关针对特定 VMware 环境定制的更多配置选项,请参阅相关的 vCenter 文档。有关任何与 Oracle Cloud VMware Solution 相关的问题,请参阅 Oracle Cloud VMware Solution 。
相关链接
确认
- 作者 - Praveen Kumar Pedda Vakkalam(首席解决方案架构师)
更多学习资源
浏览 docs.oracle.com/learn 上的其他实验室,或者通过 Oracle Learning YouTube 频道访问更多免费学习内容。此外,请访问 education.oracle.com/learning-explorer 以成为 Oracle Learning Explorer。
有关产品文档,请访问 Oracle 帮助中心。
Replace a Faulty ESXi Host from your Oracle Cloud VMware Solution Cluster on Oracle Cloud Infrastructure
F96911-01
May 2024