计划内和计划外停机解决方案
计划内和计划外停机可能会在 PeopleSoft 环境中发生。了解 Oracle 解决方案如何尽可能缩短应用停机时间。最大限度地减少 PeopleSoft 应用程序停机时间取决于应用程序,而不是单个组件的停机时间。
非计划停机解决方案
以下是可能由 PeopleSoft 环境中的系统或人为故障导致的计划外停机类型,以及可用于恢复并使停机时间保持在最低水平的技术解决方案。
我们建议您测试下面的基本方案,以确保它们在您的环境中正确配置,并确保您准备好在发生紧急情况时采取行动。
故障类型 | Oracle 解决方案 | 优势 | 恢复时间 |
---|---|---|---|
负载平衡器 | 软件负载平衡器,在本地复制的配置 | 连接无缝迁移到生存的负载平衡器 | 无停机时间。 |
PeopleSoft PIA Web 服务器节点或组件故障 | 无 Coherence*Web 高速缓存服务器集群的冗余 Web 服务器 | 连接将重新分配给存活的节点。存活的节点继续处理。 | 无停机时间。可能需要重新验证和重新提交工作。 |
PeopleSoft PIA Web 服务器节点或组件故障 | 具有 Coherence*Web 高速缓存服务器集群的冗余 Web 服务器 | 连接将重新分配给存活的节点,从而保留会话状态。存活的节点继续处理。 | 无停机,无需重新验证或重新提交工作。 |
PeopleSoft 应用程序域服务器节点或组件故障 |
冗余应用程序域服务器 配置有活动连接的 PIA 服务器在应用服务器之间进行负载平衡,然后将工作重新提交给存活的应用程序服务器。 |
连接将重新分配给存活的节点。存活的节点会获取请求,不会丢失上下文 | 无停机时间。 |
数据库服务器或实例故障 | Oracle RAC、应用程序连续性、FAN 事件 | 自动恢复失败实例上的工作 - 会话透明地故障转移,将自动重新提交更新 | 秒数到分钟数。 |
站点故障 | Oracle Data Guard,rsync | 完全站点故障转移,数据损失极小到无丢失 | 对于数据库角色转换、文件系统挂载和 PeopleSoft 应用程序启动,做出决策后不到 10 分钟。 |
存储故障 | ASM | 镜像和自动重新平衡。 | 无停机时间。 |
存储故障 | 具有快速恢复区的 Oracle RMAN。 | 全面管理的数据库恢复和基于磁盘的备份。 | 分钟数到小时数。 |
存储故障 | 区域本地 Oracle 对象存储 | 云管理的数据库恢复和基于磁盘的备份 | 分钟数到小时数。 |
存储故障 | Oracle Data Guard,rsync | 完全站点故障转移,数据损失极小到无丢失。 | 对于数据库角色转换、文件系统挂载和 PeopleSoft 应用程序启动,做出决策后不到 10 分钟。 |
人为错误 | 带有闪回数据库的 Oracle Data Guard。 | 复制研究(备用) | 小时数(通过数据修复进行研究)。 |
数据损坏 | 具有快速恢复区的 Oracle RMAN。 | 联机块介质恢复和基于磁盘的托管备份。 | 分钟数到小时数。 |
数据损坏 | Oracle Active Data Guard | 使用物理备用数据库自动检测和修复损坏的块。 | 无需停机,对应用透明。 |
数据损坏 | Oracle Data Guard | 自动验证和重新传输损坏的重做块 | 无需停机,对应用透明。 |
数据损坏 | Oracle Data Guard 中介 | 快速故障转移到本地备用数据库,或完全故障转移到 DR 站点。 |
本地备用数据库:在做出决策后不到 5 分钟的时间,用于数据库角色转换、文件系统挂载和 PeopleSoft 应用程序启动。 完全站点故障转移:在做出决策后不到 10 分钟,适用于数据库角色转换、文件系统挂载和 PeopleSoft。 |
注意:
可能可以从主站点的故障中快速恢复并恢复那里的操作,这可能比切换到辅助站点对整体操作的破坏性更小。因此,在上表中,我们提到了做故障转移的决定,以及一旦做出决策,执行脚本转换所需的时间。如果您决定在故障转移到 DR 站点之前不需要人工决策,则将在数据库中配置快速启动故障转移。如果配置了快速启动故障转移,并且备用数据库应用滞后在快速启动故障转移滞后限制内,则启动 DR 站点的时间将仅将快速启动故障转移超时阈值添加到要转换为备用数据库的总时间。
无论是否自动执行该操作,都应完整编写故障转移过程的脚本,以确保快速准确地执行。
计划内维护解决方案
以下是通常在 PeopleSoft 环境中发生的计划维护活动的摘要,以及建议的技术解决方案,以将停机时间降至最低。
维护活动 | 解决方案 | PeopleSoft 中断 |
---|---|---|
中间层操作系统或硬件升级 | 跨 Web 和 Tuxedo 应用服务器的负载平衡、冗余服务。 | 假设 Coherence*Web 正在运行,不会停机。 |
PeopleSoft(应用程序和 PeopleTools) | PeopleSoft 异地打补丁。 | 分钟(无模式更改)到小时(需要模式更改) |
PeopleSoft 应用程序配置更改 | PeopleSoft 应用程序滚动重新启动。 | 无停机时间 |
PeopleSoft 升级 | PeopleSoft 异地升级。 | 小时到天(模式更改是必需的;时间取决于数据库大小)* |
数据库层操作系统打补丁或硬件维护 | Oracle RAC 滚动,备用优先。 | 无停机时间 |
Oracle Database Release Update 打补丁 | Oracle RAC 滚动,备用优先。 | 无停机时间 |
Oracle Database 升级 | Data Guard 临时逻辑滚动升级。请参阅:使用本地备用数据库减少 PeopleSoft 停机时间 | 秒数到分钟数 |
Oracle Grid 和 Oracle Clusterware 升级和修补程序 | Oracle RAC 滚动,备用优先。 | 无停机时间 |
* 在实践中,有一些方法可以减轻延长升级停机时间的影响 - 例如,通过提供只读副本。Oracle Consulting Services 可以帮助您规划和执行升级。