了解 OCI 中的网络弹性支柱

网络弹性是传统备份和恢复的演变和扩展。在发生网络攻击时，网络弹性预计备份和恢复环境也会受到攻击。数据备份的完整性是可疑的，必须先进行验证，然后才能将数据恢复到生产环境。

您可以使用 OCI 原生控制功能来保护租户。或者，您可以使用第三方备份和恢复供应商。Oracle 建议您同时进行操作备份和不可变备份，以补充标准备份和恢复运行手册。

使用 OCI 网络可恢复性参考架构作为模板，确保数据完整性威胁和泄露期间的业务连续性，并补充和增强现有或标准灾难恢复架构。

下面显示了在 OCI 中实施网络弹性的参考架构：

后面是 cyber-resilience-mandatory-arch.png 的说明

网络弹性 - 强制 -arch-oracle.zip#GUID-38DA1FAE-56C8-4FED-9995-12C24D347C0B

此体系结构展示了包含网络、应用程序和数据库区间的生产环境。Vault 空间包含单个区间，用于托管非结构化数据的不可变备份。在 Vault 空间内，我们有一个不可变对象存储存储桶、一个编排服务器和 worker 节点。Orchestration 服务器通过查找应备份的所有资源，然后请求 worker 节点执行实际备份操作来协调备份过程。可以将数据从多个应用程序区间复制到 Vault 区间中的存储桶。

OCI Vault 飞地用于存储非结构化数据，其中包括虚拟机中的本地应用程序数据，以及使用 OCI File Storage 存储在 NFS 共享资源上的数据。

对于包含 Oracle 数据库的结构化数据，Oracle Database Zero Data Loss Autonomous Recovery Service 可提供不可变备份和勒索软件保护。

关于飞地

现代弹性云架构使用称为 Enclaves 的概念。

飞地是 Oracle Cloud Infrastructure (OCI) 租户内的逻辑带空隙和半隔离区域。使用区间、VCN、OCI IAM 策略和 Oracle 服务网络分隔各个区间，从而为安全和管理创建逻辑边界。通过飞地之间的管理空隙，您可以使用单独的身份域、隔离 VCN 或单独的租户。

后面是 prod-vault-safe-restore-enclaves.png 的说明

插图 prod-vault-safe-restore-enclaves.png 的说明

常用的飞地有三种类型：

生产从属区间：生产从属区间由承载生产工作负载的一个或多个区间组成。该结构基于部署符合 CIS OCI 基础基准的安全登陆区域参考体系结构，该参考体系结构在开始之前部分中链接。您的运行备份应在生产环境中轻松访问。对于正常的备份和恢复操作，这应满足使用本机功能实现低延迟和快速恢复的大多数要求。还可以监视金丝雀数据，以便在生产环境中进行观察。将生产环境用于：
- 存储和访问运行备份
- 深度实施防御
- （可选）观察金丝雀数据集
OCI Vault 飞地： OCI Vault 飞地区间以“不可变”状态存储所有非结构化对象、块和文件存储备份，以防止它们被更改或删除。Vault 从属网络是隔离的，与生产从属网络没有直接连接。它使用来自独立身份域的限制性非常强的 OCI IAM 策略进行保护，该策略可提供与生产身份的管理空隙。
此处执行这些备份的所有备份自动化测试和恶意软件或损坏检查。所有非结构化对象、块和文件存储备份的已知良好副本都存储在此环境中，等待恢复事件。Oracle Database Zero Data Loss Autonomous Recovery Service 内置了数据库的数据完整性和恶意软件检测功能。

数据库备份不可变地存储在单独的 OCI 控制租户中，除了还原操作外，无法直接从生产环境访问。可以挂载和测试数据库备份，确保数据完整性和运行就绪。使用 OCI Vault 飞地执行以下操作：
- 存储定期备份
- 不可变 Vault
- 自动执行备份测试
- 检测备份中的数据损坏
- 检测备份数据中的恶意软件
安全还原飞地（可选）：安全还原飞地还与 OCI Vault 飞地分开，使用与生产飞地不同的独立身份域和租户存在另一个管理空隙。可以使用基础设施即代码工具（如 Terraform）创建安全还原飞地，以快速部署生产等效环境。在恢复时间目标 (Recovery Time Objective，RTO) 和恢复点目标 (Recovery Point Objective，RPO) 值的指导下，您可以持续恢复已知良好的备份，以验证运行就绪情况。
在发生重大事件时，您可以暂时使用安全恢复飞地作为新的生产环境，直到从原始生产空间中删除威胁。使用安全恢复飞地进行以下操作：
- 正在进行增量还原备份数据
- 测试备份以满足 RTO 和 RPO 目标
- 如果需要，快速切换到新的生产环境
- 使用 Terraform 将环境从极小规模扩展到全面生产
- 在取证分析和恢复后，还原至原始生产环境
注意：
安全恢复飞地不打算用作传统的冷灾难恢复站点。相反，它允许持续测试您的恢复策略，并提供在主生产环境受到损害时立即创建新的生产环境的能力。如果您的生产飞地受到勒索软件的攻击，执法部门可能需要调查和收集取证，以导致意外停机，从而延迟您的恢复工作。如果您的组织无法为关键应用提供停机时间，请考虑实施安全还原飞地。

备份和恢复操作的推荐

在计划推出技术解决方案时，请记住，必须有多个团队协作来协调备份和恢复过程。虽然大多数备份操作通常是自动执行的，但恢复可能更繁琐，需要人工干预。组织可以开发包含标准操作程序 (SOP) 的运行手册，以便在需要特定操作时执行这些操作。在此解决方案手册中，备份和恢复的范围仅限于存在主工作负载的当前区域。灾难恢复可解决可用性问题，并侧重于从已知良好或非篡改原始副本恢复备份。

对于 OCI 原生虚拟机，Oracle 建议您定期创建定制映像并将其导出到不可变对象存储存储桶。这允许您重建和恢复引导卷。考虑在虚拟机出现完全故障时开发运行手册。如果运行备份无法还原虚拟机，则应测试从不可变存储桶重新构建定制映像的过程。查看 OCI 文档中的导入和导出定制映像页。

通过运行备份，您通常可以安全地恢复到生产环境。如果您怀疑发生网络安全事件，则需要还原到 OCI Vault 区间或安全恢复区，在该区间中您已在零信任域中实施了控制。检查恢复的数据后，必须扫描并降低虚拟机或原始数据（例如恶意软件、病毒等）上的任何剩余安全风险。

验证没有网络安全风险后，将未经篡改的原始副本恢复到生产环境。每年至少两次记录、测试和验证此流程。在 OCI 中，您将拥有大量引导、块、文件和其他非结构化数据。将所有关联的资源映射编入目录，例如 OCI 中的驱动器映射、挂载点、计算实例和其他原始对象。使用第三方备份产品、开源工具和/或 OCI CLI 来帮助您在给定时间点创建关联快照。记录这些数据可以帮助您回答关键问题并确定操作过程。例如，如果块存储卷恢复失败，请确定处于降级状态的虚拟机。

备份和恢复操作的控件概要

BR- 1：将 OCI 定制映像备份到不可变存储桶。
BR- 2：对 OCI Vault 或安全还原区域实施备份和还原操作。
BR- 3：与目录关联的资源映射（例如磁带机映射、挂载、计算实例等）。
BR- 4：创建 OCI Vault 飞地和/或安全恢复区域环境。

关于不可变性的建议

在客户定义的保留期内，无法修改或删除不可变备份数据。要实施网络可恢复性架构，Oracle 建议您同时进行操作备份和不可变备份。使用操作备份执行常规备份和恢复操作。如果发生数据损坏、恶意软件或其他网络风险，则不可变备份是原始副本，不含数据损坏或篡改。

即使您的备份是不可变的，备份源数据也可能包含恶意代码或恶意软件。从操作备份或不可变备份中恢复数据时，请考虑使用 OCI Vault 或安全还原环境来验证备份是否不存在任何网络威胁，并防止对生产环境造成进一步损坏。

对于大多数 OCI 数据库，例如 Oracle Base Database Service 、Oracle Exadata Database Service on Dedicated Infrastructure 和 Oracle Autonomous AI Database on Dedicated Exadata Infrastructure ，Oracle 建议使用 Oracle Database Zero Data Loss Autonomous Recovery Service ，该服务提供在 OCI 上运行的完全托管的数据保护。Recovery Service 提供自动化功能，可实时保护 Oracle AI Database 更改，在不产生生产数据库开销的情况下验证备份，并支持快速、可预测地恢复到任何时间点。启用实时数据保护后，您可以在发生中断或勒索软件攻击后不到一秒的时间内恢复受保护的数据库。恢复服务包括平台中内置的不可变性和异常检测功能，可让您了解备份的状态，并可配置为向您发送警报，以通知您可能影响恢复能力的问题。

您还可以使用原生支持不可变备份保留的 Oracle Autonomous AI Database Serverless 。确保您打开该功能。

OCI 对象存储可以实施与 WORM 兼容（一次写入、多次读取）的不可变性控制，以防止数据被修改或删除。对象存储保留规则等功能定义了在允许删除数据之前必须保留多长时间。在保留期过后，您可以使用对象存储生命周期策略来归档或删除数据。Oracle 建议您测试备份过程。在确信保留期满足您的业务需求后，您必须锁定保留规则，以防止租户管理员进行任何进一步的修改。必须有 14 天的延迟才能锁定规则。通过此延迟，您可以在规则永久锁定之前全面测试、修改或删除规则或规则锁定。

注意：

锁定保留规则是不可逆的操作。即使是租户管理员或 Oracle 技术支持也无法删除锁定的规则。

虚拟机是 OCI 中引导卷和块存储卷的组合。要保护 OCI 引导卷，请为虚拟机创建定制映像，然后将定制映像（.oci 是默认格式，但支持 .qcow2 或其他格式）导出到 OCI 对象存储存储桶。

块存储卷上的任何关键数据都应当使用定制脚本备份到不可变对象存储桶中。

OCI File Storage 允许用户创建快照，但默认情况下这些快照不可变，因为任何具有正确 IAM 权限的 OCI 管理员都可以删除快照。为了保护 OCI 文件存储，Oracle 建议您定期将数据直接复制到不可变存储桶中。

不可变性控制汇总

IM- 1：为非结构化数据配置不可变存储桶。
IM- 2：使用面向 OCI 数据库的 Oracle Database Zero Data Loss Autonomous Recovery Service 保护您的数据。
IM- 3：如果使用 OCI File Storage ，请将 OCI File Storage 复制到不可变的对象存储桶。

关于零信任安全控制的建议

要实现零信任安全性，Oracle 建议您评估以下租户控制：

限制身份和权限：限制可以访问备份及其权限的身份（IAM 域、组、用户和策略）
加强网络细分：重新评估网络细分，并实施不可变备份的虚拟空气间隙。

结合这两个概念，使威胁行为者更难以访问您的数据。

区间设计对于在网络弹性架构中实现零信任安全至关重要。创建具有顶层备份区间的嵌套区间体系结构，并至少包括两个子区间（例如，一个用于不可变 Vault 备份，另一个用于安全还原）。此设置允许您应用更接近单个资源的 IAM 策略并强制执行职责分离。

要实现更严格的访问控制，请创建特定用户和组来访问不可变的对象存储桶。根据您的安全要求，您可以按身份域、区间、用户、组和 IAM 策略进一步划分访问，以限制哪些人可以访问特定存储桶。在多个组可以访问存储桶的现有租户中，请查看并减少对存储桶的访问，以便只有备份存储管理员才能管理备份。

Oracle Access Governance 提供了一个 Who has access to what - Enterprise-wide Browser 页面，用于跟踪和监视有权访问不同系统、数据和应用的用户及其权限级别和访问目的，从而做出明智的决策并检测潜在的安全风险，从而有效监管。使用此信息可确保您的 IAM 策略与职责分离和最小权限原则保持一致。

如果您运行对备份至关重要的虚拟机或其他 IaaS 基础设施，请考虑将其添加到 OCI 动态组。这样，您可以使用授予备份存储层必要访问权限的 IAM 策略定位这些节点。

在您的零信任环境中阻止网络访问。遵循以下建议，以防止恢复的虚拟机重新感染生产，重新打开安全后门或攻击者的命令和控制访问点：

在零信任环境中，尽可能限制网络访问。例如，在 OCI Vault 或安全还原飞地中，避免使用可能允许恶意软件泄漏到 OCI 环境其余部分的 DRG。而是考虑使用 OCI 管理的堡垒服务（或客户管理的跳转主机）、专用端点或服务网关来允许访问 OCI 控制层。
不允许在各种备份网络之间进行路由。如果您需要在备份基础设施之间建立网络连接，请实施 OCI Network Firewall 和 NSG，以仅允许严格控制的流量模式。这会在生产网络与备份区间之间创建虚拟网络空隙，并防止恢复的虚拟机重新感染生产环境或重新打开环境中的漏洞。

零信任安全控制摘要

ZT-1：使用仅限于专用恢复帐户的 IAM 权限配置安全的专用对象存储桶。（可选）利用 Oracle Access Governance 来确定不可变存储桶的有效权限。
ZT-2：应用强大的网络分段。使用堡垒、专用端点、服务网关、NSG 和网络防火墙。
ZT-3：对脚本化不可变保管活动使用动态组成员资格和 IAM 策略来增强 IAM。
ZT-4：按照 OCI 网络可恢复性参考架构中的说明设计区间结构。使用嵌套区间在资源附近应用 IAM 策略并强制执行职责分离。

威胁检测控制的建议

网络安全面临的最大挑战之一是检测威胁行为者何时渗透到您的环境。即使您实施了基本的安全控制（例如事件日志记录和法医分析），仍难以确定您的云资源是否已被泄露。

考虑使用云安全态势管理 (Cloud Security Posture Management，CSPM) 工具增强云保护。Oracle Cloud Guard 是 OCI 中的内置 CSPM 工具，可用于实施网络弹性架构。此外，还提供第三方解决方案，可提供入侵检测、异常检测和警报等功能。例如，通过 OCI Cloud Guard，您可以配置策略来防止 OCI Object Storage 在互联网上作为公用存储桶公开。此外，您的 CSPM 工具应监视关键服务，例如 Oracle Database Zero Data Loss Autonomous Recovery Service ，并确保其不被禁用，并且备份和备份策略保持安全。配置 CSPM 工具以验证是否禁用了 Oracle Database Zero Data Loss Autonomous Recovery Service 等服务，或者是否尝试禁用备份、修改备份策略等。

将 CSPM 与端点安全解决方案配对，以解决 IaaS 安全策略和端点漏洞。当您向第三方 SIEM 或 XDR（扩展检测和响应）平台发送审计日志、事件日志、VCN 流日志和其他数据时，云管理员可以获得宝贵的事件关联和高级取证洞察分析。

有关详细信息，请参阅 Explore More 部分中链接的 Design Guidance for SIEM Integration on OCI 以及 Before you Begin 部分中链接的 Overview of Security Best Practices in OCI Tenancy 博客。

内部蜜罐

另一个有价值的威胁检测策略是部署“内部蜜罐”—— decoy 计算实例，旨在吸引恶意行为者。这些蜜罐通常运行故意易于检测或利用的服务，使用常见的网络扫描工具（如 NMAP）可见。在专用网络上，任何人都不应该访问这些诱饵，因此任何交互都是可疑行为的强有力指标，例如威胁行为者搜索“文件服务器”或其他目标。商用和开源蜜罐解决方案均可用。在安全良好的环境中，蜜蜂可以检测到最小的可疑活动，使其成为可靠的预警系统和验证现有控制的方法。

注意：

请勿在具有公共 IP 地址的实例上部署蜜罐。暴露于互联网的蜜蜂可能会受到攻击，可能会带来额外的风险。

鲜黄色数据

一种威胁检测技术，适用于结构化数据（如数据库表）和非结构化数据（如文件服务器）。像蜜罐一样，金丝雀数据充当目标陷阱。例如，您可以创建专用表或将特定的金丝雀记录注入生产数据库。如果意外访问、修改或删除这些记录，则可能指示未经授权或恶意活动，例如威胁行为者试图访问或篡改敏感数据，例如客户信息或订单详细信息。

对于文件系统，鲜黄色数据可能涉及 NFS 共享中的受监视文件或文件夹。任何未经授权的更改都可能表明存在安全隐患。使用金丝雀数据通常需要商业或开源第三方工具。

威胁检测控制概要

TD- 1：使用 Oracle Cloud Guard 存储桶策略控制公共和专用访问、启用存储桶日志记录以及激活威胁检测规则。
TD- 2：在结构化（例如数据库）和非结构化（例如文件存储）数据集内实施金丝雀数据，以检测未经授权的访问或篡改。
TD- 3：使用靠近备份和生产系统的监视传感器部署内部蜜罐，以吸引和识别潜在威胁。
TD- 4：将环境的遥测数据与 XDR/SIEM 集成，以实现全面的取证和高级威胁分析。