使用 OCI 语言进行客户反馈分析
文本数据(例如社交媒体帖子、新闻和调查)可提供有价值的业务和客户洞察。一般来说,手动分析大量文本数据过于耗时,公司需要转向自然语言处理 (Natural Language Processing, NLP) 来高效和大规模地获得洞察。要使用这些 NLP 功能,您必须依赖数据科学家构建和训练定制机器学习模型,然后将这些模型部署到应用中。此过程通常耗时且成本高昂。
Oracle Cloud Infrastructure (OCI) Language 提供关键语言处理功能,作为生产就绪的预训练模型,可以揭示非结构化文本中的洞察并消除对机器学习专业知识的需求,从而缩短了此时间和精力。您可以使用 OCI 语言大规模自动化文本分析,并了解文档、客户反馈交互或支持关于任何问题或评论的非结构化文本。这样,您可以提取洞察来改善客户体验并提高效率。
利用 OCI 语言,开发人员可以将情绪分析、密钥短语提取、文本分类、命名实体识别等功能应用到应用中。开发人员可以将预先训练的 NLP 功能集成到应用中,不需要数据科学家来创建定制模型。OCI Language 可以通过 OCI 控制台、Python 中的 OCI SDK、Java、Go、Typescript 和 。Net、REST API 或 OCI-CLI。
- 改善客户体验:了解客户如何使用产品,提取某些感兴趣领域的情绪,并确定要及时解决的关键挫折感。
- 确定重要数据:从客户反馈中提取指定实体,以确定提及的人员、产品和组织。
- 确保安全性和隐私:OCI 语言使用不存储任何数据进行培训、调试或其他用途的语言模型来支持客户隐私。此外,OCI 语言可用于识别任何潜在的个人身份信息 (personally identifiable information, PII),从而保护客户隐私。
体系结构
此体系结构展示了典型系统中以 OCI 语言为核心的各个组件之间的关系。
世界上大约 80% 的数据采用非结构化格式,大部分时间使用自然语言编写。此参考体系结构说明接收客户反馈的任何系统。在此特定示例中,让我们为酒店业使用预订应用程序,包括住宿、餐饮服务、活动计划、主题公园、酒店、旅行社、餐厅或酒吧。下图描述了如何使用预构建的人工智能功能来分析、探索和可视化客户反馈,以提取有助于改善客户体验的洞察。
在客户退房后,酒店链会要求客户提供反馈。存在需要分析的持续反馈流。酒店使用电子表格来获取数以千计的评论,每行都有客户评价:对于服务、地点或食物都很满意或不满意。此信息可用于改进产品、销售服务或整个业务。由于存在这么多非结构化信息,因此需要摄取数据,因此需要从该信息中提取洞察,然后对其进行分析和可视化。数据集成服务用于在此参考体系结构中编排数据流。
下图说明了此参考体系结构。

插图 oci-ai-language-arch.png 的说明
oci-ai-language-arch-oracle.zip
- 汇总数据源(如数据库或文件)中的客户复查数据。在本例中,我们假定数据位于对象存储的 .csv 文件中。
- 数据集成可以从数据源读取数据,对于每次客户审核,都通过无服务器函数向 OCI 语言发送调用。
- OCI 语言从每个记录中提取方面及其相关情感(正面、负、中性)的列表。此外,OCI 语言还会提取发送至记录中提及的实体列表,例如每项复核中提及的人员或组织的名称。
                           例如:其中一个评论提到:酒店很漂亮,员工很友善,但早餐的食物不是很好。OCI 语言将提取 "hotel"、"breakfast" 和 "staff" 等方面,并告诉我们 "hotel" 和 "staff" 情绪积极,且 "breakfast" 具有负面情绪。 还可以使用 OCI 语言提取实体,例如人员姓名、地点、组织和事件。 
- 数据集成收到相关方面和实体后,此信息将作为一组表预测到 Autonomous Data Warehouse 中。预计三个不同的表:原始审核数据的表、检测到的每个方面及其情感的表,以及标识实体的表。
                           目标数据库也可以是不同类型的数据库,例如 MySQL。 
- 然后,您可以使用 Oracle Analytics Cloud 来可视化提取的洞察。Oracle Analytics Cloud 允许您从提取的表创建图表并筛选数据。例如,您可以绘制图表中的情感随时间变化,或者可视化在词语云中引起积极或消极情绪的可能性最大的方面。
                           从 OCI 语言转换文件并在 Oracle Analytics Cloud 中显示洞察的过程如下:对象存储 → 数据集成服务 → Oracle Functions → OCI 语言 → Oracle Functions → 数据集成服务 → Autonomous Data Warehouse → Oracle Analytics Cloud。 
该体系结构具有以下组成部分:
- 区域Oracle Cloud Infrastructure 区域是一个局部地理区域,其中包含一个或多个数据中心(称为可用性域)。区域与其他区域无关,它们的距离可以分离(跨国家 / 地区甚至大陆)。 
- 可用性域可用性域是一个区域中的独立数据中心。每个可用性域中的物理资源与其他可用性域中的资源隔离,以提供容错功能。可用性域不共享基础设施(例如电源或冷却设备)或内部可用性域网络。因此,一个可用性域出现故障不太可能影响区域中的其他可用性域。 
- 虚拟云网络 (VCN) 和子网VCN 是可在 Oracle Cloud Infrastructure 区域中设置的自定义软件定义网络。与传统的数据中心网络一样,VCN 允许您完全控制您的网络环境。一个 VCN 可以具有多个不重叠的 CIDR 块,您可以在创建 VCN 后更改这些块。您可以将 VCN 细分到子网,从而限定在区域或可用性域范围内。每个子网都包含不与 VCN 中的其他子网重叠的连续地址范围。创建子网后可以更改子网的大小。子网可以是公共子网,也可以是专用子网。 
- 负载平衡器Oracle Cloud Infrastructure Load Balancing 服务提供从一个入口点到可从虚拟云网络 (VCN) 访问的多台服务器的自动流量分配。该服务提供了负载平衡器,您可以选择公共或专用 IP 地址并预配了带宽。负载平衡器可以提高资源利用率、促进扩展并帮助确保高可用性。 您可以配置多个负载平衡策略和特定于应用程序的健康检查,以确保负载平衡器仅将流量定向到健康的实例。在将流量从不健康的应用服务器移除进行维护之前,负载平衡器可以减少维护时间。 使用负载平衡服务,您可以在 VCN 内创建公共或专用负载平衡器。公共负载平衡器具有可从互联网访问的公共 IP 地址。专用负载平衡器具有来自托管子网的 IP 地址,该 IP 地址仅在 VCN 内可见。将为专用或公共负载平衡器创建专用子网,以满足未来需求。对于任何面向互联网的 Web 应用程序或基于 HTTP 的 API,将考虑使用带 Oracle Cloud Infrastructure WAF 的 OCI 公共负载平衡器。 
- 安全列表对于每个子网,您可以创建安全规则来指定必须允许进出子网的源、目的地和流量类型。 
- 路由表虚拟路由表包含将流量从子网路由到 VCN 外部的目标(通常通过网关)的规则。 
- Internet 网关互联网网关允许在 VCN 中的公共子网与公共互联网之间通信。 
- VPN 连接VPN Connect 可以在您的内部部署网络和 Oracle Cloud Infrastructure 中的 VCN 之间提供站点到站点的 IPSec VPN 连接。IPSec 协议套件在数据包从源传输到目标之前加密 IP 通信,并在数据包到达时解密流量。 
- 身份和访问管理 (IAM)Oracle Cloud Infrastructure Identity and Access Management (IAM) 允许您控制谁可以访问 Oracle Cloud Infrastructure 中的资源以及他们可以对这些资源执行的操作。 
- 对象存储通过对象存储,可以快速访问任意内容类型的大量结构化和非结构化数据,包括数据库备份、分析数据以及图像和视频等丰富内容。您可以安全可靠地存储数据,然后直接从互联网或云平台检索数据。您可以无缝扩展存储,而不会导致性能或服务可靠性降低。对于需要快速、立即和频繁访问的“热”存储,使用标准存储。将归档存储用于“冷”存储,您长时间保留这些存储并且很少或很少访问。 
- 数据集成服务Oracle Cloud Infrastructure 数据集成是一款完全托管的无服务器原生云服务,它可以将各种数据源中的数据提取、加载、转换、清理和重新映射到目标 Oracle Cloud Infrastructure 服务,例如 Autonomous Data Warehouse 和 Oracle Cloud Infrastructure Object Storage。ETL(提取转换负载)利用 Spark 上完全托管的横向扩展处理,ELT(提取加载转换)利用 Autonomous Data Warehouse 的完整 SQL 下推功能,可以最大程度地减少数据移动,并缩短新摄取数据的价值实现时间。用户使用直观、无代码的用户界面设计数据集成流程,可以优化集成流来生成高效的引擎和编排,从而自动分配和扩展执行环境。Oracle Cloud Infrastructure 数据集成提供交互式探索和数据准备,通过定义用于处理方案更改的规则来帮助数据工程师防止方案偏差。 对于酒店评价示例,您可以创建数据流来读取非结构化数据,调用 OCI 语言以从文本中提取洞察,然后将提取的洞察预测到数据库中的结构化表中。有关详细信息,请参阅链接的博客帖子:“更多信息”部分中的 AI 服务从非结构化数据中提取洞察。 
- 函数Oracle Functions 是一个完全托管的多租户、高度可扩展、按需使用函数即服务 (FaaS) 平台。它由 Fn 项目开源引擎提供支持。使用函数可以部署代码,也可以直接调用代码,或者在响应事件时触发代码。Oracle Functions 使用 Oracle Cloud Infrastructure Registry 中托管的 Docker 容器。 
- OCI 语言OCI 语言是一种无服务器、多租户服务,可以使用 REST API 调用进行访问。它提供经常被重新培训和监视的预训练模型,从而帮助您获得最佳结果。语言为您提供人工智能和机器学习功能,可检测非结构化文本中的语言。此外,它还提供其他工具来帮助您深入了解文本。 
- Autonomous Data WarehouseOracle Autonomous Data Warehouse 是一种具有自我驱动、自我保护和自我修复功能的数据库服务,针对数据仓库负载进行了优化。您无需配置或管理任何硬件,也不需要安装任何软件。Oracle Cloud Infrastructure 用于处理数据库创建以及备份、打补丁、升级和优化数据库。 
- Oracle Analytics CloudOracle Analytics Cloud 是一种可扩展且安全的公有云服务,可为业务分析师提供现代、人工智能支持的自助分析功能,以支持数据准备、可视化、企业报告、增强分析以及自然语言处理和生成。借助 Oracle Analytics Cloud,您还可以获得灵活的服务管理功能,包括快速设置、轻松扩展和打补丁以及自动化生命周期管理。 将数以千计的非结构化考核转变为结构化格式(例如方面表),使您可以将数据用于方案,例如数据分析、培训机器学习模型和搜索。对于酒店评论示例,可以将数据加载到 Oracle Analytics Cloud 中,以便直观地查看洞察,并以允许您确定可操作任务的方式探索信息。有关详细信息,请参阅链接的博客帖子:“更多信息”部分中的 AI 服务从非结构化数据中提取洞察。 
- 容错域容错域是可用性域内的一系列硬件和基础设施。每个可用性域都具有三个具有独立电源和硬件的容错域。当您在多个容错域中分配资源时,应用可以承受容错域中的物理服务器故障、系统维护和电源故障。 
- 分析、机器学习和自定义应用分析服务和定制应用程序,用于对数据进行编目、准备、处理和分析。 
建议
- VCN创建 VCN 时,根据您计划连接到 VCN 中子网的资源数,确定所需的 CIDR 块数和每个块的大小。使用标准专用 IP 地址空间内的 CIDR 块。 选择不与要设置专用连接的任何其他网络(在 Oracle Cloud Infrastructure、内部部署数据中心或其他云提供商中)重叠的 CIDR 块。 创建 VCN 后,您可以更改、添加和删除其 CIDR 块。 设计子网时,请考虑流量和安全要求。将特定层或角色中的所有资源连接到同一子网,这些子网可以用作安全边界。 
- 安全性使用策略来限制谁可以访问贵公司拥有的 OCI 资源以及他们如何访问它们。检测到任何错误配置或不安全活动时,Cloud Guard 会根据您可定义的响应器配方建议采取更正措施并帮助执行这些操作。 对于需要最大安全性的资源,Oracle 建议使用安全区域。安全区域是与 Oracle 定义的安全策略配方关联的区间,这些策略基于最佳实践。例如,安全区域中的资源不能从公共互联网访问,必须使用客户管理的密钥进行加密。 在安全区域中创建和更新资源时,OCI 将根据安全区域配方中的策略验证操作,并拒绝违反任何策略的操作。 
- Autonomous Data Warehouse此体系结构在共享基础设施上使用 Oracle Autonomous Data Warehouse。启用自动缩放,以使数据库负载最多达到处理能力的三倍。 考虑使用 Autonomous Data Warehouse 的混合分区表功能将数据分区移动到 Oracle Cloud Infrastructure Object Storage,并以透明方式为用户和应用程序提供服务。我们建议您将此功能用于不常用且不需要与 Autonomous Data Warehouse 中存储的数据相同的性能数据。 可以考虑使用外部表功能实时使用 Oracle Cloud Infrastructure Object Storage 中存储的数据,而无需将数据复制到 Autonomous Data Warehouse。此功能可透明无缝地联接 Autonomous Data Warehouse 外部存储的数据集,与 Autonomous Data Warehouse 中的数据(parquet、avro 或 c、json、csv 等)无关。 在使用对象存储数据时,可以考虑使用 ADW 查询加速器向用户提供更出色、更快速的体验。 
- 对象存储此体系结构使用标准的 Oracle Cloud Infrastructure Object Storage 存储已处理输出,以便其他云服务可以访问输出进行进一步分析和显示。 
- 负载平衡器带宽创建负载平衡器时,您可以选择提供固定带宽的预定义配置,也可以指定定制(灵活)配置,在其中设置带宽范围,让服务根据流量模式自动缩放带宽。无论采用哪种方法,您都可以在创建负载平衡器后随时更改配置。 
考虑事项
部署此引用体系结构时,请考虑以下几点。
- 资源限制请考虑您的租户的最佳实践、按服务的限制和区间限额。 
- 连接如果您希望在内部部署与 OCI 之间使用专用专用连接,请考虑使用 FastConnect,否则使用 VCN 连接。 
- OCI 监视通过 OCI 监视服务,您可以使用度量和预警功能来主动和被动监视云资源。 
- 成本使用灵活的配置选择在实例上运行的工作负载所需的 CPU 数量和内存量。利用这种灵活性,您可以构建与负载匹配的 VM,从而优化性能并最大程度地降低成本。通过 OCI 监视服务,您可以使用度量和预警功能来主动和被动监视云资源。 
- 具有实时情绪分析的聊天机器人作为未来项目,此架构可以适应使用聊天机器人。情感分析已经进化,包括实时叙述性映射,允许聊天机器人查看句子中的重要词语,并为其分配相对值:正面、中性或负值,让机器人了解整个对话期限。