Plan
Hay un flujo de trabajo de varios pasos para implantar Data Lakes en OCI con Big Data Service.
-
Requisitos: enumerar los requisitos para nuevos entornos en OCI
-
Evaluación: evaluación de los servicios y las herramientas de OCI necesarios
-
Diseño: diseño de la arquitectura de su solución y tamaño para OCI
-
Plan: permite crear un plan detallado que asigne el tiempo y los recursos.
-
Aprovisionamiento: aprovisione y configure los recursos necesarios en OCI.
-
Implantación: implemente las cargas de trabajo de datos y aplicaciones
-
Automatizar pipeline: orqueste y programe pipelines de flujo de trabajo para la automatización
-
Probar y validar: realice pruebas integrales de validación, funciones y rendimiento para la solución.
Determinar requisitos
Lo primero que debe hacer es hacer un catálogo de los requisitos del sistema y de la aplicación.
En la siguiente tabla se proporciona una plantilla de ejemplo y puede actuar como punto de partida para adaptarse a su caso de uso.
Tema de detección | Configuración actual | Requisitos de OCI | Notas y comentarios |
---|---|---|---|
Tamaño de Datos | - | - | - |
Ratio de crecimiento | - | - | - |
Formatos de archivo | - | - | - |
Formatos de compresión de datos | - | - | - |
Detalles del centro de datos (para arquitecturas híbridas) | - | - | - |
Detalles de conectividad de red para la configuración de VPN/FastConnect | - | - | - |
DR (RTO, RPO) | - | - | - |
SLA de alta disponibilidad | - | - | - |
Estrategia de Copia de Seguridad | - | - | - |
Gestión y control de la infraestructura | - | - | - |
Notificaciones y alertas | - | - | - |
Procesos de mantenimiento y actualización | - | - | - |
Servicio de escritorio/gestión de incidentes | - | - | - |
Métodos de autenticación | - | - | - |
Métodos de autorización | - | - | - |
Detalles de cifrado (en reposo y en movimiento) | - | - | - |
Procesos de claves y certificados | - | - | - |
Detalles de Kerberos | - | - | - |
Requisitos de conformidad | - | - | - |
Orígenes de datos y técnicas de ingestión para cada origen | - | - | - |
Requisitos de ETL | - | - | - |
Requisitos de análisis | - | - | - |
Requisitos de consulta de datos | - | - | - |
BI/visualización, requisitos de informes | - | - | - |
Integraciones con otras soluciones | - | - | - |
Detalles de carga de trabajo de bloc de notas y ciencia de datos | - | - | - |
Requisitos de flujo de trabajo, orquestación y programación | - | - | - |
Cargas de trabajo por lotes: detalles de cada trabajo y aplicación | - | - | - |
Cargas de trabajo interactivas: número de usuarios, detalles de cada trabajo y aplicación | - | - | - |
Cargas de trabajo de transmisión: detalles de cada trabajo y aplicación | - | - | - |
Detalles de cada aplicación integrada con el lago de datos | - | - | - |
Detalles del equipo (administradores de sys, desarrolladores, propietarios de aplicaciones, usuarios finales) | - | - | - |
Evaluación
En esta fase, analice todos los datos e información recopilados durante la fase de requisitos.
A continuación, utilizará esa información para determinar qué servicios y herramientas necesita en OCI. Al final de la evaluación, debe tener una arquitectura de alto nivel que muestre cada servicio de datos de OCI que se va a utilizar y qué funcionalidad se implantará en ella.
El siguiente diagrama es un ejemplo del tipo de arquitectura que se crea en esta fase.

Descripción de la ilustración arquitectura-hadoop-datalake.png
Diseño
En esta fase, determine la arquitectura de la solución y el tamaño inicial para Oracle Cloud Infrastructure (OCI).
Utilice la arquitectura de referencia que creó en la fase de evaluación como punto de partida.
Se necesita conocer bien la plataforma de OCI y cómo crear aplicaciones en OCI. También deberá configurar las políticas de red e IAM en OCI.
Plan
En esta fase, cree un plan de proyecto detallado con asignación de tiempo y recursos.
Para cada una de las actividades, se deben determinar los detalles sobre las tareas, la RACI de las partes interesadas y el calendario.
Plan de proyecto
Cree un plan de proyecto con todas las actividades, sus líneas de tiempo y sus dependencias.
En la siguiente imagen se muestra un ejemplo de un plan de proyecto de alto nivel.

Descripción de la ilustración project-plan.png
Lista de materiales
Según su evaluación y diseño, cree una BOM para el entorno de destino en OCI.
Enumere cada servicio que se va a utilizar, junto con la información de tamaño y configuración. La siguiente tabla es un ejemplo de los artículos que puede incluir en la lista de materiales.
Servicio de OCI | Tamaño y configuración |
---|---|
Servicio de big data | - |
Data Science | - |
Catálogo de datos | - |
Máquinas Virtuales | - |
Almacenamiento de bloques | - |
Object Storage | - |
Autonomous Data Warehouse | - |
Red virtual en la nube | - |
Identity and Access Management | - |
Planificación de Big Data Service
En esta sección, se analizan las opciones importantes que necesita tomar para iniciar un cluster en Big Data Service (BDS).
Los clusters de BDS de Hadoop se ejecutan en instancias informáticas de OCI. Debe determinar qué tipos de instancias desea utilizar. Estas instancias se ejecutan en subredes de red virtual en la nube (VCN). Deben configurarse antes de iniciar clusters. También debe evitar los requisitos de almacenamiento para volúmenes en bloque asociados a nodos de cluster. Además, se deben configurar políticas de IAM.
Hay dos tipos de nodos:
-
Nodos maestros y de utilidad. Estos nodos incluyen los servicios necesarios para el funcionamiento y la gestión del cluster. No almacenan ni procesan datos.
-
Nodos de trabajador Estos nodos almacenan y procesan datos. La pérdida de un nodo de trabajador no afecta el funcionamiento del cluster, aunque puede afectar al rendimiento.
Los clusters se pueden desplegar en modo seguro y de alta disponibilidad o mínimo (sin HA). También debe crear un plan para los componentes de Hadoop que desea configurar y su tamaño. Revise el enlace de documentación de BDS en la sección Explore More para obtener más información sobre la configuración y el tamaño de los clusters.
Puede utilizar la siguiente tabla para ayudar a crear un plan para clusters de BDS.
Tema | Tamaño y configuración |
---|---|
Configuración segura, de alta disponibilidad o mínima (no HA) | - |
Número de nodos de trabajador | - |
Almacenamiento por nodo | - |
Unidad y tipo de instancia informática de nodos maestros | - |
Tipo y unidad de instancia informática de nodos de trabajador | - |
Configuración de servicios de Hadoop del nodo maestro 1 | - |
Configuración de servicios de Hadoop del nodo maestro 2 (si corresponde) | - |
Configuración de servicios de Hadoop del nodo de utilidad 1 | - |
Configuración de servicios de Hadoop del nodo de utilidad 2 (si corresponde) | - |
Configuración de servicios de Hadoop del nodo de utilidad 3 (si corresponde) | - |
Configuración de servicios de Hadoop de nodos de trabajador | - |
Detalles de red virtual en la nube | - |
Políticas de gestión de identidad y acceso aplicadas | - |
Configuración de Ambari | - |
Configuración de HDFS | - |
Configuración de Hive | - |
Configuración de HBase | - |
Configuración de Spark | - |
Configuración de Oozie | - |
Configuración de Sqoop | - |
Configuración de Tez | - |
Configuración de Zookeeper | - |
Puede utilizar tablas similares al planificar la composición y el tamaño de los otros servicios de la arquitectura.
Aprovisionar
Según el diseño de la arquitectura de estado final y la información de tamaño en la BOM, aprovisione y configure los recursos necesarios en OCI según las tareas que se muestran en el plan del proyecto.
Flujo de trabajo de despliegue de Big Data Service
Antes de configurar un cluster de BDS, debe configurar los permisos en IAM y, a continuación, configurar la VCN para el cluster.
Configurar IAM
Cree grupos de IAM adicionales con privilegios de acceso para el cluster de BDS.
Debe delegar las tareas de administración de clusters de BDS a uno o más administradores de BDS.
Si el nombre del grupo es bds-admin-group y el nuevo cluster está en el compartimento Cluster, debe crear las siguientes políticas:
allow group bds-admin-group to manage virtual-network-family in compartment Cluster
allow group bds-admin-group to manage bds-instance in compartment Cluster
Cree también una política con la siguiente sentencia de política:
allow service bdsprod to
{VNIC_READ, VNIC_ATTACH, VNIC_DETACH, VNIC_CREATE, VNIC_DELETE,VNIC_ATTACHMENT_READ,
SUBNET_READ, VCN_READ, SUBNET_ATTACH, SUBNET_DETACH, INSTANCE_ATTACH_SECONDARY_VNIC,
INSTANCE_DETACH_SECONDARY_VNIC} in compartment Cluster
Configurar la VCN
Como mínimo, necesita una única VCN con una única subred en una sola región con acceso a la red pública de Internet.
Para un entorno de producción complejo, puede tener varias subredes y diferentes reglas de seguridad. Es posible que desee conectar la VCN a una red local o a otras VCN de otras regiones. Para obtener más información sobre las redes OCI, consulte la documentación de OCI.
Creación de un cluster de BDS
Seleccione un nombre para el cluster, la contraseña de administrador de cluster y los tamaños para los nodos maestro, de utilidad y de trabajador.
Al crear el cluster, selecciona un nombre para él, una contraseña de administrador de cluster y tamaños para nodos maestros, de utilidad y de trabajador. También hay una casilla de control para seleccionar la configuración de cluster segura y de alta disponibilidad (HA). HA le proporciona cuatro nodos maestros y de utilidad en lugar de dos en la configuración mínima sin HA.
Asegúrese de crear el cluster en el compartimento en el que lo desea y en la VCN en la que desea. Asegúrese también de que el bloque CIDR para la red privada de cluster no se solape con el rango de bloques CIDR de la subred que contiene el cluster.
Acceso al cluster de BDS
Los nodos de Big Data Service son direcciones IP privadas asignadas por defecto, a las que no se puede acceder desde la red pública de Internet.
Puede hacer que los nodos del cluster estén disponibles mediante uno de los siguientes métodos:
- Puede asignar las direcciones IP privadas de los nodos seleccionados en el cluster a direcciones IP públicas para que estén disponibles públicamente en Internet.
- Puede configurar un túnel SSH mediante un host bastión. Solo el bastion host está expuesto a la red pública de Internet. Un host bastión proporciona acceso a la red privada del cluster desde la red pública de Internet.
- Puede utilizar VPN Connect que proporciona una VPN de seguridad de protocolo de Internet (IPSec) de sitio a sitio entre la red local y la VCN. También puede utilizar OCI FastConnect para acceder a los servicios de OCI sin tener que pasar por la red pública de Internet. Con FastConnect, el tráfico pasa por una conexión física privada.
Gestionar el cluster de BDS
Para BDS con Oracle Distribution incluido Apache Hadoop (ODH), puede utilizar Apache Ambari para gestionar el cluster.
Se ejecuta en el nodo de utilidad del cluster. Debe abrir el puerto 7183 en el nodo configurando las reglas de entrada en la lista de seguridad de la red.
Para acceder a Ambari, abra una ventana del explorador e introduzca la URL con la dirección IP del nodo de utilidad, por ejemplo: https://<ip_address_or_hostname>:7183
Utilice el usuario administrador del cluster (administrador por defecto) y la contraseña que introdujo al crear el cluster.

Descripción de la ilustración ambari-dashboard-metrics.png
Implantar
Empiece a implantar aplicaciones y servicios para cada fase. Debe tener en cuenta varios criterios antes de seleccionar un servicio concreto.
Tenga en cuenta que algunos servicios se pueden utilizar en más de una fase. Por ejemplo, Big Data Service tiene componentes que se pueden utilizar en la fase de ingestión, la fase de almacenamiento y la fase de transformación.
Ingestión
-
Dispositivo de transferencia de datos: si migra a OCI, puede utilizar el servicio de transferencia de datos para migrar datos, fuera de línea, al almacenamiento de objetos.
-
Servicio de big data: el servicio de big data proporciona componentes de Hadoop populares para la ingestión de datos, incluidos Kafka, Flume y Sqoop. Los usuarios pueden configurar estas herramientas en función de sus requisitos. Kafka se puede utilizar para la ingestión en tiempo real de eventos y datos. Por ejemplo, si los usuarios tienen eventos procedentes de sus aplicaciones o servidores y desean ingerir eventos en tiempo real, pueden utilizar Kafka y pueden escribir datos en HDFS o Object Storage. Flume se puede utilizar para ingerir datos de transmisión en temas de HDFS o Kafka. Sqoop es una de las herramientas de Hadoop más comunes utilizadas para ingerir datos de almacenes de datos estructurados, como bases de datos relacionales y almacenes de datos.
Almacén
-
Servicio de big data: BDS proporciona componentes de Hadoop estándar, incluidos HDFS y HBase. Los datos se pueden escribir en HDFS desde el flujo de Spark, el lote de Spark o cualquier otro trabajo. HBase proporciona una base de datos distribuida no relacional que se ejecuta sobre HDFS. Se puede utilizar para almacenar conjuntos de datos de gran tamaño que se almacenan como pares clave-valor. Los datos se pueden leer y escribir en HBase desde trabajos de Spark como parte de la ingestión o transformación.
-
Almacenamiento de objetos: el servicio de almacenamiento de objetos de OCI es una plataforma de almacenamiento en Internet de alto rendimiento que ofrece durabilidad de datos fiable y rentable. Puede almacenar una cantidad ilimitada de datos de cualquier tipo de contenido, incluidos datos analíticos y contenido enriquecido, como imágenes y vídeos. En este patrón, Object Storage se puede utilizar como una tienda blob de uso general. Big Data Service y otros servicios pueden leer y escribir datos del almacenamiento de objetos.
Transformación y servicio
-
Big Data Service (BDS): BDS ofrece componentes de Hadoop como Spark y Hive que se pueden utilizar para procesar datos. Hive y Spark SQL se pueden utilizar para ejecutar consultas SQL en datos de HDFS y Object Storage. Una vez que los datos se almacenan en HDFS o Object Storage, se pueden crear tablas apuntando a los datos y, a continuación, cualquier herramienta de inteligencia empresarial (BI) o aplicación personalizada se puede conectar a estas interfaces para ejecutar consultas en los datos. Los usuarios pueden escribir trabajos por lotes complejos en spark, que pueden estar procesando datos de gran tamaño o que pueden tener una transformación muy compleja con varias etapas. Spark se puede utilizar para implantar trabajos para la lectura y escritura desde varios orígenes, incluidos HDFS, HBase y Object Storage. Oracle Cloud SQL es un servicio adicional disponible que permite iniciar consultas Oracle SQL en datos de HDFS, Kafka y Oracle Object Storage.
BI, AA, visualización y control
-
Data Catalog: utilice el servicio OCI Data Catalog para recoger metadatos de orígenes de datos en el ecosistema de Oracle Cloud Infrastructure y en entornos locales para crear un inventario de activos de datos. Puede utilizarlo para crear y gestionar glosarios empresariales con categorías, subcategorías y términos de negocio con el fin de crear una taxonomía de conceptos de negocio con etiquetas agregadas por el usuario para que la búsqueda sea más productiva. Esto ayuda con la gobernanza y facilita a los consumidores de datos la búsqueda de los datos que necesitan para el análisis.
-
Data Science: Data Science es una plataforma totalmente gestionada y sin servidor que permite a los equipos de ciencia de datos crear, entrenar, desplegar y gestionar modelos de aprendizaje automático en Oracle. Proporciona a los científicos de datos un espacio de trabajo colaborativo basado en proyectos con blocs de notas de Jupyter y herramientas, bibliotecas y paquetes centrados en python desarrollados por la comunidad de código abierto junto con la biblioteca de ciencia de datos acelerada de Oracle. Se integra con el resto de la pila, incluido Data Flow, Autonomous Data Warehouse y Object Storage.
-
Oracle Analytics Cloud (OAC): OAC ofrece capacidades de análisis de autoservicio basadas en inteligencia artificial para la preparación, detección y visualización de datos, la generación de informes empresariales y ad hoc inteligentes, junto con análisis aumentados, y el procesamiento y generación de lenguaje natural.
Automatizar
Una vez implantado el sistema, puede agregar automatización mediante la programación de trabajos individuales o mediante la configuración de uno o más pipelines.
Puede configurar una herramienta de gestión de flujo de trabajo como Airflow u Oozie. Oozie está incluido y preconfigurado al configurar un cluster de Big Data Service.