Despliegue de IBM Spectrum LSF con el conector de recursos configurado para OCI

Resuelva el problema de la asignación de recursos fijos ajustando dinámicamente el número de recursos asignados a una carga de trabajo en función de la demanda real con la escala automática del conector de recursos IBM Spectrum LSF. Optimice el uso de recursos, reduzca costos y mejore la eficiencia general en entornos de recursos informáticos de alto rendimiento (HPC).

IBM Spectrum LSF (Load Sharing Facility) es una plataforma de gestión de cargas de trabajo utilizada para entornos de computación distribuida. Permite a los usuarios gestionar y programar trabajos informáticos en una red de equipos o clusters de recursos informáticos, lo que garantiza que los trabajos se completen de forma eficiente y sin interrupciones.

El conector de recursos para la función IBM Spectrum LSF (anteriormente denominada fábrica de hosts) permite que los clusters de LSF tomen en préstamo recursos de proveedores de recursos admitidos. Cuando la carga de trabajo es baja, la LSF utiliza el conector de recursos para reducir el número de recursos asignados, ahorrando costos y mejorando la utilización. Cuando la carga de trabajo es alta, se solicitan más recursos al proveedor de nube.

Tenga en cuenta que se necesitan privilegios administrativos para el despliegue de esta arquitectura.

Arquitectura

Esta arquitectura de referencia muestra el cluster de IBM Spectrum LSF desplegado en una subred existente con un host principal, nodos de cluster (creados a petición cuando el conector de recurso llama a la API de OCI) y servicio bastión.

El host principal de LSF necesita la autorización instance_principal para interactuar con la API de OCI y tiene una configuración por defecto (VM.Standard.E4). Flexibilidad / 2 OCPU/ 8 GB) que se puede ajustar durante la creación de la pila.

LSF resource_connector está preconfigurado para la cola dinámica y puede solicitar de la API de OCI dos tipos de recursos informáticos (amd2 - VM.Standard.E3). Flexibilidad / 2 OCPU / 4 GB y amd4 - VM.Standard.E4. Flexibilice / 2 OCPU / 8 GB en función de los requisitos del trabajo. Las plantillas disponibles para resource_connector se pueden modificar en los archivos de configuración de LSF (<lsf_top>/conf/resource_connector/oci/conf/oci_config.json y <lsf_top>/conf/resource_connector/oci/conf/ociprov_templates.json) y volver a cargar la configuración del cluster, volviendo a cargar la configuración del cluster mediante estos comandos:

$ lsadmin reconfig
$ badmin reconfig
$ badmin mbdrestart

El número máximo por defecto de hosts que resource_connector puede solicitar de OCI es ocho para cada plantilla disponible (maxNumber se puede cambiar en el archivo <lsf_top>/conf/resource_connector/oci/conf/ociprov_templates.json si se necesitan más nodos).

El enfoque de despliegue recomendado es utilizar el enlace de despliegue con un solo clic a través de Oracle Cloud Infrastructure Resource Manager.

El siguiente diagrama ilustra esta arquitectura de referencia.



oci-ibm-lfs-architecture-oracle.zip

La arquitectura tiene los siguientes componentes:

  • Tenancy

    Un arrendamiento es una partición segura y aislada que Oracle configura en Oracle Cloud al registrarse en Oracle Cloud Infrastructure. Puede crear, organizar y administrar sus recursos en Oracle Cloud dentro de su arrendamiento. Un arrendamiento es sinónimo de una compañía u organización. Normalmente, una compañía tendrá un único arrendamiento y reflejará su estructura organizativa dentro de ese arrendamiento. Un único arrendamiento suele estar asociado a una única suscripción, y una única suscripción normalmente solo tiene un arrendamiento.

  • Región

    Una región de Oracle Cloud Infrastructure es un área geográfica localizada que contiene uno o más centros de datos, denominados dominios de disponibilidad. Las regiones son independientes entre sí y puede haber grandes distancias que las separen (entre países e incluso continentes).

  • Compartimento

    Los compartimentos son particiones lógicas entre regiones dentro de un arrendamiento de Oracle Cloud Infrastructure. Utilice compartimentos para organizar, controlar el acceso y definir cuotas de uso para los recursos de Oracle Cloud. En un compartimento determinado, defina políticas que controlen el acceso y definan privilegios para los recursos.

  • Dominios de disponibilidad

    Los dominios de disponibilidad son centros de datos independientes dentro de una región. Los recursos físicos de cada dominio de disponibilidad están aislados de los recursos de los otros dominios de disponibilidad, lo que proporciona tolerancia a fallos. Los dominios de disponibilidad no comparten infraestructura, como la alimentación o la refrigeración, ni la red interna del dominio de disponibilidad. Por lo tanto, un fallo en un dominio de disponibilidad no debería afectar a los otros dominios de disponibilidad de la región.

  • Dominios de errores

    Un dominio de errores es una agrupación de hardware e infraestructura dentro de un dominio de disponibilidad. Cada dominio de disponibilidad cuenta con tres dominios de errores con energía y hardware independientes. Al distribuir los recursos entre varios dominios de errores, las aplicaciones pueden tolerar fallos físicos del servidor, mantenimiento del sistema y fallos de energía en un dominio de errores.

  • Red y subredes virtuales en la nube (VCN)

    Una VCN es una red personalizable y definida por software que puede configurar en una región de Oracle Cloud Infrastructure. Al igual que las redes de los centros de datos tradicionales, las redes virtuales le proporcionan el control de su entorno de red. Una VCN puede tener varios bloques de CIDR no superpuestos que puede cambiar después de crear la VCN. Puede segmentar una VCN en subredes, las cuales se pueden acotar a una región o a un dominio de disponibilidad. Cada subred está formada por un rango contiguo de direcciones que no se solapan con las demás subredes de la VCN. Puede cambiar el tamaño de una subred después de la creación. Una subred puede ser pública o privada.

  • Lista de seguridad

    Para cada subred, puede crear reglas de seguridad que especifiquen el origen, el destino y el tipo de tráfico que se debe permitir dentro y fuera de la subred.

  • Gateway de traducción de direcciones de red (NAT)

    Un gateway de NAT permite que los recursos privados de una VCN accedan a hosts en Internet, sin exponer dichos recursos a conexiones de Internet entrantes.

  • Gateway de servicio

    El gateway de servicios proporciona acceso desde una VCN a otros servicios, como Oracle Cloud Infrastructure Object Storage. El tráfico de la VCN al servicio Oracle viaja por el tejido de red de Oracle y no atraviesa Internet.

  • Gateway de Internet

    El gateway de Internet permite el tráfico entre las subredes públicas de una VCN y la red pública de Internet.

  • Servicio de bastión

    Oracle Cloud Infrastructure Bastion proporciona acceso seguro restringido y limitado en el tiempo a recursos que no tienen puntos finales públicos y que requieren estrictos controles de acceso a recursos, como hardware dedicado y máquinas virtuales, Oracle MySQL Database Service, Autonomous Transaction Processing (ATP), Oracle Cloud Infrastructure Kubernetes Engine (OKE) y cualquier otro recurso que permita el acceso al protocolo de shell seguro (SSH). Con el servicio OCI Bastion, puede permitir el acceso a hosts privados sin desplegar y mantener un host de salto. Además, obtiene una estrategia de seguridad mejorada con permisos basados en identidad y una sesión SSH centralizada, auditada y con límite de tiempo. OCI Bastion elimina la necesidad de una IP pública para el acceso al bastión, eliminando la molestia y la posible superficie de ataque al proporcionar acceso remoto.

  • Identity and Access Management (IAM)

    Oracle Cloud Infrastructure Identity and Access Management (IAM) es el plano de control de acceso para Oracle Cloud Infrastructure (OCI) y Oracle Cloud Applications. La API de IAM y la interfaz de usuario le permiten gestionar los dominios de identidad y los recursos dentro del dominio de identidad. Cada dominio de identidad de OCI IAM representa una solución independiente de gestión de identidad y acceso o una población de usuarios diferente.

  • Oracle Cloud Infrastructure Resource Manager

    OCI Resource Manager automatiza el despliegue y las operaciones de todos los recursos de OCI. Mediante el modelo de infraestructura como código (IaC), el servicio se basa en Terraform.

Recomendaciones

Utilice las siguientes recomendaciones como punto de partida para garantizar la escalabilidad y disponibilidad del cluster de LSF: sus requisitos pueden diferir de la arquitectura descrita aquí.
  • VCN y subredes

    Al seleccionar una subred existente, debe considerar un bloque CIDR lo suficientemente grande como para acomodar todos los recursos informáticos solicitados por el conector de recursos LSF.

    Utilice subredes regionales (en el caso de regiones con varios anuncios).

    Permitir toda la comunicación dentro de la subred (agregar a la lista de seguridad de la subred una regla que permita todas las conexiones de entrada desde el bloque CIDR de la subred a todos los puertos de destino).

Consideraciones

Al realizar el aprovisionamiento, tenga en cuenta los siguientes aspectos.

  • Binarios LSF de IBM Spectrum

    Los binarios y la licencia necesaria para instalar/ejecutar LSF no están incluidos. Este despliegue se probó con la versión 10.1 de LSF y la versión 601088 del parche.

    Antes del despliegue, puede descargar los siguientes archivos desde el portal de soporte de IBM, cargarlos en un cubo del almacén de objetos de OCI y crear solicitudes autenticadas previamente.

    • lsf10.1_lsfinstall.tar.Z
    • lsf10.1_lnx310-lib217-x86_64.tar.Z
    • lsf10.1_lnx310-lib217-x86_64-601088.tar.Z
    • lsf_entitlement.dat
  • VCN

    La resolución de DNS debe estar activada para la VCN y la subred utilizadas para el nodo maestro de LSF.

Despliegue

El código de Terraform para desplegar la solución está disponible en GitHub.

  1. Vaya a GitHub.
  2. Clone o descargue el repositorio en su computadora local.
  3. Siga las instrucciones del documento README.

Explorar más

Obtén más información sobre IBM Spectrium LSF, el conector de recursos IBM Spectrium LSF y OCI.

Revise estos recursos adicionales:

Confirmaciones

Authors: Chandrashekar Avadhani, Andrei Ilas

Contributors: John Sulyok