Creación de un pipeline
Cree un pipeline de Data Science para ejecutar una tarea. Puede crear pipelines mediante el SDK de ADS, la consola de OCI o el SDK de OCI. El uso de ADS para crear pipelines puede facilitar el desarrollo del pipeline, los pasos y las dependencias. ADS soporta la lectura y escritura del pipeline desde y hacia un archivo YAML. Puede utilizar ADS para ver una representación visual del pipeline. Recomendamos que utilice ADS para crear y gestionar pipelines mediante código.
Asegúrate de que has creado las políticas, autenticación y autorización necesarias para los pipelines.
Para un correcto funcionamiento de los pasos del script, asegúrese de que ha agregado la siguiente regla a una política de grupo dinámico:
all {resource.type='datasciencepipelinerun', resource.compartment.id='<pipeline-run-compartment-ocid>'}Antes de empezar
- Cree un archivo de artefacto de paso.
- Revise el uso de variables del entorno de pipelines.
- Para almacenar y gestionar logs de pipeline, aprenderá sobre el registro.
- Decida qué entorno conda desea utilizar. Si necesita un entorno conda personalizado, cree y publique uno.
- En la página de lista Proyectos, seleccione el proyecto que contiene los pipelines con los que desea trabajar. Si necesita ayuda para buscar la página de lista o el proyecto, consulte Lista de proyectos.
- En la página de detalles del proyecto, seleccione Pipelines.
- Seleccione Crear pipeline.
-
En la página Crear pipeline, introduzca la siguiente información.
- Compartimento: seleccione el compartimento en el que desea almacenar el pipeline.
- Nombre (opcional): introduzca un nombre para el pipeline (límite de 255 caracteres). Si no se proporciona un nombre, se genera automáticamente un nombre. Ejemplo:
pipeline2022808222435 - Descripción (opcional): introduzca una descripción para el pipeline.
- Pasos de pipeline: para cada paso de pipeline que desee agregar al pipeline, seleccione Agregar pasos de pipeline para abrir el panel Agregar paso de pipeline y, a continuación, siga el procedimiento para el tipo de paso de pipeline que desee.
Trabajo: para crear un paso de pipeline a partir de un trabajo, seleccione De trabajos e introduzca la siguiente información.
Nota
Opcionalmente, cree una configuración de pipeline por defecto que se utilice cuando se ejecute el pipeline introduciendo la variable de entorno, los argumentos de la línea de comandos y las opciones de tiempo de ejecución máximo.- Nombre del paso: introduzca un nombre único para el paso. No puede repetir un nombre de paso en un pipeline.
- Descripción del paso (opcional): introduzca una descripción del paso, que puede ayudarle a encontrar dependencias de pasos.
- Nombre de ejecución de paso
- Depende de (opcional): si este paso depende de otro paso, seleccione uno o más pasos para ejecutar antes de este paso.
- Seleccionar un compartimento de trabajo: seleccione el compartimento que contiene el trabajo que desea utilizar como paso de pipeline.
- Seleccionar un trabajo: seleccione el trabajo que desea utilizar como paso de pipeline.
- Parámetros (opcional):Nota
El paso debe asegurarse de que el archivo especificado (por ejemplo,/home/datascience/output.json) se rellena con un JSON válido que define las variables especificadas. Por ejemplo:{ "message":"Hello John!", "ocpu": 2, "memory": 10 }- Clave de variable de entorno personalizada (opcional): variables de entorno para este paso de pipeline.
- Valor (opcional): valor de la clave.
- Argumentos de la línea de comando (opcional): introduzca los argumentos de la línea de comando que desea utilizar para ejecutar el paso de pipeline.
- Tiempo de ejecución máximo (en minutos) (opcional): número máximo de minutos que se puede ejecutar el paso de pipeline. El servicio cancela la ejecución del pipeline si su tiempo de ejecución supera el valor especificado. El tiempo de ejecución máximo es de 30 días (43.200 minutos). Le recomendamos que configure un tiempo de ejecución máximo en todas las ejecuciones de pipeline para evitar ejecuciones de pipeline sin control.
- Parámetros de salida (opcional):
- Tipo de parámetro de salida: seleccione
JSON. - Nombre de parámetro: introduzca un nombre de parámetro.
- Nombre de archivo de salida: seleccione el nombre del archivo de salida en el que el paso almacena los parámetros de salida. Por ejemplo:
/home/datascience/output.json.
- Tipo de parámetro de salida: seleccione
- Guardar: seleccione esta opción para guardar el paso.
La página Crear pipeline se vuelve a abrir con el paso agregado.
Script: para crear un paso de pipeline a partir de un script, seleccione Desde script e introduzca la siguiente información.
- Nombre de paso: introduzca un nombre único para el paso. No puede repetir un nombre de paso en un pipeline.
- Descripción del paso (opcional): introduzca una descripción del paso, que puede ayudarle a encontrar dependencias de pasos.
- Depende de (opcional): si este paso depende de otro paso, seleccione uno o más pasos para ejecutar antes de este paso.
- Cargar Artefacto de Trabajo: Arrastre un archivo de paso de trabajo al cuadro o seleccione el cuadro para desplazarse hasta el archivo que desea seleccionar.
- Punto de entrada (opcional): seleccione un archivo para que sea el punto de ejecución de entrada del paso. Esto es útil cuando tiene muchos archivos.
- Parámetros (opcional):Nota
El paso debe asegurarse de que el archivo especificado (por ejemplo,/home/datascience/output.json) se rellena con un JSON válido que define las variables especificadas. Por ejemplo:{ "message":"Hello John!", "ocpu": 2, "memory": 10 }- Clave de variable de entorno personalizada (opcional): variables de entorno para este paso de pipeline.
- Valor (opcional): valor de la clave.
- Argumentos de la línea de comando (opcional): introduzca los argumentos de la línea de comando que desea utilizar para ejecutar el paso de pipeline.
- Tiempo de ejecución máximo (en minutos) (opcional): número máximo de minutos que se puede ejecutar el paso de pipeline. El servicio cancela la ejecución del pipeline si su tiempo de ejecución supera el valor especificado. El tiempo de ejecución máximo es de 30 días (43.200 minutos). Le recomendamos que configure un tiempo de ejecución máximo en todas las ejecuciones de pipeline para evitar ejecuciones de pipeline sin control.
- Parámetros de salida (opcional):
- Tipo de parámetro de salida: seleccione
JSON. - Nombre de parámetro: introduzca un nombre de parámetro.
- Nombre de archivo de salida: seleccione el nombre del archivo de salida en el que el paso almacena los parámetros de salida. Por ejemplo:
/home/datascience/output.json.
- Tipo de parámetro de salida: seleccione
- Cambie la unidad de computación seleccionando Cambiar unidad. A continuación, siga estos pasos en el panel Seleccionar unidad de computación.Nota
Para la unidad AMD, puede utilizar el valor por defecto o definir el número de OCPU y memoria.- Seleccione un tipo de instancia.
- Seleccione una serie de formas.
- Seleccione una de las unidades de Compute soportadas en la serie. Seleccione la unidad que más se adapte a cómo desea utilizar el recurso.
- Amplíe la unidad seleccionada para configurar las OCPU y la memoria.
- Número de OCPU
- Cantidad de memoria (GB): para cada OCPU, seleccione hasta 64 GB de memoria y un máximo total de 512 GB. La cantidad mínima de memoria permitida es de 1 GB o un valor que coincida con el número de OCPU, cualquiera que sea mayor.
- Activar unidad ampliable: seleccione si utiliza máquinas virtuales ampliables y, a continuación, para Utilización de base por OCPU, seleccione el porcentaje de OCPU que normalmente desea utilizar. Los valores soportados son 12,5% y 50%. (Para despliegues de modelos, solo se admite el valor del 50 %).
- Seleccione Seleccionar unidad.
- Unidad de computación con parámetros
- Unidad con parámetros
- OCPU con parámetros
- MemoryInGBs con parámetros
- Almacenamiento de bloques: introduzca la cantidad de almacenamiento que desea utilizar entre 50 GB y 10, 240 GB (10 TB). Puede cambiar el valor en incrementos de 1 GB. El valor por defecto es 100 GB.
- Recursos de red: seleccione la opción correspondiente.
- Red por defecto: restringe el tráfico solo a los servicios de Oracle. El sistema utiliza la red gestionada por servicios existente. La carga de trabajo se asocia mediante una VNIC secundaria a una VCN y una subred preconfiguradas y gestionadas por servicios. Esta subred proporcionada permite el acceso a la Internet pública a través de un gateway de NAT y al acceso a otros servicios de la nube de Oracle Cloud a través de un gateway de servicio.
Si solo necesita acceder a los servicios públicos de Internet y OCI, recomendamos utilizar esta opción. No es necesario que cree recursos de red ni escriba políticas para los permisos de red.
- Redes por defecto con Internet: permite el acceso a Internet saliente a través del gateway de NAT de Data Science.Nota
No puede utilizar la red por defecto con Internet en dominios desconectados y arrendamientos de desarrollo de Oracle. Si su arrendamiento o compartimento tiene una política de zona de seguridad de Data Science que deniega el acceso a la red pública (por ejemplo,deny model_deploy_public_network, consulte Política de zona de seguridad de Data Science), la opción de acceso a Internet público gestionado por el servicio está desactivada. Si intenta utilizar esta opción, recibirá un error404NotAuthorizedOrNotFound. - Red personalizada: seleccione la VCN y subred (por compartimento) que desea utilizar.
Para obtener acceso de salida a la red pública de Internet, utilice una subred privada con una ruta a un gateway de NAT.
Nota
- Las redes personalizadas se deben utilizar para utilizar un montaje de almacenamiento de archivos.
- Tras la creación, no se admite el cambio de redes personalizadas a redes gestionadas.
- Si ve el banner
The specified subnet is not accessible. Select a different subnet., cree una política que permita a Data Science utilizar redes personalizadas. Consulte Políticas.
- Red por defecto: restringe el tráfico solo a los servicios de Oracle. El sistema utiliza la red gestionada por servicios existente. La carga de trabajo se asocia mediante una VNIC secundaria a una VCN y una subred preconfiguradas y gestionadas por servicios. Esta subred proporcionada permite el acceso a la Internet pública a través de un gateway de NAT y al acceso a otros servicios de la nube de Oracle Cloud a través de un gateway de servicio.
- Montajes de almacenamiento (opcional):
- Montajes de almacenamiento de archivos (opcional): seleccione Agregar montaje de almacenamiento de archivos e introduzca la siguiente información.
- Compartimento: seleccione el compartimento que contiene el destino que desea montar.
- Destino de montaje: destino de montaje que desea utilizar.
- Ruta de exportación: ruta de exportación que desea utilizar.
- Ruta de destino y directorio: introduzca la ruta que se utilizará para montar el almacenamiento.
La ruta debe empezar por un carácter alfanumérico. El directorio de destino debe ser único en todos los montajes de almacenamiento proporcionados. Los caracteres permitidos son alfanuméricos, guiones ( - ) y guiones bajos ( _ ).
Puede especificar la ruta completa, como
/opc/storage-directory. Si sólo se especifica un directorio, como/storage-directory, se monta en el directorio/mntpor defecto. No puede especificar directorios específicos del sistema operativo, como/bino/etc.
- Montajes de almacenamiento de objetos (opcional): seleccione Agregar montaje de almacenamiento de objetos e introduzca la siguiente información.
- Compartimento: seleccione el compartimento que contiene el cubo que desea montar.
- Bloque: seleccione el bloque que desea utilizar.
- Prefijo de nombre de objeto (opcional): prefijo de nombre de objeto. El prefijo debe empezar por un carácter alfanumérico. Los caracteres permitidos son alfanuméricos, barra ( / ), guion ( - ) y guion bajo ( _ ).
- Ruta de destino y directorio: introduzca la ruta que se utilizará para montar el almacenamiento.
La ruta debe empezar por un carácter alfanumérico. El directorio de destino debe ser único en todos los montajes de almacenamiento proporcionados. Los caracteres permitidos son alfanuméricos, guiones ( - ) y guiones bajos ( _ ).
Puede especificar la ruta completa, como
/opc/storage-directory. Si sólo se especifica un directorio, como/storage-directory, se monta en el directorio/mntpor defecto. No puede especificar directorios específicos del sistema operativo, como/bino/etc.
Nota
Si utiliza redes personalizadas:- Cree el gateway del servicio en la VCN.
- Para las configuraciones de tabla de rutas en la subred privada, agregue el gateway de servicio.
- Cambie las reglas de salida de la lista de seguridad de la subred necesaria para permitir el tráfico a todos los servicios de la red.
- Montajes de almacenamiento de archivos (opcional): seleccione Agregar montaje de almacenamiento de archivos e introduzca la siguiente información.
- Guardar: seleccione esta opción para guardar el paso.
La página Crear pipeline se vuelve a abrir con el paso agregado.
Contenedor: para crear un paso de pipeline a partir de un contenedor, seleccione De contenedor e introduzca la siguiente información.
Opcionalmente, al definir pasos de pipeline, puede seleccionar utilizar Traiga su propio contenedor. Para obtener más información, consulte Traiga su propio contenedor (BYOC) para pipelines.
- Nombre de paso: introduzca un nombre único para el paso. No puede repetir un nombre de paso en un pipeline.
- Descripción del paso (opcional): introduzca una descripción del paso, que puede ayudarle a encontrar dependencias de pasos.
- Depende de (opcional): si este paso depende de otro paso, seleccione uno o más pasos para ejecutar antes de este paso.
- Configurar entorno de contenedor: seleccione Configurar para abrir el panel Configurar entorno de contenedor y, a continuación, introduzca la siguiente información.
- Compartimento de repositorios
- Repositorio
- Imagen
- Entrypoint
- CMD: Utiliza CMD como argumentos para ENTRYPOINT o el único comando que se ejecuta en ausencia de ENTRYPOINT.
- Resumen de imagen (opcional)
- ID de firma (opcional): si utiliza la verificación de firma, introduzca el OCID de la firma de imagen. Ejemplo:
ocid1.containerimagesignature.oc1.iad.aaaaaaaaab....
- Configurar entorno de contenedor: seleccione Configurar para abrir el panel Configurar entorno de contenedor y, a continuación, introduzca la siguiente información.
- Compartimento de repositorios
- Repositorio
- Imagen
- Punto de entrada (opcional)
- CMD (opcional): utilice CMD como argumentos para ENTRYPOINT o el único comando que ejecutar en ausencia de ENTRYPOINT.
- Resumen de imagen (opcional)
- ID de firma (opcional): si utiliza la verificación de firma, introduzca el OCID de la firma de imagen. Ejemplo:
ocid1.containerimagesignature.oc1.iad.aaaaaaaaab....
- Cargar artefacto de trabajo: arrastre un artefacto de paso al cuadro o seleccione el cuadro para desplazarse al archivo que desea seleccionar.
Este paso es opcional sólo si BYOC está configurado.
- Parámetros (opcional):Nota
El paso debe asegurarse de que el archivo especificado (por ejemplo,/home/datascience/output.json) se rellena con un JSON válido que define las variables especificadas. Por ejemplo:{ "message":"Hello John!", "ocpu": 2, "memory": 10 }- Clave de variable de entorno personalizada (opcional): variables de entorno para este paso de pipeline.
- Valor (opcional): valor de la clave.
- Argumentos de la línea de comando (opcional): introduzca los argumentos de la línea de comando que desea utilizar para ejecutar el paso de pipeline.
- Tiempo de ejecución máximo (en minutos) (opcional): número máximo de minutos que se puede ejecutar el paso de pipeline. El servicio cancela la ejecución del pipeline si su tiempo de ejecución supera el valor especificado. El tiempo de ejecución máximo es de 30 días (43.200 minutos). Le recomendamos que configure un tiempo de ejecución máximo en todas las ejecuciones de pipeline para evitar ejecuciones de pipeline sin control.
- Parámetros de salida (opcional):
- Tipo de parámetro de salida: seleccione
JSON. - Nombre de parámetro: introduzca un nombre de parámetro.
- Nombre de archivo de salida: seleccione el nombre del archivo de salida en el que el paso almacena los parámetros de salida. Por ejemplo:
/home/datascience/output.json.
- Tipo de parámetro de salida: seleccione
- Cambie la unidad de computación seleccionando Cambiar unidad. A continuación, siga estos pasos en el panel Seleccionar unidad de computación.Nota
Para la unidad AMD, puede utilizar el valor por defecto o definir el número de OCPU y memoria.- Seleccione un tipo de instancia.
- Seleccione una serie de formas.
- Seleccione una de las unidades de Compute soportadas en la serie. Seleccione la unidad que más se adapte a cómo desea utilizar el recurso.
- Amplíe la unidad seleccionada para configurar las OCPU y la memoria.
- Número de OCPU
- Cantidad de memoria (GB): para cada OCPU, seleccione hasta 64 GB de memoria y un máximo total de 512 GB. La cantidad mínima de memoria permitida es de 1 GB o un valor que coincida con el número de OCPU, cualquiera que sea mayor.
- Activar unidad ampliable: seleccione si utiliza máquinas virtuales ampliables y, a continuación, para Utilización de base por OCPU, seleccione el porcentaje de OCPU que normalmente desea utilizar. Los valores soportados son 12,5% y 50%. (Para despliegues de modelos, solo se admite el valor del 50 %).
- Seleccione Seleccionar unidad.
- Unidad de computación con parámetros
- Unidad con parámetros
- OCPU con parámetros
- MemoryInGBs con parámetros
- Almacenamiento de bloques: introduzca la cantidad de almacenamiento que desea utilizar entre 50 GB y 10, 240 GB (10 TB). Puede cambiar el valor en incrementos de 1 GB. El valor por defecto es 100 GB.
- Recursos de red: seleccione la opción correspondiente.
- Red por defecto: restringe el tráfico solo a los servicios de Oracle. El sistema utiliza la red gestionada por servicios existente. La carga de trabajo se asocia mediante una VNIC secundaria a una VCN y una subred preconfiguradas y gestionadas por servicios. Esta subred proporcionada permite el acceso a la Internet pública a través de un gateway de NAT y al acceso a otros servicios de la nube de Oracle Cloud a través de un gateway de servicio.
Si solo necesita acceso a los servicios públicos de Internet y OCI, le recomendamos que utilice esta opción. No es necesario que cree recursos de red ni escriba políticas para permisos de red.
- Redes por defecto con Internet: permite el acceso a Internet saliente a través del gateway de NAT de Data Science.Nota
No puede utilizar la red por defecto con Internet en dominios desconectados y arrendamientos de desarrollo de Oracle. Si su arrendamiento o compartimento tiene una política de zona de seguridad de Data Science que deniega el acceso a la red pública (por ejemplo,deny model_deploy_public_network, consulte Política de zona de seguridad de Data Science), la opción de acceso a Internet público gestionado por el servicio está desactivada. Si intenta utilizar esta opción, recibirá un error404NotAuthorizedOrNotFound. - Red personalizada: seleccione la VCN y subred (por compartimento) que desea utilizar.
Para obtener acceso de salida a la red pública de Internet, utilice una subred privada con una ruta a un gateway de NAT.
Nota
- Las redes personalizadas se deben utilizar para utilizar un montaje de almacenamiento de archivos.
- Tras la creación, no se admite el cambio de redes personalizadas a redes gestionadas.
- Si ve el banner
The specified subnet is not accessible. Select a different subnet., cree una política que permita a Data Science utilizar redes personalizadas. Consulte Políticas.
- Red por defecto: restringe el tráfico solo a los servicios de Oracle. El sistema utiliza la red gestionada por servicios existente. La carga de trabajo se asocia mediante una VNIC secundaria a una VCN y una subred preconfiguradas y gestionadas por servicios. Esta subred proporcionada permite el acceso a la Internet pública a través de un gateway de NAT y al acceso a otros servicios de la nube de Oracle Cloud a través de un gateway de servicio.
- Montajes de almacenamiento (opcional):
- Montajes de almacenamiento de archivos (opcional): seleccione Agregar montaje de almacenamiento de archivos e introduzca la siguiente información.
- Compartimento: seleccione el compartimento que contiene el destino que desea montar.
- Destino de montaje: destino de montaje que desea utilizar.
- Ruta de exportación: ruta de exportación que desea utilizar.
- Ruta de destino y directorio: introduzca la ruta que se utilizará para montar el almacenamiento.
La ruta debe empezar por un carácter alfanumérico. El directorio de destino debe ser único en todos los montajes de almacenamiento proporcionados. Los caracteres permitidos son alfanuméricos, guiones ( - ) y guiones bajos ( _ ).
Puede especificar la ruta completa, como
/opc/storage-directory. Si sólo se especifica un directorio, como/storage-directory, se monta en el directorio/mntpor defecto. No puede especificar directorios específicos del sistema operativo, como/bino/etc.
- Montajes de almacenamiento de objetos (opcional): seleccione Agregar montaje de almacenamiento de objetos e introduzca la siguiente información.
- Compartimento: seleccione el compartimento que contiene el cubo que desea montar.
- Bloque: seleccione el bloque que desea utilizar.
- Prefijo de nombre de objeto (opcional): prefijo de nombre de objeto. El prefijo debe empezar por un carácter alfanumérico. Los caracteres permitidos son alfanuméricos, barra ( / ), guion ( - ) y guion bajo ( _ ).
- Ruta de destino y directorio: introduzca la ruta que se utilizará para montar el almacenamiento.
La ruta debe empezar por un carácter alfanumérico. El directorio de destino debe ser único en todos los montajes de almacenamiento proporcionados. Los caracteres permitidos son alfanuméricos, guiones ( - ) y guiones bajos ( _ ).
Puede especificar la ruta completa, como
/opc/storage-directory. Si sólo se especifica un directorio, como/storage-directory, se monta en el directorio/mntpor defecto. No puede especificar directorios específicos del sistema operativo, como/bino/etc.
Nota
Si utiliza redes personalizadas:- Cree el gateway del servicio en la VCN.
- Para las configuraciones de tabla de rutas en la subred privada, agregue el gateway de servicio.
- Cambie las reglas de salida de la lista de seguridad de la subred necesaria para permitir el tráfico a todos los servicios de la red.
- Montajes de almacenamiento de archivos (opcional): seleccione Agregar montaje de almacenamiento de archivos e introduzca la siguiente información.
- Guardar: seleccione esta opción para guardar el paso.
La página Crear pipeline se vuelve a abrir con el paso agregado.
Aplicación de Data Flow: para crear un paso de pipeline desde una aplicación de Data Flow, seleccione Desde aplicaciones de Data Flow e introduzca la siguiente información.
- Nombre del paso: introduzca un nombre único para el paso. No puede repetir un nombre de paso en un pipeline.
- Descripción del paso (opcional): introduzca una descripción del paso, que puede ayudarle a encontrar dependencias de pasos.
- Depende de (opcional): si este paso depende de otro paso, seleccione uno o más pasos para ejecutar antes de este paso.
- Seleccionar un compartimento de aplicación del flujo de datos
- Seleccionar una aplicación de flujo de datos
- Parámetros (opcional):Nota
El paso debe asegurarse de que el archivo especificado (por ejemplo,/home/datascience/output.json) se rellena con un JSON válido que define las variables especificadas. Por ejemplo:{ "message":"Hello John!", "ocpu": 2, "memory": 10 }- Clave de variable de entorno personalizada (opcional): variables de entorno para este paso de pipeline.
- Valor (opcional): valor de la clave.
- Argumentos de la línea de comando (opcional): introduzca los argumentos de la línea de comando que desea utilizar para ejecutar el paso de pipeline.
- Tiempo de ejecución máximo (en minutos) (opcional): número máximo de minutos que se puede ejecutar el paso de pipeline. El servicio cancela la ejecución del pipeline si su tiempo de ejecución supera el valor especificado. El tiempo de ejecución máximo es de 30 días (43.200 minutos). Le recomendamos que configure un tiempo de ejecución máximo en todas las ejecuciones de pipeline para evitar ejecuciones de pipeline sin control.
- Configuración de Data Flow: seleccione Configurar para abrir el panel Configurar configuración de Data Flow y, a continuación, introduzca la siguiente información.
- Unidad de controlador
- OCPU de unidad
- Memoria de controlador (GB)
- Unidad de ejecutor
- OCPU de ejecutor
- Memoria de ejecutor (GB)
- Número de ejecutores
- Introduzca la ruta al bucket de forma manual
- URI de bucket de logs
- Compartimento del nombre del cubo de Object Storage
- Nombre del bucket del almacenamiento de objetos
- Clave
- Valor
- URI de bucket de almacén
- Configurar: seleccione esta opción para guardar la información introducida y volver a la página Agregar paso de pipeline.
- Guardar: seleccione esta opción para guardar el paso.
La página Crear pipeline se vuelve a abrir con el paso agregado.
- Parámetros (opcional):Nota
El paso debe asegurarse de que el archivo especificado (por ejemplo,/home/datascience/output.json) se rellena con un JSON válido que define las variables especificadas. Por ejemplo:{ "message":"Hello John!", "ocpu": 2, "memory": 10 }- Clave de variable de entorno personalizada (opcional): variables de entorno para este paso de pipeline.
- Valor (opcional): valor de la clave.
- Argumentos de la línea de comando (opcional): introduzca los argumentos de la línea de comando que desea utilizar para ejecutar el paso de pipeline.
- Tiempo de ejecución máximo (en minutos) (opcional): número máximo de minutos que se puede ejecutar el paso de pipeline. El servicio cancela la ejecución del pipeline si su tiempo de ejecución supera el valor especificado. El tiempo de ejecución máximo es de 30 días (43.200 minutos). Le recomendamos que configure un tiempo de ejecución máximo en todas las ejecuciones de pipeline para evitar ejecuciones de pipeline sin control.
- Clave de parámetro personalizada
- Valor
- Cambie la unidad de computación seleccionando Cambiar unidad. A continuación, siga estos pasos en el panel Seleccionar unidad de computación.Nota
Para la unidad AMD, puede utilizar el valor por defecto o definir el número de OCPU y memoria.- Seleccione un tipo de instancia.
- Seleccione una serie de formas.
- Seleccione una de las unidades de Compute soportadas en la serie. Seleccione la unidad que más se adapte a cómo desea utilizar el recurso.
- Amplíe la unidad seleccionada para configurar las OCPU y la memoria.
- Número de OCPU
- Cantidad de memoria (GB): para cada OCPU, seleccione hasta 64 GB de memoria y un máximo total de 512 GB. La cantidad mínima de memoria permitida es de 1 GB o un valor que coincida con el número de OCPU, cualquiera que sea mayor.
- Activar unidad ampliable: seleccione si utiliza máquinas virtuales ampliables y, a continuación, para Utilización de base por OCPU, seleccione el porcentaje de OCPU que normalmente desea utilizar. Los valores soportados son 12,5% y 50%. (Para despliegues de modelos, solo se admite el valor del 50 %).
- Seleccione Seleccionar unidad.
- Unidad de computación con parámetros
- Unidad con parámetros
- OCPU con parámetros
- MemoryInGBs con parámetros
- Almacenamiento de bloques: introduzca la cantidad de almacenamiento que desea utilizar entre 50 GB y 10, 240 GB (10 TB). Puede cambiar el valor en incrementos de 1 GB. El valor por defecto es 100 GB.
- Recursos de red: seleccione la opción correspondiente.
- Red por defecto: restringe el tráfico solo a los servicios de Oracle. El sistema utiliza la red gestionada por servicios existente. La carga de trabajo se asocia mediante una VNIC secundaria a una VCN y una subred preconfiguradas y gestionadas por servicios. Esta subred proporcionada permite el acceso a la Internet pública a través de un gateway de NAT y al acceso a otros servicios de la nube de Oracle Cloud a través de un gateway de servicio.
Si solo necesita acceso a los servicios públicos de Internet y OCI, le recomendamos que utilice esta opción. No es necesario que cree recursos de red ni escriba políticas para permisos de red.
- Redes por defecto con Internet: permite el acceso a Internet saliente a través del gateway de NAT de Data Science.Nota
No puede utilizar la red por defecto con Internet en dominios desconectados y arrendamientos de desarrollo de Oracle. Si su arrendamiento o compartimento tiene una política de zona de seguridad de Data Science que deniega el acceso a la red pública (por ejemplo,deny model_deploy_public_network, consulte Política de zona de seguridad de Data Science), la opción de acceso a Internet público gestionado por el servicio está desactivada. Si intenta utilizar esta opción, recibirá un error404NotAuthorizedOrNotFound. - Red personalizada: seleccione la VCN y subred (por compartimento) que desea utilizar.
Para obtener acceso de salida a la red pública de Internet, utilice una subred privada con una ruta a un gateway de NAT.
Nota
- Las redes personalizadas se deben utilizar para utilizar un montaje de almacenamiento de archivos.
- Tras la creación, no se admite el cambio de redes personalizadas a redes gestionadas.
- Si ve el banner
The specified subnet is not accessible. Select a different subnet., cree una política que permita a Data Science utilizar redes personalizadas. Consulte Políticas.
- Red por defecto: restringe el tráfico solo a los servicios de Oracle. El sistema utiliza la red gestionada por servicios existente. La carga de trabajo se asocia mediante una VNIC secundaria a una VCN y una subred preconfiguradas y gestionadas por servicios. Esta subred proporcionada permite el acceso a la Internet pública a través de un gateway de NAT y al acceso a otros servicios de la nube de Oracle Cloud a través de un gateway de servicio.
- Activar registro (opcional): registrar mensajes.
- Compartimento de grupo de logs: seleccione el compartimento que contiene el grupo de logs.
- Grupo de logs: seleccione el grupo de log.
- Montajes de almacenamiento (opcional):
- Montajes de almacenamiento de archivos (opcional): seleccione Agregar montaje de almacenamiento de archivos e introduzca la siguiente información.
- Compartimento: seleccione el compartimento que contiene el destino que desea montar.
- Destino de montaje: destino de montaje que desea utilizar.
- Ruta de exportación: ruta de exportación que desea utilizar.
- Ruta de destino y directorio: introduzca la ruta que se utilizará para montar el almacenamiento.
La ruta debe empezar por un carácter alfanumérico. El directorio de destino debe ser único en todos los montajes de almacenamiento proporcionados. Los caracteres permitidos son alfanuméricos, guiones ( - ) y guiones bajos ( _ ).
Puede especificar la ruta completa, como
/opc/storage-directory. Si sólo se especifica un directorio, como/storage-directory, se monta en el directorio/mntpor defecto. No puede especificar directorios específicos del sistema operativo, como/bino/etc.
- Montajes de almacenamiento de objetos (opcional): seleccione Agregar montaje de almacenamiento de objetos e introduzca la siguiente información.
- Compartimento: seleccione el compartimento que contiene el cubo que desea montar.
- Bloque: seleccione el bloque que desea utilizar.
- Prefijo de nombre de objeto (opcional): prefijo de nombre de objeto. El prefijo debe empezar por un carácter alfanumérico. Los caracteres permitidos son alfanuméricos, barra ( / ), guion ( - ) y guion bajo ( _ ).
- Ruta de destino y directorio: introduzca la ruta que se utilizará para montar el almacenamiento.
La ruta debe empezar por un carácter alfanumérico. El directorio de destino debe ser único en todos los montajes de almacenamiento proporcionados. Los caracteres permitidos son alfanuméricos, guiones ( - ) y guiones bajos ( _ ).
Puede especificar la ruta completa, como
/opc/storage-directory. Si sólo se especifica un directorio, como/storage-directory, se monta en el directorio/mntpor defecto. No puede especificar directorios específicos del sistema operativo, como/bino/etc.
Nota
Si utiliza redes personalizadas:- Cree el gateway del servicio en la VCN.
- Para las configuraciones de tabla de rutas en la subred privada, agregue el gateway de servicio.
- Cambie las reglas de salida de la lista de seguridad de la subred necesaria para permitir el tráfico a todos los servicios de la red.
- Montajes de almacenamiento de archivos (opcional): seleccione Agregar montaje de almacenamiento de archivos e introduzca la siguiente información.
- Etiquetas (en Opciones avanzadas): agregue etiquetas al pipeline. Si tiene permisos para crear un recurso, también tiene permisos para aplicar etiquetas de formato libre a dicho recurso. Para aplicar una etiqueta definida, debe tener permisos para utilizar el espacio de nombres de etiqueta. Para obtener más información sobre el etiquetado, consulte Etiquetas de recursos. Si no está seguro de si desea aplicar etiquetas, omita esta opción o pregunte a un administrador. Puede aplicar etiquetas más tarde.
-
Haga clic en Crear.
Después de que el pipeline esté en un estado activo, puede utilizar ejecuciones de pipeline para ejecutar el pipeline repetidamente.
Estas variables de entorno controlan la ejecución del pipeline.
Puede utilizar la CLI de OCI para crear un pipeline como en este ejemplo de Python:
-
Crear un pipeline:
Los siguientes parámetros están disponibles para su uso en la carga útil:
Nombre de parámetro Necesario Descripción Pipeline (nivel superior) projectIdNecesario OCID del proyecto en el que se va a crear el pipeline. compartmentIdNecesario OCID de compartimento en el que crear el pipeline. displayNameOpcional Nombre del pipeline. infrastructureConfigurationDetailsOpcional Configuración de infraestructura (cálculo) por defecto que se utilizará para todos los pasos del pipeline. Consulte
infrastructureConfigurationDetailspara obtener más información sobre los parámetros soportados.La configuración de ejecución de pipeline puede sustituirla.
logConfigurationDetailsOpcional Log por defecto que se utilizará para todos los pasos del pipeline. Consulte
logConfigurationDetailspara obtener más información sobre los parámetros soportados.La configuración de ejecución de pipeline puede sustituirla.
configurationDetailsOpcional Configuración por defecto para la ejecución de pipeline. Consulte
configurationDetailspara obtener más información sobre los parámetros soportados.La configuración de ejecución de pipeline puede sustituirla.
freeformTagsOpcional Etiquetas para agregar al recurso de pipeline. stepDetailsstepNameNecesario Nombre del paso. Debe ser único en el pipeline. descriptionOpcional Descripción de texto libre para el paso. stepTypeNecesario CUSTOM_SCRIPToML_JOBjobIdNecesario* Para los pasos de ML_JOB, este es el OCID de trabajo que se utilizará para la ejecución del paso.stepInfrastructureConfigurationDetailsopcional* Configuración de infraestructura por defecto (Compute) que se utilizará para este paso. Consulte
infrastructureConfigurationDetailspara obtener más información sobre los parámetros soportados.La configuración de ejecución de pipeline puede sustituirla.
*Debe definirse en al menos un nivel (la prioridad se basa en la prioridad, siendo 1 la más alta):
1 ejecución de pipeline y/o
2 pasos y/o
3 pipeline
stepConfigurationDetailsopcional* Configuración por defecto para la ejecución del paso. Consulte
configurationDetailspara obtener más información sobre los parámetros soportados.La configuración de ejecución de pipeline puede sustituirla.
*Debe definirse en al menos un nivel (la prioridad se basa en la prioridad, siendo 1 la más alta):
1 ejecución de pipeline y/o
2 pasos y/o
3 pipeline
dependsOnOpcional Lista de pasos que se deben completar antes de que comience este paso. De esta forma se crea el gráfico de dependencias de flujo de trabajo de pipeline. infrastructureConfigurationDetailsshapeNameNecesario Nombre de la unidad de computación que se va a utilizar. Por ejemplo, VM.Standard2.4. blockStorageSizeInGBsNecesario Número de GB que se utilizarán como almacenamiento asociado para la VM. logConfigurationDetailsenableLoggingNecesario Definición para utilizar el registro. logGroupIdNecesario OCID de grupo de logs que se utilizará para los logs. El grupo de logs debe crearse y estar disponible cuando se ejecute el pipeline logIdopcional* OCID de log que se utilizará para los logs cuando no se utilice el parámetro enableAutoLogCreation.enableAutoLogCreationOpcional Si se define en True, se crea un log para cada ejecución de pipeline.configurationDetailstypeNecesario Solo está soportado DEFAULT.maximumRuntimeInMinutesOpcional Límite de tiempo en minutos para que se ejecute el pipeline. environmentVariablesOpcional Variables de entorno que se deben proporcionar para las ejecuciones de pasos de pipeline.
Por ejemplo:
"environmentVariables": { "CONDA_ENV_TYPE": "service" }Revise la lista de variables de entorno soportadas por el servicio.
pipeline_payload = { "projectId": "<project_id>", "compartmentId": "<compartment_id>", "displayName": "<pipeline_name>", "pipelineInfrastructureConfigurationDetails": { "shapeName": "VM.Standard2.1", "blockStorageSizeInGBs": "50" }, "pipelineLogConfigurationDetails": { "enableLogging": True, "logGroupId": "<log_group_id>", "logId": "<log_id>" }, "pipelineDefaultConfigurationDetails": { "type": "DEFAULT", "maximumRuntimeInMinutes": 30, "environmentVariables": { "CONDA_ENV_TYPE": "service", "CONDA_ENV_SLUG": "classic_cpu" } }, "stepDetails": [ { "stepName": "preprocess", "description": "Preprocess step", "stepType": "CUSTOM_SCRIPT", "stepInfrastructureConfigurationDetails": { "shapeName": "VM.Standard2.4", "blockStorageSizeInGBs": "100" }, "stepConfigurationDetails": { "type": "DEFAULT", "maximumRuntimeInMinutes": 90 "environmentVariables": { "STEP_RUN_ENTRYPOINT": "preprocess.py", "CONDA_ENV_TYPE": "service", "CONDA_ENV_SLUG": "onnx110_p37_cpu_v1" } }, { "stepName": "postprocess", "description": "Postprocess step", "stepType": "CUSTOM_SCRIPT", "stepInfrastructureConfigurationDetails": { "shapeName": "VM.Standard2.1", "blockStorageSizeInGBs": "80" }, "stepConfigurationDetails": { "type": "DEFAULT", "maximumRuntimeInMinutes": 60 }, "dependsOn": ["preprocess"] }, ], "freeformTags": { "freeTags": "cost center" } } pipeline_res = dsc.create_pipeline(pipeline_payload) pipeline_id = pipeline_res.data.idHasta que se carguen todos los artefactos de pasos de pipeline, el pipeline tendrá el estado
CREATING. -
Cargue un artefacto de paso:
Después de cargar un artefacto, no se puede cambiar.
fstream = open(<file_name>, "rb") dsc.create_step_artifact(pipeline_id, step_name, fstream, content_disposition=f"attachment; filename={<file_name>}") -
Actualizar un pipeline:
Solo puede actualizar un pipeline cuando tiene el estado
ACTIVE.update_pipeline_details = { "displayName": "pipeline-updated" } self.dsc.update_pipeline(<pipeline_id>, <update_pipeline_details>) -
Iniciar ejecución de pipeline:
pipeline_run_payload = { "projectId": project_id, "displayName": "pipeline-run", "pipelineId": <pipeline_id>, "compartmentId": <compartment_id>, } dsc.create_pipeline_run(pipeline_run_payload)
-
Crear un pipeline:
El SDK de ADS también es una biblioteca de Python disponible públicamente que puede instalar con este comando:
pip install oracle-adsPuede utilizar el SDK de ADS para crear y ejecutar pipelines.
Creación de pipelines con redes personalizadas mediante API
Puede seleccionar redes personalizadas al crear un pipeline. Utilice una red personalizada que ya haya creado en el pipeline para ofrecer una flexibilidad adicional en la red.
Proporcione subnet-id en infrastructure-configuration-details para utilizar una subred personalizada en el nivel de pipeline. Por ejemplo:
"infrastructure-configuration-details": {
"block-storage-size-in-gbs": 50,
"shape-config-details": {
"memory-in-gbs": 16.0,
"ocpus": 1.0
},
"shape-name": "VM.Standard.E4.Flex",
"subnet-id": "ocid1.subnet.oc1.iad.aaaaaaaa5lzzq3fyypo6x5t5egplbfyxf2are6k6boop3vky5t4h7g35xkoa"
}O en los detalles de configuración de contenedor de pasos para utilizar una subred personalizada para un paso concreto. Por ejemplo:
"step-infrastructure-configuration-details": {
"block-storage-size-in-gbs": 50,
"shape-config-details": {
"memory-in-gbs": 16.0,
"ocpus": 1.0
},
"shape-name": "VM.Standard.E4.Flex",
"subnet-id": "ocid1.subnet.oc1.iad.aaaaaaaa5lzzq3fyypo6x5t5egplbfyxf2are6k6boop3vky5t4h7g35xkoa"
},