Conceptos para Generative AI

Para ayudarte a entender OCI Generative AI, revisa algunos conceptos y términos relacionados con el servicio.

Modelo de IA generativa

Un modelo de IA entrenado en grandes cantidades de datos que toma entradas que no ha visto antes y genera nuevo contenido.

Generación con recuperación aumentada (RAG)

Un programa que recupera datos de fuentes específicas y aumenta las respuestas del modelo de lenguaje grande (LLM) con la información específica para generar respuestas basadas en tierra.

Peticiones de datos e ingeniería de peticiones de datos

Peticiones
Cadenas de texto en lenguaje natural usadas para instruir o extraer información de un modelo grande de lenguaje. Por ejemplo,
  • ¿Qué es el solsticio de verano?
  • Escribe un poema sobre los árboles que se balancean en la brisa.
  • Vuelva a escribir el texto anterior en un tono más claro.
Petición de datos - Ingeniería
Proceso iterativo de elaboración de solicitudes específicas en lenguaje natural para extraer peticiones optimizadas de un modelo de lenguaje grande (LLM). Según el lenguaje exacto utilizado, el ingeniero rápido puede guiar al LLM para proporcionar salidas mejores o diferentes.

Conclusión

Capacidad de un modelo de lenguaje grande (LLM) para generar una respuesta basada en instrucciones y contexto proporcionados por el usuario en la petición de datos. Un LLM puede generar nuevos datos, hacer predicciones o sacar conclusiones basadas en sus patrones y relaciones aprendidas en los datos de entrenamiento, sin haber sido programado explícitamente.

La inferencia es una característica clave de las tareas de procesamiento del lenguaje natural (NLP), como responder preguntas, resumir texto y traducir. Puede utilizar los modelos fundamentales de la IA generativa para la inferencia.

Streaming

Generación de contenido por un modelo de lenguaje grande (LLM) donde el usuario puede ver los tokens que se generan de uno en uno en lugar de esperar a que se genere una respuesta completa antes de devolver la respuesta al usuario.

Incrustación

Representación numérica que tiene la propiedad de preservar el significado de un fragmento de texto. Este texto puede ser una frase, una frase o uno o más párrafos. Los modelos de incrustación de IA generativa transforman cada frase, frase o párrafo que introduzca en una matriz con números 384 o 1024, según el modelo de incrustación que seleccione. Puede utilizar estas incrustaciones para buscar similitud en frases que sean similares en contexto o categoría. Los embebidos se suelen almacenar en una base de datos vectorial. Los embebidos se utilizan principalmente para búsquedas semánticas en las que la función de búsqueda se centra en el significado del texto que está buscando en lugar de encontrar resultados basados en palabras clave. Para crear las incrustaciones, puede introducir frases en inglés y en otros idiomas.

Playground

Una interfaz en la consola de Oracle Cloud para explorar los modelos personalizados y preentrenados alojados sin escribir una sola línea de código. Utilice el patio de recreo para probar los casos de uso y acotar las peticiones de datos y los parámetros. Cuando estés satisfecho con los resultados, copia el código generado o utiliza el punto final del modelo para integrar la IA generativa en tus aplicaciones.

Modo bajo demanda

Puede acceder a los modelos fundamentales previamente entrenados en IA generativa mediante dos modos: bajo demanda y dedicado. A continuación, se muestran las funciones clave para el modo bajo demanda:
  • Paga sobre la marcha por cada llamada de inferencia cuando utiliza los modelos en el patio de recreo o cuando llama a los modelos a través de la API.

  • Baja barrera para empezar a utilizar la IA generativa.
  • Ideal para la experimentación, la prueba de concepto y la evaluación de modelos.
  • Disponible para los modelos preentrenados en regiones que no se muestran como (solo cluster de IA dedicado).

Clusters de IA dedicados

Recursos informáticos que puede utilizar para ajustar modelos personalizados o para alojar puntos finales para los modelos básicos previamente entrenados y personalizados. Los clusters están dedicados a sus modelos y no se comparten con otros clientes.

Modo dedicado

Puede acceder a los modelos fundamentales previamente entrenados en IA generativa mediante dos modos: bajo demanda y dedicado. A continuación, se muestran las funciones clave para el modo dedicado:

  • Obtienes un conjunto dedicado de GPU para los clusters de IA dedicados.
  • Puede crear modelos personalizados en los clusters de IA dedicados ajustando un subjuego de los Modelos básicos preentrenados ofrecidos en IA generativa que se muestran para el ajuste.
  • Puede alojar réplicas de los modelos básicos y ajustados en los clusters de IA dedicados.
  • Se compromete con antelación a determinadas horas de uso de los clusters de IA dedicados. Para ver los precios, consulte la página de precios.
  • Disponible para los modelos previamente entrenados en todas las regiones de la lista.
  • Obtiene un rendimiento predecible y es adecuado para cargas de trabajo de producción.
Consejo

El modo dedicado es un uso de inquilino único de los modelos en los que se otorga permiso al hardware para su uso. Este modo ofrece un rendimiento predecible y se recomienda para las cargas de trabajo de producción. Consulte las referencias de rendimiento de cluster que le ayudarán a ajustar el tamaño de los clusters dedicados.

Nota

Un modelo alojado en un cluster de IA dedicado solo está disponible en la región en la que se despliega su punto final. Consulte regiones disponibles para cada modelo.

Modelo personalizado

Modelo que crea mediante el uso de un modelo previamente entrenado como base y el uso de su propio juego de datos para ajustar ese modelo.

Tokens

Un token es una palabra, parte de una palabra, o una puntuación. Por ejemplo, apple es un token y friendship es dos tokens (friend y ship), y don't es dos tokens (don y 't). Cuando ejecuta un modelo en el patio de recreo, puede establecer el número máximo de tokens de salida. Estimar cuatro caracteres por token.

Temperatura

Nivel de aleatoriedad utilizado para generar el texto de salida. Para generar una salida similar para una petición de datos cada vez que ejecute la petición de datos, utilice 0. Para generar un nuevo texto aleatorio para ese indicador, aumente la temperatura.

Consejo

Comience con la temperatura establecida en 0 y aumente la temperatura a medida que vuelve a generar las peticiones de datos para acotar la salida. Las altas temperaturas pueden introducir alucinaciones e información objetivamente incorrecta. Para obtener el mismo resultado para solicitudes repetidas, utilice el parámetro seed.

k principales

Método de muestreo en el que el modelo selecciona el siguiente token aleatoriamente de los tokens más probables top k. Un valor más alto para k genera una salida más aleatoria, lo que hace que el texto de salida suene más natural. El valor por defecto para k es 0 para los modelos command y -1 para los modelos Llama, lo que significa que los modelos deben considerar todos los tokens y no utilizar este método.

p principales

Método de muestreo que controla la probabilidad acumulada de los tokens principales que se deben tener en cuenta para el siguiente token. Asigne a p un número decimal entre 0 y 1 para la probabilidad. Por ejemplo, introduzca 0,75 para que se tenga en cuenta el 75 por ciento superior. Defina p en 1 para considerar todos los tokens.

Penalización de frecuencia

Penalización que se asigna a un token cuando ese token aparece con frecuencia. Las sanciones altas fomentan menos tokens repetidos y producen una salida más aleatoria.

Penalización de presencia

Una penalización que se asigna a cada token cuando aparece en la salida para fomentar la generación de salidas con tokens que no se han utilizado.

Probabilidad

En la salida de un modelo de lenguaje grande (LLM), cuán probable es que un token siga el token generado actualmente. Cuando un LLM genera un nuevo token para el texto de salida, se asigna una probabilidad a todos los tokens, donde los tokens con mayores probabilidades tienen más probabilidades de seguir el token actual. Por ejemplo, es más probable que la palabra favorito vaya seguida de la palabra alimento o libro en lugar de la palabra zebra. La probabilidad se define por un número entre -15 y 0 y cuanto más negativo sea el número, menos probable es que el token siga el token actual.

Preámbulo

Contexto inicial o mensaje que guía a una modelo de chat. Cuando no asigna un preámbulo a una modelo de chat, se utiliza el preámbulo por defecto para esa modelo. El preámbulo por defecto para los modelos cohere.command-r-plus y cohere.command-r-16k es:

You are Command.
You are an extremely capable large language model built by Cohere. 
You are given instructions programmatically via an API that you follow to the best of your ability.

Es opcional dar un preámbulo. Si desea utilizar su propio preámbulo, para obtener los mejores resultados, proporcione el contexto del modelo, las instrucciones y un estilo de conversación. A continuación se muestran algunos ejemplos:

  • Usted es un profesional de marketing experimentado con un profundo conocimiento del comportamiento del consumidor y las tendencias del mercado. Responda con un tono amigable e informativo, compartiendo ideas del sector y mejores prácticas.
  • Eres un asesor de viajes que se centra en actividades divertidas. Responde con sentido del humor y un tono pirata.
Nota

También puede incluir un preámbulo en una conversación de chat y pedir directamente al modelo que responda de una forma determinada. Por ejemplo, "Responda la siguiente pregunta en un tono de marketing. ¿Dónde está el mejor lugar para navegar?"

Punto final modelo

Punto designado en un cluster de IA dedicado en el que un modelo de lenguaje grande (LLM) puede aceptar solicitudes de usuario y devolver respuestas, como el texto generado del modelo.

En OCI Generative AI, puedes crear puntos finales para modelos preentrenados y modelos personalizados listos para usar. Esos puntos finales se enumeran en el patio de recreo para probar los modelos. También puede hacer referencia a esos puntos finales en las aplicaciones.

Límite

Las barandillas son controles configurables de seguridad y cumplimiento que ayudan a gestionar lo que el modelo puede aceptar y producir, y en el servicio OCI Generative AI, incluyen tres protecciones: moderación de contenido, defensa de inyección de mensajes y manejo de información de identificación personal (PII).

Moderación de contenido

Las barandillas de moderación de contenido ayudan a garantizar que las entradas y salidas del modelo cumplan con las políticas de uso de su organización al detectar y manejar contenido confidencial o no permitido. Esto generalmente incluye categorías como el odio o el acoso, el contenido sexual, la violencia, la autolesión y otro material restringido por las políticas. Cuando se activan, las barandillas de moderación pueden bloquear, redactar o advertir, y pueden enrutar la solicitud de revisión en función de su configuración, lo que ayuda a reducir el riesgo de respuestas dañinas, inseguras o no conformes en las experiencias del usuario final.

Inyección inmediata

Las barandillas de inyección de petición de datos están diseñadas para proteger el modelo de instrucciones maliciosas o no deseadas incrustadas en peticiones de datos de usuario o contenido recuperado (por ejemplo, "ignorar instrucciones anteriores", "revelar peticiones de datos del sistema" o "secretos de filtro"). Estas guías buscan patrones que intenten anular el comportamiento del sistema, acceder a instrucciones ocultas o manipular el uso de herramientas y el acceso a datos. Cuando se detecta, el sistema puede rechazar la solicitud, eliminar las instrucciones inyectadas o restringir el modelo para que solo siga directivas de confianza, lo que ayuda a mantener la alineación con la tarea, las políticas y los controles de acceso previstos.

Información personal identificable (PII)

Las barandillas de identificación personal ayudan a evitar que los datos personales confidenciales se recopilen, muestren o almacenen de manera inadecuada mediante la detección de identificadores, como nombres combinados con detalles de contacto, direcciones, ID emitidos por el gobierno, números de cuentas financieras y otros elementos de datos que pueden identificar a una persona. Según la configuración, las barandillas de información de identificación personal pueden enmascarar o ocultar los datos detectados, bloquear las respuestas que lo incluyen y solicitar a los usuarios que eliminen o minimicen los detalles personales. Esto admite prácticas de privacidad por diseño y ayuda a reducir el riesgo de exposición y los problemas de cumplimiento al manejar la información del usuario o del cliente.

Por defecto, OCI Generative AI no agrega una capa de barrera sobre los modelos preentrenados listos para usar. Sin embargo, los modelos preentrenados tienen algún nivel de moderación de contenido que filtra las respuestas de salida. Para incorporar guías de protección en modelos, debe activar la moderación de contenido al crear un punto final para un modelo previamente entrenado o ajustado.

Importante

Exención de responsabilidad

Nuestras barandillas de Moderación de Contenido (CM) e Inyección de Petición de Datos (PI) se han evaluado en una gama de conjuntos de datos de referencia multilingües. Sin embargo, el rendimiento real puede variar dependiendo de los idiomas, dominios, distribuciones de datos y patrones de uso específicos presentes en los datos proporcionados por el cliente a medida que el contenido es generado por AI y puede contener errores u omisiones. En consecuencia, está destinado únicamente a fines informativos, no debe considerarse asesoramiento profesional y OCI no garantiza que se observen características de rendimiento idénticas en todos los despliegues del mundo real. El equipo de OCI Responsible AI está mejorando continuamente estos modelos.

Nuestras capacidades de moderación de contenido se han evaluado en comparación con RTPLX, uno de los mayores conjuntos de datos de evaluación comparativa multilingüe disponibles públicamente y que abarca más de 38 idiomas. Sin embargo, estos resultados deben interpretarse con la precaución adecuada, ya que el contenido es generado por AI y puede contener errores u omisiones. Las evaluaciones multilingües están inherentemente limitadas por el alcance, la representatividad y las prácticas de anotación de los conjuntos de datos públicos, y el rendimiento observado en RTPLX puede no generalizarse completamente a todos los contextos, dominios, dialectos o patrones de uso del mundo real. En consecuencia, los resultados están destinados únicamente a fines informativos y no deben considerarse asesoramiento profesional.

Modelos dados de baja y en desuso

Baja
Cuando se retira un modelo, ya no está disponible para su uso en el servicio de IA generativa.
Desuso
Cuando un modelo está en desuso, permanece disponible en el servicio de IA generativa, con una cantidad de tiempo definida que puede usarse antes de que se dé de baja.

Para obtener más información, consulte Retiring the Models.