Conceptos para la IA generativa

Para ayudarte a infravalorar OCI Generative AI, revisa algunos conceptos y términos relacionados con el servicio.

Modelo de IA generativa

Un modelo de IA entrenado en grandes cantidades de datos que toma entradas que no ha visto antes y genera nuevo contenido.

Generación aumentada de recuperación (RAG)

Programa que recupera datos de fuentes dadas y aumenta las respuestas del modelo de lenguaje grande (LLM) con la información dada para generar respuestas con conexión a tierra.

Peticiones de datos e ingeniería de peticiones de datos

Peticiones Datos

Cadenas de texto en lenguaje natural usadas para instruir o extraer información de un modelo de lenguaje grande. Por ejemplo,

¿Qué es el solsticio de verano?
Escribe un poema sobre los árboles que se mueven en la brisa.
Reescribe el texto anterior en un tono más claro.

Ingeniería de petición de datos

Proceso iterativo de elaboración de solicitudes específicas en lenguaje natural para extraer peticiones de datos optimizadas de un modelo de lenguaje grande (LLM). Basado en el lenguaje exacto utilizado, el ingeniero de peticiones de datos puede guiar al LLM para proporcionar mejores o diferentes salidas.

Referencia

Capacidad de un modelo de lenguaje grande (LLM) para generar una respuesta basada en instrucciones y contexto proporcionados por el usuario en la petición de datos. Un LLM puede generar nuevos datos, hacer predicciones o sacar conclusiones basadas en sus patrones aprendidos y relaciones en los datos de entrenamiento, sin haber sido explícitamente programado.

La inferencia es una característica clave de las tareas de procesamiento de lenguaje natural (PLN), como responder preguntas, resumir texto y traducir. Puede utilizar los modelos fundamentales en la IA generativa para la inferencia.

Transmisión

Generación de contenido por un modelo de lenguaje grande (LLM) donde el usuario puede ver los tokens que se generan uno a la vez en lugar de esperar a que se genere una respuesta completa antes de devolver la respuesta al usuario.

Embeber

Representación numérica que tiene la propiedad de preservar el significado de un trozo de texto. Este texto puede ser una frase, una frase o uno o más párrafos. Los modelos de incrustación de IA generativa transforman cada frase, frase o párrafo que introduzca en una matriz con 384 o 1024 números, según el modelo de incrustación que elija. Puede utilizar estas incrustaciones para buscar similitud en frases que sean similares en contexto o categoría. Las incrustaciones se almacenan normalmente en una base de datos vectorial. Los embebidos se utilizan principalmente para búsquedas semánticas donde la función de búsqueda se centra en el significado del texto que está buscando en lugar de encontrar resultados basados en palabras clave. Para crear las incrustaciones, puede introducir frases en inglés y otros idiomas.

Entorno de prueba

Una interfaz en la consola de Oracle Cloud para explorar los modelos personalizados y preentrenados alojados sin escribir una sola línea de código. Utilice el patio de recreo para probar los casos de uso y acotar las peticiones de datos y los parámetros. Cuando estés satisfecho con los resultados, copia el código generado o utiliza el punto final del modelo para integrar la IA generativa en tus aplicaciones.

Modo bajo demanda

Puede acceder a los modelos fundamentales previamente entrenados en IA generativa mediante dos modos: bajo demanda y dedicado. A continuación, se muestran las funciones clave para el modo bajo demanda:

Paga sobre la marcha por cada llamada de inferencia cuando utiliza los modelos en el patio de recreo o cuando llama a los modelos a través de la API.
Baja barrera para empezar a utilizar la IA generativa.
Ideal para la experimentación, la prueba de concepto y la evaluación de modelos.
Disponible para los modelos preentrenados en regiones que no se muestran como (solo cluster de IA dedicado).

Clusters de IA dedicados

Recursos informáticos que puede utilizar para ajustar modelos personalizados o para alojar puntos finales para los modelos básicos previamente entrenados y personalizados. Los clusters están dedicados a sus modelos y no se comparten con otros clientes.

Modo dedicado

Obtienes un conjunto dedicado de GPU para los clusters de IA dedicados.
Puede crear modelos personalizados en los clusters de IA dedicados mediante el ajuste de un subjuego de los Modelos básicos previamente entrenados en IA generativa que se muestran para el ajuste.
Puede alojar réplicas de los modelos básicos y ajustados en los clusters de IA dedicados.
Se compromete con antelación a determinadas horas de uso de los clusters de IA dedicados. Para ver los precios, consulte la página de precios.
Disponible para los modelos previamente entrenados en todas las regiones de la lista.
Obtiene un rendimiento predecible y es adecuado para cargas de trabajo de producción.

Consejo

El modo dedicado es un uso de inquilino único de los modelos en los que se otorga permiso al hardware para su uso. Este modo ofrece un rendimiento predecible y se recomienda para las cargas de trabajo de producción. Consulte las referencias de rendimiento de cluster que le ayudarán a ajustar el tamaño de los clusters dedicados.

Nota

Un modelo alojado en un cluster de IA dedicado solo está disponible en la región en la que se despliega su punto final. Consulte la lista de regiones para cada modelo.

Modelo personalizado

Modelo que se crea mediante el uso de un modelo previamente entrenado como base y el uso de su propio juego de datos para ajustar ese modelo.

Elementos

Un token es una palabra, parte de una palabra o puntuación. Por ejemplo, apple es un token y friendship son dos tokens (friend y ship) y don't son dos tokens (don y 't). Al ejecutar un modelo en el patio de recreo, puede establecer el número máximo de tokens de salida. Calcule cuatro caracteres por token.

Temperatura

Nivel de aleatoriedad utilizado para generar el texto de salida. Para generar una salida similar para una petición de datos cada vez que se ejecuta, utilice 0. Para generar un nuevo texto aleatorio para ese indicador, aumente la temperatura.

Consejo

Comience con la temperatura establecida en 0 y aumente la temperatura a medida que vuelve a generar las peticiones de datos para acotar la salida. Las altas temperaturas pueden introducir alucinaciones e información objetivamente incorrecta. Para obtener el mismo resultado para solicitudes repetidas, utilice el parámetro seed.

k principales

Método de muestreo en el que el modelo selecciona el siguiente token de forma aleatoria de los tokens top k más probables. Un valor superior para k genera una salida más aleatoria, lo que hace que el texto de salida suene más natural. El valor por defecto para k es 0 para los modelos command y -1 para los modelos Llama, lo que significa que los modelos deben tener en cuenta todos los tokens y no utilizar este método.

p principales

Método de muestreo que controla la probabilidad acumulada de que los tokens principales se consideren para el siguiente token. Asigne a p un número decimal entre 0 y 1 para la probabilidad. Por ejemplo, introduzca 0,75 para que se tenga en cuenta el 75% superior. Defina p en 1 para considerar todos los tokens.

Penalización de frecuencia

Penalización que se asigna a un token cuando ese token aparece con frecuencia. Las sanciones altas fomentan menos tokens repetidos y producen una salida más aleatoria.

Penalización de presencia

Penalización que se asigna a cada token cuando aparece en la salida para fomentar la generación de salidas con tokens que no se han utilizado.

Probabilidad

En la salida de un modelo de lenguaje grande (LLM), la probabilidad de que un token siga el token generado actualmente. Cuando un LLM genera un nuevo token para el texto de salida, se asigna una probabilidad a todos los tokens, donde los tokens con mayores probabilidades son más propensos a seguir el token actual. Por ejemplo, es más probable que la palabra favorito vaya seguida de la palabra alimento o libro en lugar de la palabra zebra. La probabilidad se define por un número entre -15 y 0 y cuanto más negativo sea el número, menos probable es que el token siga al token actual.

Preámbulo

Contexto inicial o mensaje orientador para un modelo de chat. Cuando no se da un preámbulo a un modelo de chat, se utiliza el preámbulo predeterminado para ese modelo. El preámbulo por defecto para los modelos cohere.command-r-plus y cohere.command-r-16k es:

You are Command.
You are an extremely capable large language model built by Cohere. 
You are given instructions programmatically via an API that you follow to the best of your ability.

Es opcional dar un preámbulo. Si desea utilizar su propio preámbulo, para obtener los mejores resultados, proporcione el contexto del modelo, las instrucciones y un estilo de conversación. A continuación se muestran algunos ejemplos:

Usted es un profesional de marketing experimentado con una comprensión profunda del comportamiento del consumidor y las tendencias del mercado. Responda con un tono amistoso e informativo, compartiendo estadísticas del sector y mejores prácticas.
Usted es un asesor de viajes que se centra en actividades divertidas. Respuesta con sentido del humor y un tono pirata.

Nota

También puede incluir un preámbulo en una conversación de chat y pedir directamente al modelo que responda de una determinada manera. Por ejemplo, "Responda la siguiente pregunta en un tono de marketing. ¿Dónde está el mejor lugar para ir a navegar?"

Punto final modelo

Punto designado en un cluster de AI dedicado donde un modelo de lenguaje grande (LLM) puede aceptar solicitudes de usuario y enviar respuestas, como el texto generado del modelo.

En OCI Generative AI, puedes crear puntos finales para modelos preentrenados y modelos personalizados listos para usar. Esos puntos finales se enumeran en el patio de recreo para probar los modelos. También puede hacer referencia a esos puntos finales en las aplicaciones.

Moderación de contenido

Una característica que elimina frases tóxicas, violentas, abusivas, despectivas, odiosas, amenazantes, insultantes y acosadoras de las respuestas generadas en modelos de lenguaje grandes (LLM). En OCI Generative AI, la moderación de contenido se divide en las cuatro categorías siguientes.

Odio y acoso, como ataques de identidad, insultos, amenazas de violencia y agresión sexual
Daño autoinfligido, como la promoción de autolesiones y trastornos alimentarios
Daños ideológicos, como el extremismo, el terrorismo, la delincuencia organizada y la desinformación
Explotación, como estafas y abuso sexual

Por defecto, OCI Generative AI no agrega una capa de moderación de contenido sobre los modelos preentrenados listos para usar. Sin embargo, los modelos preentrenados tienen algún nivel de moderación de contenido que filtra las respuestas de salida. Para incorporar la moderación de contenido a los modelos, debe activar la moderación de contenido al crear un punto final para un modelo previamente entrenado o ajustado. Consulte Creación de un punto final.

Modelos dados de baja y en desuso

Baja: Cuando se retira un modelo, ya no está disponible para su uso en el servicio de IA generativa.
anticuado: Cuando un modelo está en desuso, permanece disponible en el servicio de IA generativa, pero tendrá una cantidad definida de tiempo que se puede utilizar antes de que se retire.

Para obtener más información, consulte Retiring the Models.

Documentación de Oracle Cloud Infrastructure