Conceptos para la IA generativa
Para ayudarte a infravalorar OCI Generative AI, revisa algunos conceptos y términos relacionados con el servicio.
Modelo de IA generativa
Un modelo de IA entrenado en grandes cantidades de datos que toma entradas que no ha visto antes y genera nuevo contenido.
Generación aumentada de recuperación (RAG)
Programa que recupera datos de fuentes dadas y aumenta las respuestas del modelo de lenguaje grande (LLM) con la información dada para generar respuestas con conexión a tierra.
Peticiones de datos e ingeniería de peticiones de datos
- Peticiones Datos
- Cadenas de texto en lenguaje natural usadas para instruir o extraer información de un modelo de lenguaje grande. Por ejemplo,
- ¿Qué es el solsticio de verano?
- Escribe un poema sobre los árboles que se mueven en la brisa.
- Reescribe el texto anterior en un tono más claro.
- Ingeniería de petición de datos
- Proceso iterativo de elaboración de solicitudes específicas en lenguaje natural para extraer peticiones de datos optimizadas de un modelo de lenguaje grande (LLM). Basado en el lenguaje exacto utilizado, el ingeniero de peticiones de datos puede guiar al LLM para proporcionar mejores o diferentes salidas.
Referencia
Capacidad de un modelo de lenguaje grande (LLM) para generar una respuesta basada en instrucciones y contexto proporcionados por el usuario en la petición de datos. Un LLM puede generar nuevos datos, hacer predicciones o sacar conclusiones basadas en sus patrones aprendidos y relaciones en los datos de entrenamiento, sin haber sido explícitamente programado.
La inferencia es una característica clave de las tareas de procesamiento de lenguaje natural (PLN), como responder preguntas, resumir texto y traducir. Puede utilizar los modelos fundamentales en la IA generativa para la inferencia.
Transmisión
Generación de contenido por un modelo de lenguaje grande (LLM) donde el usuario puede ver los tokens que se generan uno a la vez en lugar de esperar a que se genere una respuesta completa antes de devolver la respuesta al usuario.
Embeber
Representación numérica que tiene la propiedad de preservar el significado de un trozo de texto. Este texto puede ser una frase, una frase o uno o más párrafos. Los modelos de incrustación de IA generativa transforman cada frase, frase o párrafo que introduzca en una matriz con 384 o 1024 números, según el modelo de incrustación que elija. Puede utilizar estas incrustaciones para buscar similitud en frases que sean similares en contexto o categoría. Las incrustaciones se almacenan normalmente en una base de datos vectorial. Los embebidos se utilizan principalmente para búsquedas semánticas donde la función de búsqueda se centra en el significado del texto que está buscando en lugar de encontrar resultados basados en palabras clave. Para crear las incrustaciones, puede introducir frases en inglés y otros idiomas.
Entorno de prueba
Una interfaz en la consola de Oracle Cloud para explorar los modelos personalizados y preentrenados alojados sin escribir una sola línea de código. Utilice el patio de recreo para probar los casos de uso y acotar las peticiones de datos y los parámetros. Cuando estés satisfecho con los resultados, copia el código generado o utiliza el punto final del modelo para integrar la IA generativa en tus aplicaciones.
Modelo personalizado
Modelo que se crea mediante el uso de un modelo previamente entrenado como base y el uso de su propio juego de datos para ajustar ese modelo.
Elementos
Un token es una palabra, parte de una palabra o puntuación. Por ejemplo, apple es un token y friendship son dos tokens (friend y ship) y don't son dos tokens (don y 't). Al ejecutar un modelo en el patio de recreo, puede establecer el número máximo de tokens de salida. Calcule cuatro caracteres por token.
Temperatura
Nivel de aleatoriedad utilizado para generar el texto de salida. Para generar una salida similar para una petición de datos cada vez que se ejecuta, utilice 0. Para generar un nuevo texto aleatorio para ese indicador, aumente la temperatura.
Comience con la temperatura establecida en 0 y aumente la temperatura a medida que vuelve a generar las peticiones de datos para acotar la salida. Las altas temperaturas pueden introducir alucinaciones e información objetivamente incorrecta. Para obtener el mismo resultado para solicitudes repetidas, utilice el parámetro
seed
.k principales
Método de muestreo en el que el modelo selecciona el siguiente token de forma aleatoria de los tokens top k
más probables. Un valor superior para k
genera una salida más aleatoria, lo que hace que el texto de salida suene más natural. El valor por defecto para k es 0 para los modelos command
y -1 para los modelos Llama
, lo que significa que los modelos deben tener en cuenta todos los tokens y no utilizar este método.
p principales
Método de muestreo que controla la probabilidad acumulada de que los tokens principales se consideren para el siguiente token. Asigne a p
un número decimal entre 0 y 1 para la probabilidad. Por ejemplo, introduzca 0,75 para que se tenga en cuenta el 75% superior. Defina p
en 1 para considerar todos los tokens.
Penalización de frecuencia
Penalización que se asigna a un token cuando ese token aparece con frecuencia. Las sanciones altas fomentan menos tokens repetidos y producen una salida más aleatoria.
Penalización de presencia
Penalización que se asigna a cada token cuando aparece en la salida para fomentar la generación de salidas con tokens que no se han utilizado.
Probabilidad
En la salida de un modelo de lenguaje grande (LLM), la probabilidad de que un token siga el token generado actualmente. Cuando un LLM genera un nuevo token para el texto de salida, se asigna una probabilidad a todos los tokens, donde los tokens con mayores probabilidades son más propensos a seguir el token actual. Por ejemplo, es más probable que la palabra favorito vaya seguida de la palabra alimento o libro en lugar de la palabra zebra. La probabilidad se define por un número entre -15
y 0
y cuanto más negativo sea el número, menos probable es que el token siga al token actual.
Preámbulo
Contexto inicial o mensaje orientador para un modelo de chat. Cuando no se da un preámbulo a un modelo de chat, se utiliza el preámbulo predeterminado para ese modelo. El preámbulo por defecto para los modelos cohere.command-r-plus
y cohere.command-r-16k
es:
You are Command.
You are an extremely capable large language model built by Cohere.
You are given instructions programmatically via an API that you follow to the best of your ability.
Es opcional dar un preámbulo. Si desea utilizar su propio preámbulo, para obtener los mejores resultados, proporcione el contexto del modelo, las instrucciones y un estilo de conversación. A continuación se muestran algunos ejemplos:
- Usted es un profesional de marketing experimentado con una comprensión profunda del comportamiento del consumidor y las tendencias del mercado. Responda con un tono amistoso e informativo, compartiendo estadísticas del sector y mejores prácticas.
- Usted es un asesor de viajes que se centra en actividades divertidas. Respuesta con sentido del humor y un tono pirata.
También puede incluir un preámbulo en una conversación de chat y pedir directamente al modelo que responda de una determinada manera. Por ejemplo, "Responda la siguiente pregunta en un tono de marketing. ¿Dónde está el mejor lugar para ir a navegar?"
Punto final modelo
Punto designado en un cluster de AI dedicado donde un modelo de lenguaje grande (LLM) puede aceptar solicitudes de usuario y enviar respuestas, como el texto generado del modelo.
En OCI Generative AI, puedes crear puntos finales para modelos preentrenados y modelos personalizados listos para usar. Esos puntos finales se enumeran en el patio de recreo para probar los modelos. También puede hacer referencia a esos puntos finales en las aplicaciones.
Moderación de contenido
- Odio y acoso, como ataques de identidad, insultos, amenazas de violencia y agresión sexual
- Daño autoinfligido, como la promoción de autolesiones y trastornos alimentarios
- Daños ideológicos, como el extremismo, el terrorismo, la delincuencia organizada y la desinformación
- Explotación, como estafas y abuso sexual
Por defecto, OCI Generative AI no agrega una capa de moderación de contenido sobre los modelos preentrenados listos para usar. Sin embargo, los modelos preentrenados tienen algún nivel de moderación de contenido que filtra las respuestas de salida. Para incorporar la moderación de contenido en los modelos, debe activar la moderación de contenido al crear un punto final para un modelo preentrenado o ajustado. Consulte Creating an Endpoint in Generative AI.
Clusters de IA dedicados
Recursos informáticos que puede utilizar para ajustar modelos personalizados o para alojar puntos finales para modelos personalizados y previamente entrenados. Los clusters están dedicados a sus modelos y no se comparten con otros clientes.
Modelos dados de baja y en desuso
- Baja
- Cuando se retira un modelo, ya no está disponible para su uso en el servicio de IA generativa.
- anticuado
- Cuando un modelo está en desuso, permanece disponible en el servicio de IA generativa, pero tendrá una cantidad definida de tiempo que se puede utilizar antes de que se retire.
Para obtener más información, consulte Retiring the Models.