Conceitos para IA Generativa
Para ajudar você a entender a OCI Generative AI, revise alguns conceitos e termos relacionados ao serviço.
Modelo do Generative AI
Um modelo de IA treinado em grandes quantidades de dados que leva entradas que ele não viu antes e gera novo conteúdo.
Geração Aumentada de Recuperação (RAG)
Um programa que recupera dados de determinadas origens e aumenta as respostas do modelo de linguagem grande (LLM) com as informações fornecidas para gerar respostas fundamentadas.
Prompts e Engenharia Imediata
- Prompts
- Strings de texto em linguagem natural usadas para instruir ou extrair informações de um grande modelo de linguagem. Por exemplo,
- Qual é o solstício de verão?
- Escreva um poema sobre árvores balançando na brisa.
- Reescreva o texto anterior em um tom mais leve.
- Engenharia Imediata
- O processo iterativo de criar solicitações específicas em linguagem natural para extrair prompts otimizados de um grande modelo de linguagem (LLM). Com base no idioma exato usado, o engenheiro imediato pode orientar o LLM para fornecer saídas melhores ou diferentes.
Referência
A capacidade de um modelo de linguagem grande (LLM) gerar uma resposta com base nas instruções e no contexto fornecidos pelo usuário no prompt. Um LLM pode gerar novos dados, fazer previsões ou tirar conclusões com base em seus padrões aprendidos e relacionamentos nos dados de treinamento, sem ter sido explicitamente programado.
A inferência é uma característica fundamental das tarefas de processamento de linguagem natural (NLP), como resposta a perguntas, resumo de texto e tradução. Você pode usar os modelos básicos no serviço Generative AI para inferência.
Fluxo
Geração de conteúdo por um modelo de linguagem grande (LLM), em que o usuário pode ver os tokens sendo gerados um de cada vez, em vez de esperar que uma resposta completa seja gerada antes de retornar a resposta ao usuário.
Incorporação
Uma representação numérica que tem a propriedade de preservar o significado de um pedaço de texto. Esse texto pode ser uma frase, uma sentença ou um ou mais parágrafos. Os modelos de incorporação de IA generativa transformam cada frase, frase ou parágrafo inserido em uma matriz com números 384 ou 1024, dependendo do modelo de incorporação escolhido. Você pode usar essas incorporações para encontrar similaridade em frases semelhantes no contexto ou na categoria. Normalmente, as incorporações são armazenadas em um banco de dados vetorial. As incorporações são usadas principalmente para pesquisas semânticas em que a função de pesquisa se concentra no significado do texto que está pesquisando, em vez de encontrar resultados com base em palavras-chave. Para criar as incorporações, você pode inserir frases em inglês e outros idiomas.
Playground
Uma interface na Console do Oracle Cloud para explorar os modelos hospedados pré-treinados e personalizados sem gravar uma única linha de código. Use o playground para testar seus casos de uso e refinar prompts e parâmetros. Quando estiver satisfeito com os resultados, copie o código gerado ou use o ponto final do modelo para integrar a IA Generativa aos seus aplicativos.
Modo sob Demanda
-
Você paga conforme usa para cada chamada de inferência quando usa os modelos no playground ou quando chama os modelos por meio da API.
- Baixa barreira para começar a usar IA generativa.
- Ótimo para experimentar, comprovar conceitos e avaliar os modelos.
- Disponível para os modelos pré-treinados em regiões não listadas como (somente cluster de IA dedicado).
Para garantir acesso confiável aos modelos de IA generativa no modo sob demanda, recomendamos implementar uma estratégia de back-off, que envolve atrasar as solicitações após uma rejeição. Sem um, as solicitações rápidas repetidas podem levar a novas rejeições ao longo do tempo, maior latência e possível bloqueio temporário do cliente pelo serviço de IA generativa. Ao usar uma estratégia de back-off, como uma estratégia de back-off exponencial, você pode distribuir solicitações de forma mais uniforme, reduzir a carga e melhorar o sucesso de novas tentativas, seguindo as melhores práticas do setor e aprimorando a estabilidade e o desempenho gerais de sua integração ao serviço.
Clusters de IA Dedicados
Recursos de computação que você pode usar para ajustar modelos personalizados ou para hospedar pontos finais para os modelos básicos pré-treinados e personalizados. Os clusters são dedicados aos seus modelos e não compartilhados com outros clientes.
Modo Dedicado
Você pode alcançar os modelos básicos pré-treinados no serviço Generative AI por meio de dois modos: sob demanda e dedicado. Veja a seguir os principais recursos do modo dedicado:
- Você obtém um conjunto dedicado de GPUs para os clusters de IA dedicados.
- Você pode criar modelos personalizados nos clusters de IA dedicados, ajustando um subconjunto dos Modelos Básicos Pré-treinados no Serviço Generative AI listados para ajuste fino.
- Você pode hospedar réplicas dos modelos básicos e ajustados nos clusters de IA dedicados.
- Você se compromete com antecedência a determinadas horas de uso dos clusters de IA dedicados. Para preços, consulte a página de preços.
- Disponível para os modelos pré-treinados em todas as regiões listadas.
- Você obtém desempenho previsível e é adequado para cargas de trabalho de produção.
O modo dedicado é um uso de locatário único dos modelos em que você aluga o hardware para seu uso. Esse modo oferece desempenho previsível e é recomendado para cargas de trabalho de produção. Consulte os benchmarks de desempenho do cluster para ajudar você a dimensionar corretamente seus clusters dedicados.
Um modelo hospedado em um cluster de IA dedicado só está disponível na região em que seu ponto final é implantado. Consulte a lista de regiões para cada modelo.
Modelo Personalizado
Um modelo que você cria usando um modelo pré-treinado como base e usando seu próprio conjunto de dados para ajustar esse modelo.
Tokens
Um token é uma palavra, parte de uma palavra ou uma pontuação. Por exemplo, apple é um token e friendship é dois tokens (friend e ship) e don't é dois tokens (don e t). Quando você executa um modelo no playground, pode definir o número máximo de tokens de saída. Estime quatro caracteres por token.
Temperatura
O nível de aleatoriedade usado para gerar o texto de saída. Para gerar uma saída semelhante para um prompt toda vez que você executar esse prompt, use 0. Para gerar um novo texto aleatório para esse prompt, aumente a temperatura.
Comece com a temperatura definida como 0 e aumente a temperatura conforme você gera novamente os prompts para refinar a saída. As altas temperaturas podem introduzir alucinações e informações factualmente incorretas. Para tentar obter o mesmo resultado para solicitações repetidas, use o parâmetro
seed
.Top k
Um método de amostragem no qual o modelo escolhe o próximo token aleatoriamente dos tokens mais prováveis top k
. Um valor mais alto para k
gera mais saída aleatória, o que torna o texto de saída mais natural. O valor padrão para k é 0 para modelos command
e -1 para modelos Llama
, o que significa que os modelos devem considerar todos os tokens e não usar esse método.
Top p
Um método de amostragem que controla a probabilidade cumulativa dos principais tokens a serem considerados para o próximo token. Atribua p
um número decimal entre 0 e 1 para a probabilidade. Por exemplo, insira 0,75 para os 75% principais a serem considerados. Defina p
como 1 para considerar todos os tokens.
Penalidade de Frequência
Uma penalidade que é atribuída a um token quando esse token aparece com frequência. Penalidades altas incentivam menos tokens repetidos e produzem uma saída mais aleatória.
Penalidade de Presença
Uma penalidade que é atribuída a cada token quando ele aparece na saída para incentivar a geração de saídas com tokens que não foram usados.
Probabilidade
Na saída de um grande modelo de linguagem (LLM), qual é a probabilidade de um token seguir o token gerado atual. Quando um LLM gera um novo token para o texto de saída, uma probabilidade é designada a todos os tokens, em que os tokens com maiores chances são mais propensos a seguir o token atual. Por exemplo, é mais provável que a palavra favorite seja seguida pela palavra food ou book, em vez da palavra zebra. A probabilidade é definida por um número entre -15
e 0
e quanto mais negativo for o número, menor será a probabilidade de o token seguir o token atual.
Preâmbulo
Um contexto inicial ou uma mensagem orientadora para um modelo de chat. Quando você não dá um preâmbulo a um modelo de bate-papo, o preâmbulo padrão para esse modelo é usado. O preâmbulo padrão para os modelos cohere.command-r-plus
e cohere.command-r-16k
é:
You are Command.
You are an extremely capable large language model built by Cohere.
You are given instructions programmatically via an API that you follow to the best of your ability.
É opcional dar um preâmbulo. Se quiser usar seu próprio preâmbulo, para obter melhores resultados, forneça o contexto do modelo, instruções e um estilo de conversa. Seguem alguns exemplos:
- Você é um profissional de marketing experiente com uma profunda compreensão do comportamento do consumidor e das tendências do mercado. Responda com um tom amigável e informativo, compartilhando insights do setor e melhores práticas.
- Você é um consultor de viagens que se concentra em atividades divertidas. Resposta com senso de humor e um tom de pirata.
Você também pode incluir um preâmbulo em uma conversa de bate-papo e pedir diretamente ao modelo para responder de determinada maneira. Por exemplo, "Responda a seguinte pergunta em um tom de marketing. Onde está o melhor lugar para navegar?"
Ponto Final do Modelo
Um ponto designado em um cluster de IA dedicado em que um modelo de linguagem grande (LLM) pode aceitar solicitações do usuário e enviar respostas de volta, como o texto gerado pelo modelo.
Na OCI Generative AI, você pode criar pontos finais para modelos pré-treinados e personalizados prontos para uso. Esses pontos finais são listados no playground para testar os modelos. Você também pode fazer referência a esses pontos finais em aplicativos.
Moderação de Conteúdo
- Ódio e assédio, como ataques de identidade, insultos, ameaças de violência e agressão sexual
- Danos auto-infligidos, como automutilação e promoção de transtornos alimentares
- Danos ideológicos, como extremismo, terrorismo, crime organizado e desinformação
- Exploração, como golpes e abuso sexual
Por padrão, a OCI Generative AI não adiciona uma camada de moderação de conteúdo sobre os modelos pré-treinados prontos para uso. No entanto, os modelos pré-treinados têm algum nível de moderação de conteúdo que filtram as respostas de saída. Para incorporar moderação de conteúdo em modelos, você deve ativar a moderação de conteúdo ao criar um ponto final para um modelo pré-treinado ou ajustado. Consulte Criando um Ponto Final no Serviço Generative AI.
Modelos Retirados e Obsoletos
- Aposentadoria
- Quando um modelo é descontinuado, ele não fica mais disponível para uso no serviço de IA generativa.
- Desatualização
- Quando um modelo é preterido, ele permanece disponível no serviço Generative AI, mas terá um tempo definido que poderá ser usado antes de ser descontinuado.
Para obter mais informações, consulte Retirando os Modelos.