Conceitos para IA Generativa

Para ajudar você a entender a OCI Generative AI, revise alguns conceitos e termos relacionados ao serviço.

Modelo do Generative AI

Um modelo de IA treinado em grandes quantidades de dados que leva entradas que ele não viu antes e gera novo conteúdo.

Geração aumentada de recuperação (RAG)

Um programa que recupera dados de fontes específicas e aumenta as respostas de grandes modelos de linguagem (LLM) com as informações específicas para gerar respostas fundamentadas.

Prompts e Engenharia Imediata

Prompts
Strings de texto em linguagem natural usadas para instruir ou extrair informações de um modelo grande de linguagem. Por exemplo,
  • Qual é o solstício de verão?
  • Escreva um poema sobre árvores balançando na brisa.
  • Reescreva o texto anterior em um tom mais leve.
Engenharia Imediata
O processo iterativo de criar solicitações específicas em linguagem natural para extrair prompts otimizados de um grande modelo de linguagem (LLM). Com base no idioma exato usado, o engenheiro de prompt pode orientar o LLM para fornecer saídas melhores ou diferentes.

Inferência

A capacidade de um grande modelo de linguagem (LLM) para gerar uma resposta com base nas instruções e no contexto fornecido pelo usuário no prompt. Um LLM pode gerar novos dados, fazer previsões ou tirar conclusões com base em seus padrões e relacionamentos aprendidos nos dados de treinamento, sem ter sido explicitamente programado.

A inferência é um recurso-chave das tarefas de processamento de linguagem natural (NLP), como resposta a perguntas, resumo de texto e tradução. Você pode usar os modelos básicos no serviço Generative AI para inferência.

Streaming

Geração de conteúdo por um grande modelo de linguagem (LLM) em que o usuário pode ver os tokens sendo gerados um de cada vez, em vez de aguardar a geração de uma resposta completa antes de retornar a resposta ao usuário.

Incorporação

Representação numérica que tem a propriedade de preservar o significado de um pedaço de texto. Esse texto pode ser uma frase, uma sentença ou um ou mais parágrafos. Os modelos de incorporação de IA generativa transformam cada frase, sentença ou parágrafo inserido em uma matriz com números 384 ou 1024, dependendo do modelo de incorporação selecionado. Você pode usar essas incorporações para localizar similaridade em frases semelhantes no contexto ou na categoria. As incorporações são normalmente armazenadas em um banco de dados vetorial. As incorporações são usadas principalmente para pesquisas semânticas em que a função de pesquisa se concentra no significado do texto que está pesquisando, em vez de encontrar resultados com base em palavras-chave. Para criar as incorporações, você pode inserir frases em inglês e outros idiomas.

Playground

Uma interface na Console do Oracle Cloud para explorar os modelos pré-treinados e personalizados hospedados sem gravar uma única linha de código. Use o playground para testar seus casos de uso e refinar prompts e parâmetros. Quando estiver satisfeito com os resultados, copie o código gerado ou use o ponto final do modelo para integrar a IA Generativa às suas aplicações.

Modo sob Demanda

Você pode alcançar os modelos básicos pré-treinados no serviço Generative AI por meio de dois modos: sob demanda e dedicado. Veja a seguir os principais recursos do modo sob demanda:
  • Você paga conforme usa para cada chamada de inferência quando usa os modelos no playground ou quando chama os modelos por meio da API.

  • Baixa barreira para começar a usar IA generativa.
  • Ótimo para experimentação, prova de conceito e avaliação de modelo.
  • Disponível para os modelos pré-treinados em regiões não listadas como (somente cluster de IA dedicado).

Clusters de IA Dedicados

Recursos de computação que você pode usar para ajustar modelos personalizados ou para hospedar pontos finais para os modelos básicos pré-treinados e personalizados. Os clusters são dedicados aos seus modelos e não compartilhados com outros clientes.

Modo Dedicado

Você pode alcançar os modelos básicos pré-treinados no serviço Generative AI por meio de dois modos: sob demanda e dedicado. Veja a seguir os principais recursos do modo dedicado:

  • Você obtém um conjunto dedicado de GPUs para os clusters de IA dedicados.
  • Você pode criar modelos personalizados nos clusters de IA dedicados, ajustando um subconjunto dos Modelos Básicos Pré-treinados Oferecidos no Serviço Generative AI listados para ajuste fino.
  • Você pode hospedar réplicas dos modelos básicos e ajustados nos clusters de IA dedicados.
  • Você se compromete com antecedência a determinadas horas de uso dos clusters de IA dedicados. Para preços, consulte a página de preços.
  • Disponível para os modelos pré-treinados em todas as regiões listadas.
  • Você obtém desempenho previsível e é adequado para cargas de trabalho de produção.
Dica

O modo dedicado é um uso de locatário único dos modelos em que você aluga o hardware para o uso. Esse modo oferece desempenho previsível e é recomendado para cargas de trabalho de produção. Consulte os benchmarks de desempenho do cluster para ajudar você a dimensionar à direita os clusters dedicados.

Observação

Um modelo hospedado em um cluster de IA dedicado só está disponível na região em que seu ponto final é implantado. Consulte regiões disponíveis para cada modelo.

Modelo Personalizado

Um modelo que você cria usando um modelo previamente treinado como base e usando seu próprio conjunto de informações para ajustar esse modelo.

Tokens

Um token é uma palavra, parte de uma palavra ou uma pontuação. Por exemplo, apple é um token e friendship é dois tokens (friend e ship), e don't é dois tokens (don e 't). Quando você executa um modelo no playground, pode definir o número máximo de tokens de saída. Estime quatro caracteres por token.

Temperatura

O nível de aleatoriedade usado para gerar o texto de saída. Para gerar uma saída semelhante para um prompt toda vez que você executar o prompt, use 0. Para gerar um novo texto aleatório para esse prompt, aumente a temperatura.

Dica

Comece com a temperatura definida como 0 e aumente a temperatura conforme você gera novamente os prompts para refinar a saída. As altas temperaturas podem introduzir alucinações e informações factualmente incorretas. Para tentar obter o mesmo resultado para solicitações repetidas, use o parâmetro seed.

Top k

Um método de amostragem no qual o modelo escolhe o próximo token aleatoriamente dos tokens mais prováveis do top k. Um valor mais alto para k gera uma saída mais aleatória, o que torna o texto de saída mais natural. O valor padrão para k é 0 para os modelos command e -1 para os modelos Llama, o que significa que os modelos devem considerar todos os tokens e não usar esse método.

Top p

Um método de amostragem que controla a probabilidade cumulativa dos principais tokens a serem considerados para o próximo token. Atribua a p um número decimal entre 0 e 1 para a probabilidade. Por exemplo, insira 0,75 para os 75% principais a serem considerados. Defina p como 1 para considerar todos os tokens.

Penalidade de Frequência

Uma penalidade designada a um token quando esse token aparece com frequência. Altas penalidades incentivam menos tokens repetidos e produzem uma saída mais aleatória.

Penalidade de Presença

Uma penalidade atribuída a cada token quando ele aparece na saída para incentivar a geração de saídas com tokens que não foram usados.

Probabilidade

Na saída de um grande modelo de linguagem (LLM), a probabilidade de um token seguir o token gerado atual. Quando um LLM gera um novo token para o texto de saída, uma probabilidade é designada a todos os tokens, nos quais os tokens com maiores probabilidades têm mais probabilidade de seguir o token atual. Por exemplo, é mais provável que a palavra favorito seja seguida pela palavra alimento ou livro em vez da palavra zebra. A probabilidade é definida por um número entre -15 e 0 e quanto mais negativo o número, menos provável é que o token siga o token atual.

Preâmbulo

Um contexto inicial ou mensagem de orientação para uma modelo de chat. Quando você não dá um preâmbulo a uma modelo de bate-papo, o preâmbulo padrão para essa modelo é usado. O preâmbulo padrão para os modelos cohere.command-r-plus e cohere.command-r-16k é:

You are Command.
You are an extremely capable large language model built by Cohere. 
You are given instructions programmatically via an API that you follow to the best of your ability.

É opcional dar um preâmbulo. Se quiser usar seu próprio preâmbulo, para obter melhores resultados, dê ao modelo o contexto, as instruções e um estilo de conversa. Seguem alguns exemplos:

  • Você é um profissional de marketing experiente com uma compreensão profunda do comportamento do consumidor e das tendências do mercado. Responda com um tom amigável e informativo, compartilhando insights do setor e melhores práticas.
  • Você é um consultor de viagens que se concentra em atividades divertidas. Responda com senso de humor e um tom de pirata.
Observação

Você também pode incluir um preâmbulo em uma conversa de bate-papo e solicitar diretamente que o modelo responda de uma determinada maneira. Por exemplo, "Responda à seguinte pergunta em um tom de marketing. Onde está o melhor lugar para navegar?"

Ponto Final do Modelo

Um ponto designado em um cluster de IA dedicado no qual um grande modelo de linguagem (LLM) pode aceitar solicitações do usuário e enviar respostas de volta, como o texto gerado pelo modelo.

Na OCI Generative AI, você pode criar pontos finais para modelos pré-treinados e modelos personalizados prontos para uso. Esses endpoints são listados no playground para testar os modelos. Você também pode fazer referência a esses pontos finais nos aplicativos.

Guardrails de proteção

Os guardrails são controles configuráveis de segurança e conformidade que ajudam a gerenciar o que o modelo pode aceitar e produzir e, no serviço OCI Generative AI, incluem três proteções: moderação de conteúdo, defesa contra injeção imediata e manuseio de informações de identificação pessoal (PII).

Moderação de conteúdo

Os guardrails de moderação de conteúdo ajudam a garantir que as entradas e saídas do modelo estejam em conformidade com as políticas de uso da sua organização, detectando e manipulando conteúdo não permitido ou sensível. Isso normalmente inclui categorias como ódio ou assédio, conteúdo sexual, violência, autoagressão e outros materiais restritos a políticas. Quando acionados, os guardrails de moderação podem bloquear, ocultar ou avisar e podem rotear a solicitação de revisão, dependendo da sua configuração, ajudando a reduzir o risco de respostas prejudiciais, inseguras ou não compatíveis nas experiências do usuário final.

Injeção de prompt

Os guardrails de injeção de prompt são projetados para proteger o modelo contra instruções maliciosas ou não incorporadas em prompts do usuário ou conteúdo recuperado (por exemplo, "ignorar instruções anteriores", "revelar prompts do sistema" ou "exfiltrar segredos"). Esses guardrails procuram padrões que tentam substituir o comportamento do sistema, acessar instruções ocultas ou manipular o uso de ferramentas e o acesso a dados. Quando detectado, o sistema pode recusar a solicitação, excluir as instruções injetadas ou restringir o modelo a seguir apenas diretivas confiáveis, ajudando a manter o alinhamento com a tarefa, as políticas e os controles de acesso pretendidos.

Informações Pessoais Identificáveis (PII)

Os guardrails de PII ajudam a evitar que dados pessoais confidenciais sejam coletados, exibidos ou armazenados de forma inadequada, detectando identificadores como nomes combinados com detalhes de contato, endereços, IDs emitidos pelo governo, números de contas financeiras e outros elementos de dados que podem identificar um indivíduo. Dependendo da configuração, os guardrails de PII podem mascarar ou ocultar dados detectados, bloquear respostas que os incluem e solicitar aos usuários que removam ou minimizem os detalhes pessoais. Isso suporta práticas de privacidade por design e ajuda a reduzir o risco de exposição e problemas de conformidade ao lidar com informações do usuário ou do cliente.

Por padrão, a OCI Generative AI não adiciona uma camada de guardrail aos modelos pré-treinados prontos para uso. No entanto, os modelos pré-treinados têm algum nível de moderação de conteúdo que filtra as respostas de saída. Para incorporar guardrails em modelos, você deve ativar a moderação de conteúdo ao criar um ponto final para um modelo pré-treinado ou ajustado.

Importante

Isenção de Responsabilidade

Nossos guardrails de Moderação de Conteúdo (CM) e Injeção de Prompt (PI) foram avaliados em uma variedade de conjuntos de dados de benchmark multilíngues. No entanto, o desempenho real pode variar dependendo dos idiomas, domínios, distribuições de dados e padrões de uso específicos presentes nos dados fornecidos pelo cliente à medida que o conteúdo é gerado pelo AI e pode conter erros ou omissões. Portanto, ele se destina apenas a fins informativos, não deve ser considerado aconselhamento profissional e a OCI não garante que características de desempenho idênticas sejam observadas em todas as implementações do mundo real. A equipe de IA responsável da OCI está melhorando continuamente esses modelos.

Nossos recursos de moderação de conteúdo foram avaliados em relação ao RTPLX, um dos maiores conjuntos de dados de benchmarking multilíngues disponíveis publicamente, que abrange mais de 38 idiomas. No entanto, esses resultados devem ser interpretados com a devida cautela, pois o conteúdo é gerado pela IA e pode conter erros ou omissões. As avaliações multilíngues são inerentemente limitadas pelo escopo, representatividade e práticas de anotação de conjuntos de dados públicos, e o desempenho observado no RTPLX pode não ser totalmente generalizado para todos os contextos, domínios, dialetos ou padrões de uso do mundo real. Assim, os resultados destinam-se a ser apenas para fins informativos e não devem ser considerados aconselhamento profissional.

Modelos Retidos e Obsoletos

Baixa
Quando um modelo é desativado, ele não fica mais disponível para uso no serviço Generative AI.
Redução contábil
Quando um modelo é descontinuado, ele permanece disponível no serviço Generative AI, com um período definido de tempo que pode ser usado antes de ser descontinuado.

Para obter mais informações, consulte Retirando os Modelos.