Pagando por inferência sob demanda

Você obtém os seguintes benefícios ao se comprometer com a inferência on-demand na OCI Generative AI:

Baixa barreira para começar a usar IA generativa.
Acesso a todos os modelos de base de IA generativa disponíveis.
Ótimo para experimentar e avaliar os modelos.
Pay as you go para transações. Consulte a nota a seguir para obter detalhes.

Observação

Com a inferência sob demanda, você paga conforme usa os seguintes tamanhos de caracteres:

Chat: tamanho do prompt (em caracteres) + tamanho da resposta (em caracteres)
Incorporações de Texto: tamanho da entrada (em caracteres)

Na página Preços, o 1 character é calculado como 1 transaction.

Se você estiver hospedando modelos básicos ou ajustando-os em clusters de IA dedicados, será cobrado pela hora da unidade em vez de pela transação. Nesse caso, consulte Pagando por Clusters de IA Dedicados para saber como calcular os custos do cluster de IA dedicado.

Modelos Correspondentes a Preços Sob Demanda

A página de preços lista o preço de 10.000 transações sob demanda ou 1.000.000 tokens ao usar o playground, a API ou a CLI para inferência.

Vá para a página modelos pré-treinados e selecione o modelo com o qual deseja trabalhar. Na seção Modo sob Demanda, localize as Informações da Página de Preços para o modelo. Em seguida, revise os exemplos nesta seção para saber como calcular o custo com base no número de caracteres de entrada e saída.

Exemplo de bate-papo

Paul chama o modelo meta.llama-3.3-70b-instruct com o seguinte prompt, que é 220 characters longo:

Gere uma apresentação do produto para um microfone compacto conectado USB que possa gravar som surround. O microfone é mais útil na gravação de músicas ou conversas. O microfone também pode ser útil para gravar podcasts.

A resposta do modelo é 2,205 characters longa. Paulo quer saber o custo desta chamada. Aqui estão as etapas para calcular o custo.

Calcule o comprimento de prompt + resposta (em caracteres).
Vamos adicionar o tamanho do prompt (220 caracteres) e o tamanho da resposta do modelo (2.205 caracteres).
```
                                    prompt + response length = 220 + 2,205 = 2,425 characters
```

Calcule o número de transações.

Os preços são listados para 10.000 transações.

10,000 transactions = 10,000 characters, so 1 transaction = 1 character
2,425 characters = 2,425 transactions

Vá para Preços de IA e em OCI Generative AI, para Oracle Cloud Infrastructure Generative AI - Large Meta, encontre o <Large-Meta-unit-price> .
Paul usa o modelo meta.llama-3.3-70b-instruct que corresponde ao produto, Generative AI OCI - Large Meta na página Preços de IA para IA generativa.

Calcule o preço de 1.838 caracteres.

price = (2,425 transactions )/ (10,000 transactions) x $<Large-Meta-unit-price>

Dica

Além de calcular o preço, você pode estimar o custo selecionando a categoria IA e Machine Learning e carregando o estimador de custos para a OCI Generative AI.

Exemplo de Incorporações de Texto

A Gina está convertendo contratos de clientes em incorporações para um novo aplicativo de pesquisa semântica. Em média, Gina ingere 16 documentos a cada hora. Cada documento tem aproximadamente 1,000 characters de comprimento. Gina quer obter uma estimativa da conta mensal para gerar essas incorporações. Aqui estão as etapas para calcular o custo.

Calcule o comprimento de entrada (em caracteres).

Vamos adicionar a duração do caractere de entrada para cada hora.


                                    input character length for 16 documents = 16 x 1,000 = 16,000 characters per hour

Vá para Preços de IA e em OCI Generative AI, para Oracle Cloud Infrastructure Generative AI - Embed Cohere, encontre o <Embed-Cohere-unit-price>.
A Gina usa o modelo cohere.embed-v4.0 que corresponde ao produto, Oracle Cloud Infrastructure Generative AI - Embed Cohere na página Preços de IA para IA generativa.
Calcule o número de transações por hora.
Gina ingere 16.000 caracteres por hora. Os preços são listados para 10.000 transações.
```
10,000 transactions = 10,000 characters, so 1 transaction = 1 character
16,000 characters = 16,000 transactions
```

Encontre o preço por hora dos 16.000 caracteres que a Gina ingere por hora.

hourly price = 
(16,000 transactions ) / (10,000 transactions) x $<Embed-Cohere-unit-price>

Encontre o preço mensal para o mês mais longo do ano.

One month = 31 x 24 hours = 744 hours
monthly price = 744 hours x hourly price

Documentação do Oracle Cloud Infrastructure

Pagando por inferência sob demanda

Modelos Correspondentes a Preços Sob Demanda

Exemplo de bate-papo

Exemplo de Incorporações de Texto