Workflow para Modelos Personalizados

A criação de um modelo personalizado geralmente envolve cinco etapas.

  1. Preparando um Conjunto de Dados de Treinamento
  2. Como Treinar um Modelo
  3. Avaliando o Modelo
  4. Implantando o Modelo
  5. Analisando Texto
Observação

Depois de avaliar o modelo na etapa 3, repita as etapas de 1 a 3 até ter métricas satisfatórias e implante o modelo.

Preparando um Conjunto de Dados de Treinamento

Para treinar um modelo personalizado, forneça dados rotulados. Consulte Sobre o Serviço Data Labeling.

Por exemplo, para criar um modelo de classificação de texto, forneça ao modelo muitos exemplos de registros de texto e rotule-os com a classe à qual eles pertencem. O modelo aprende as características dos registros rotulados. Em seguida, o modelo treinado pode inferir a classe para novos registros.

Os dados de treinamento devem ser rotulados. Por exemplo, para criar um modelo de classificação de texto, forneça ao modelo exemplos representativos de registros de texto com um rótulo para cada registro. Esses exemplos permitem que o modelo aprenda e preveja exemplos que não são vistos por um modelo. Para rotular dados, recomendamos que você use a CLI do OCI para o serviço Data Labeling.

Recomendações de conjunto de dados para modelos personalizados

Siga as diretrizes na tabela a seguir para preparar conjuntos de dados de treinamento. Se você não tiver conjuntos de dados para validação e teste, 60% dos itens aleatórios serão usados para treinamento, 20% para validação e 20% para teste.

Se você não fornecer um conjunto de dados de validação ou teste, 20% aleatórios das amostras serão escolhidos pelo serviço.

Conjunto de Treinamento Conjunto de Validação Conjunto de Testes

Reconhecimento de Entidade Nomeada Personalizada

  • Mínimo — 10 instâncias por entidade.

  • Recomendado — 50 instâncias por entidade.

  • Mínimo — 5 instâncias por entidade ou 20% das instâncias de treinamento, o que for maior.

  • Recomendado — 20 instâncias por entidade.

  • Mínimo — 5 instâncias por entidade ou 20% das instâncias de treinamento, o que for maior.

  • Recomendado — 20 instâncias por entidade.

Classificação de Texto Personalizada

  • Mínimo - 10 documentos por classe.

  • Recomendado — 100 documentos por classe.

  • Recomendado — 20 documentos por classe.

  • Recomendado — 20 documentos por classe.

Dica

  • Identifique os exemplos de treinamento corretamente. A qualidade do modelo depende da qualidade dos dados. Ao treinar um modelo, se um tipo de classe ou entidade não funcionar conforme esperado, adicione mais exemplos para essa classe ou entidade. Certifique-se também de que a entidade seja anotada em cada ocorrência no conjunto de treinamento. Dados de treinamento de baixa qualidade resultam em métricas de treinamento ruins e geram resultados imprecisos.

  • Tenha amostras de treinamento suficientes para modelos. Mais dados são sempre melhores para aumentar o desempenho do modelo. Recomendamos que você treine o modelo com um pequeno conjunto de dados, revise as métricas de treinamento do modelo e adicione mais amostras de treinamento conforme necessário.

Treinamento de um Modelo

Treinamento é o processo em que o modelo aprende com os dados rotulados. A duração e os resultados do treinamento dependem do tamanho do conjunto de dados, do tamanho de cada registro e do número de jobs de treinamento ativos.

Avaliando o Modelo

Depois que um modelo é treinado, você pode obter métricas de avaliação que descrevem a qualidade do modelo ou a probabilidade de o modelo prever corretamente. O serviço aplica o modelo ao conjunto de testes e compara os rótulos previstos com os rótulos esperados. As métricas são baseadas na precisão com que o modelo prevê o conjunto de testes.

Usando a Console, você obtém um conjunto de métricas de avaliação no nível do modelo e no nível da classe (ou no nível da entidade para modelos NER) listados na seção a seguir.

Usando a Console, você obtém os seguintes tipos de métricas de avaliação:

  • Métricas no nível da classe
  • Métricas no nível do modelo
  • Métricas em nível de entidade para modelos NER
  • Matriz de confusão

Usando a API, você pode obter um conjunto mais completo de métricas, incluindo recuperação de precisão micro, macro e média ponderada e pontuações F-1.

Métricas de Classe

Métricas de classe são métricas de nível de entidade.

Precisão

A razão entre os verdadeiros positivos (os exemplos corretamente previstos) e todos os exemplos da classe específica.

Ele descreve quantos dos exemplos previstos estão previstos corretamente. O valor está entre 0 e 1. Valores maiores são melhores.

Rechamada

A razão entre os verdadeiros positivos (os exemplos corretamente previstos) e todos os exemplos previstos.

Ele descreve quantos exemplos corretos são previstos. O valor está entre 0 e 1. Valores maiores são melhores.

F1-Pontuação

A pontuação F1 é a média harmônica de precisão e recuperação, dando a você um único valor para avaliar o modelo. O valor está entre 0 e 1. Valores maiores são melhores.

Métricas de Modelo

Métricas de modelo são métricas de nível de modelo para modelos de várias classes. As métricas no nível do modelo descrevem a qualidade geral de um modelo. Os valores de precisão, recordação e F-1 são apresentados no nível macro, micro e média ponderada.

Médias de macro

Uma média macro é a média de valores métricos de todas as classes.

Por exemplo, a macroprecisão é calculada como a soma de todos os valores de precisão de classe dividida pelo número de classes.

Micro médias

Uma micro-média agrega as contribuições de todos os exemplos para calcular a métrica média.

Por exemplo, um micro recall é calculado como (soma de exemplos corretos previstos) / (soma de exemplos corretos previstos + soma de exemplos corretos não previstos).

Médias Ponderadas

Calculado considerando o número de instâncias de cada classe.

Por exemplo, uma pontuação ponderada de F1 é calculada como a soma de (F1-pontuação da classe * proporção de suporte da classe).

Precisão

Uma fração de todos os exemplos corretamente previstos e não previstos. A fração é calculada como a razão entre as classes corretamente previstas e não previstas (verdadeiro positivo + verdadeiro negativo) e todos os exemplos

Matriz de Confusão

Uma tabela para visualizar os resultados verdadeiros e de previsão de cada classe.

Implantando o Modelo

Depois que as métricas do modelo atenderem às expectativas, você poderá colocar o modelo em produção e usar o modelo para analisar o texto. Para colocar o modelo em produção, crie um ponto final. Um ponto final designa recursos de computação dedicados para inferência (executando análise de texto) em modelos personalizados.

Os pontos finais do modelo personalizado são privados e você deve especificar um compartimento para implantar o ponto final. Você pode criar mais de um ponto final para um modelo. Você pode criar ou excluir pontos finais sem excluir um modelo.

Analisando o Texto

Depois de criar um ponto final de modelo, você pode implantar o modelo e analisar o texto usando um modelo personalizado. Você pode implantar um modelo em um ponto final das seguintes maneiras:

  • Console
  • API REST
  • SDK (Python, Java, C#, JavaScript e Ruby)
  • CLI