Token
Em IA, um token é a unidade básica de texto processada por modelos de linguagem — aproximadamente equivalente a 4 caracteres ou ¾ de uma palavra inglesa média. Tokens são usados para medir a capacidade da janela de contexto e determinar os custos de uso da API.
Entendendo Token
Modelos de linguagem não processam texto caractere por caractere ou palavra por palavra. Em vez disso, operam com tokens — unidades sublexicais produzidas por um tokenizador que divide o texto em segmentos com base na frequência de ocorrências no corpus de treinamento. Palavras curtas comuns como "the" ou "is" normalmente correspondem a um único token, enquanto palavras mais longas ou raras podem ser divididas em dois ou mais tokens. Entender sobre tokens é essencial por dois motivos. Primeiro, cada modelo possui uma janela de contexto medida em tokens — a quantidade máxima de texto que pode ser considerada de uma vez. O GPT-4o possui uma janela de contexto de 128.000 tokens; o Claude 3.5 Sonnet suporta 200.000. Segundo, a maioria das APIs de LLM cobra por token consumido (entrada + saída), por isso a atenção ao uso de tokens impacta diretamente o custo. Como regra geral: 1.000 tokens ≈ 750 palavras, ou cerca de 1.500 caracteres. Um e-mail comercial típico possui de 200 a 400 tokens. Um artigo científico longo pode passar de 8.000 tokens. Ao criar aplicações de IA, o design dos prompts frequentemente envolve o gerenciamento cuidadoso do uso de tokens para maximizar a eficiência do contexto e controlar os custos.
Como GAIA usa Token
GAIA gerencia o uso de tokens de forma eficiente em todas as suas chamadas de modelos de linguagem para equilibrar capacidade e custo. Ao processar documentos longos, como conversas por e-mail ou transcrições de reuniões, a GAIA utiliza estratégias de divisão em blocos e sumarização para se manter dentro das janelas de contexto do modelo. Ela seleciona o nível de modelo adequado — desde modelos mais leves para tarefas simples até modelos de ponta para raciocínios complexos — em parte com base no orçamento de tokens necessário para cada operação.
Conceitos relacionados
Large Language Model (LLM)
Um Modelo de Linguagem de Grande Porte (LLM) é um modelo de deep learning treinado com enormes conjuntos de textos capaz de compreender, gerar e raciocinar sobre linguagem humana em uma ampla variedade de tarefas.
Janela de Contexto
A janela de contexto é o número máximo de tokens que um modelo de linguagem pode processar em uma única chamada de inferência, incluindo o prompt do sistema, histórico da conversa, documentos recuperados e saída gerada.
Engenharia de Prompt
Engenharia de prompt é a prática de projetar e refinar entradas para modelos de linguagem de IA, a fim de obter respostas desejadas de forma consistente, moldando o comportamento do modelo sem modificar seus pesos.
Alucinação
Alucinação de IA é o fenômeno onde um modelo de linguagem gera informações aparentemente confiantes, mas que são factualmente incorretas, inventadas ou sem sentido, e que não estão fundamentadas nos dados de entrada ou de treinamento.
Ajuste Fino
Ajuste fino é o processo de pegar um modelo de IA pré-treinado e continuar seu treinamento em um conjunto de dados menor e específico, para adaptar o comportamento do modelo para um domínio ou aplicação particular.


