Tokenização
Tokenização é o processo de dividir o texto em unidades menores chamadas tokens, que servem como unidades básicas de entrada para modelos de linguagem. Tokens normalmente representam fragmentos de palavras, palavras inteiras ou pontuação.
Entendendo Tokenização
Antes de um modelo de linguagem processar o texto, ele precisa ser convertido em tokens. Os LLMs modernos utilizam algoritmos de tokenização de subpalavras como Byte Pair Encoding (BPE) ou SentencePiece, que equilibram o tamanho do vocabulário e a cobertura. Palavras comuns recebem um único token; palavras raras são divididas em múltiplos tokens de subpalavra. Em média, um token corresponde a cerca de quatro caracteres ou três quartos de uma palavra em inglês. A tokenização é importante por três motivos práticos. Primeiro, a janela de contexto é medida em tokens, e não em palavras ou caracteres. Uma janela de 128.000 tokens comporta aproximadamente 96.000 palavras em inglês. Segundo, os custos da API são calculados por token, tanto para entrada quanto para saída. Terceiro, a tokenização influencia como os modelos tratam diferentes idiomas. Tokenizadores são específicos por idioma. As bibliotecas tiktoken da OpenAI, tokenizers da Hugging Face e o tokenizer da Anthropic usam vocabulários diferentes, ou seja, o mesmo texto pode ser tokenizado de formas distintas entre os modelos. Isso afeta o cálculo da janela de contexto e as estimativas de custo. Tokens especiais marcam o início e o fim de sequências, separam prompts do sistema de mensagens do usuário e indicam os limites de chamadas de ferramentas. Esses tokens estruturais estão presentes em todas as interações com LLMs, mesmo quando invisíveis para o usuário.
Como GAIA usa Tokenização
A GAIA gerencia os orçamentos de tokens cuidadosamente em seus fluxos de trabalho de agentes. E-mails e documentos longos são divididos em segmentos do tamanho de tokens antes de serem incorporados ou resumidos. Ao criar prompts, a GAIA equilibra a quantidade de contexto recuperado em relação ao limite da janela de contexto do LLM para maximizar a densidade de informação, sem ultrapassar as restrições do modelo. O particionamento atento aos tokens também garante que a busca semântica da GAIA opere em unidades coerentes de significado.
Conceitos relacionados
Janela de Contexto
A janela de contexto é o número máximo de tokens que um modelo de linguagem pode processar em uma única chamada de inferência, incluindo o prompt do sistema, histórico da conversa, documentos recuperados e saída gerada.
Large Language Model (LLM)
Um Modelo de Linguagem de Grande Porte (LLM) é um modelo de deep learning treinado com enormes conjuntos de textos capaz de compreender, gerar e raciocinar sobre linguagem humana em uma ampla variedade de tarefas.
Embeddings
Embeddings são representações densas em vetor numérico de dados, como texto, imagens ou áudio, que capturam significados e relações semânticas em um espaço de alta dimensão.
Modelo de Linguagem de Grande Porte (LLM)
Um Modelo de Linguagem de Grande Porte (LLM) é um modelo de inteligência artificial treinado em enormes quantidades de dados textuais, capaz de compreender, gerar e raciocinar sobre a linguagem humana com grande fluência.


