Transformer
Um transformer é uma arquitetura de rede neural introduzida em 2017 que utiliza mecanismos de autoatenção para processar sequências de dados em paralelo, formando a base de todos os modernos grandes modelos de linguagem.
Entendendo Transformer
Antes dos transformers, o processamento de sequências era feito por redes neurais recorrentes (RNNs) que analisavam o texto um token de cada vez. Os transformers revolucionaram essa área ao introduzir o mecanismo de autoatenção, permitindo que o modelo avalie a relevância de cada token em relação a todos os outros tokens da sequência simultaneamente. Essa capacidade de processamento paralelo possibilitou o treino com conjuntos de dados muito maiores e a captura de dependências de longo alcance no texto. O artigo original dos transformers, 'Attention Is All You Need' (Vaswani et al., 2017), apresentou a arquitetura encoder-decoder. LLMs modernos como o GPT usam apenas o decoder, enquanto modelos como o BERT utilizam somente o encoder. A arquitetura baseada só em decoder mostrou-se especialmente eficaz para tarefas de geração de texto. A autoatenção permite aos transformers entender relações contextuais. A palavra 'banco' em 'banco do rio' versus 'conta bancária' recebe representações contextuais diferentes dependendo dos tokens ao redor. Essa compreensão de contexto faz com que os LLMs sejam significativamente mais eficazes em tarefas de linguagem do que arquiteturas anteriores. Hoje, transformers vão além do texto: vision transformers processam imagens, audio transformers analisam fala e transformers multimodais trabalham com múltiplos tipos de dados ao mesmo tempo. Essa arquitetura tornou-se o paradigma dominante em deep learning para praticamente todas as modalidades.
Como GAIA usa Transformer
Toda LLM que alimenta a camada de raciocínio da GAIA é baseada na arquitetura transformer. Quando a GAIA lê seus e-mails, planeja fluxos de trabalho ou escreve respostas, os mecanismos de atenção do transformer permitem que o modelo compreenda o contexto em documentos longos e conversas. Essa base arquitetural é o que possibilita que a GAIA mantenha um entendimento coerente em tarefas complexas de múltiplas etapas.
Conceitos relacionados
Large Language Model (LLM)
Um Modelo de Linguagem de Grande Porte (LLM) é um modelo de deep learning treinado com enormes conjuntos de textos capaz de compreender, gerar e raciocinar sobre linguagem humana em uma ampla variedade de tarefas.
Modelo de Linguagem de Grande Porte (LLM)
Um Modelo de Linguagem de Grande Porte (LLM) é um modelo de inteligência artificial treinado em enormes quantidades de dados textuais, capaz de compreender, gerar e raciocinar sobre a linguagem humana com grande fluência.
Rede Neural
Uma rede neural é um modelo computacional inspirado em sistemas neurais biológicos, composto por camadas interconectadas de nós que aprendem a transformar dados de entrada em saídas, ajustando os pesos das conexões durante o treinamento.
Embeddings
Embeddings são representações densas em vetor numérico de dados, como texto, imagens ou áudio, que capturam significados e relações semânticas em um espaço de alta dimensão.
Janela de Contexto
A janela de contexto é o número máximo de tokens que um modelo de linguagem pode processar em uma única chamada de inferência, incluindo o prompt do sistema, histórico da conversa, documentos recuperados e saída gerada.


