O que é self-attention em um transformer?

Self-attention é o mecanismo que permite a cada token em uma sequência considerar todos os outros tokens, capturando as relações contextuais. Isso faz com que o modelo entenda, por exemplo, que "ele" em uma frase se refere a um substantivo mencionado anteriormente ou que a intenção de uma pergunta pode abranger várias orações.

Transformer

Um transformer é uma arquitetura de rede neural introduzida em 2017 que utiliza mecanismos de autoatenção para processar sequências de dados em paralelo, formando a base de todos os modernos grandes modelos de linguagem.

Entendendo Transformer

Antes dos transformers, o processamento de sequências era feito por redes neurais recorrentes (RNNs) que analisavam o texto um token de cada vez. Os transformers revolucionaram essa área ao introduzir o mecanismo de autoatenção, permitindo que o modelo avalie a relevância de cada token em relação a todos os outros tokens da sequência simultaneamente. Essa capacidade de processamento paralelo possibilitou o treino com conjuntos de dados muito maiores e a captura de dependências de longo alcance no texto. O artigo original dos transformers, 'Attention Is All You Need' (Vaswani et al., 2017), apresentou a arquitetura encoder-decoder. LLMs modernos como o GPT usam apenas o decoder, enquanto modelos como o BERT utilizam somente o encoder. A arquitetura baseada só em decoder mostrou-se especialmente eficaz para tarefas de geração de texto. A autoatenção permite aos transformers entender relações contextuais. A palavra 'banco' em 'banco do rio' versus 'conta bancária' recebe representações contextuais diferentes dependendo dos tokens ao redor. Essa compreensão de contexto faz com que os LLMs sejam significativamente mais eficazes em tarefas de linguagem do que arquiteturas anteriores. Hoje, transformers vão além do texto: vision transformers processam imagens, audio transformers analisam fala e transformers multimodais trabalham com múltiplos tipos de dados ao mesmo tempo. Essa arquitetura tornou-se o paradigma dominante em deep learning para praticamente todas as modalidades.

Como GAIA usa Transformer

Toda LLM que alimenta a camada de raciocínio da GAIA é baseada na arquitetura transformer. Quando a GAIA lê seus e-mails, planeja fluxos de trabalho ou escreve respostas, os mecanismos de atenção do transformer permitem que o modelo compreenda o contexto em documentos longos e conversas. Essa base arquitetural é o que possibilita que a GAIA mantenha um entendimento coerente em tarefas complexas de múltiplas etapas.

Conceitos relacionados

Large Language Model (LLM)

Um Modelo de Linguagem de Grande Porte (LLM) é um modelo de deep learning treinado com enormes conjuntos de textos capaz de compreender, gerar e raciocinar sobre linguagem humana em uma ampla variedade de tarefas.

Modelo de Linguagem de Grande Porte (LLM)

Um Modelo de Linguagem de Grande Porte (LLM) é um modelo de inteligência artificial treinado em enormes quantidades de dados textuais, capaz de compreender, gerar e raciocinar sobre a linguagem humana com grande fluência.

Rede Neural

Uma rede neural é um modelo computacional inspirado em sistemas neurais biológicos, composto por camadas interconectadas de nós que aprendem a transformar dados de entrada em saídas, ajustando os pesos das conexões durante o treinamento.

Embeddings

Embeddings são representações densas em vetor numérico de dados, como texto, imagens ou áudio, que capturam significados e relações semânticas em um espaço de alta dimensão.

Janela de Contexto

A janela de contexto é o número máximo de tokens que um modelo de linguagem pode processar em uma única chamada de inferência, incluindo o prompt do sistema, histórico da conversa, documentos recuperados e saída gerada.

Perguntas frequentes

Os transformers permitiram o treinamento em bases de dados muito maiores ao processar sequências em paralelo, em vez de forma sequencial. Essa escalabilidade levou diretamente ao surgimento de LLMs poderosos como GPT-4 e Claude. Sem a arquitetura transformer, assistentes de IA modernos como a GAIA não seriam possíveis.

Transformer

Entendendo Transformer

Como GAIA usa Transformer

Conceitos relacionados

Large Language Model (LLM)

Modelo de Linguagem de Grande Porte (LLM)

Rede Neural

Embeddings

Janela de Contexto

Perguntas frequentes

Explorar mais

Compare o GAIA com alternativas

GAIA para o seu papel

Transformer

Entendendo Transformer

Como GAIA usa Transformer

Conceitos relacionados

Large Language Model (LLM)

Modelo de Linguagem de Grande Porte (LLM)

Rede Neural

Embeddings

Janela de Contexto

Perguntas frequentes

Explorar mais

Compare o GAIA com alternativas

GAIA para o seu papel

Entendendo Transformer

Como GAIA usa Transformer

Conceitos relacionados

Large Language Model (LLM)

Modelo de Linguagem de Grande Porte (LLM)

Rede Neural

Embeddings

Janela de Contexto

Perguntas frequentes

Por que transformers são importantes para a IA?

O que é self-attention em um transformer?

Explorar mais

Compare o GAIA com alternativas

GAIA para o seu papel

Entendendo Transformer

Como GAIA usa Transformer

Conceitos relacionados

Large Language Model (LLM)

Modelo de Linguagem de Grande Porte (LLM)

Rede Neural

Embeddings

Janela de Contexto

Perguntas frequentes

Por que transformers são importantes para a IA?

O que é self-attention em um transformer?

Explorar mais

Compare o GAIA com alternativas

GAIA para o seu papel