Reconhecimento de Voz
Reconhecimento de voz (Speech-to-Text, STT), também chamado de reconhecimento automático de fala (ASR), é a tecnologia que converte áudio falado em texto escrito, permitindo a interação por voz com computadores e sistemas de IA.
Entendendo Reconhecimento de Voz
O reconhecimento de voz avançou enormemente com o uso de deep learning. Sistemas modernos de ASR, como o Whisper da OpenAI, atingem precisão de transcrição em nível humano, inclusive entre diferentes sotaques, idiomas e condições acústicas. Essa precisão tornou a entrada por voz viável para cenários profissionais, indo além de simples comandos. Transcrição de reuniões, gravação de notas de voz, criação de tarefas por voz e assistentes de IA controlados por voz dependem de um STT confiável. A combinação de STT com compreensão baseada em LLM possibilita interfaces de voz realmente naturais, em que você fala de forma espontânea e a IA entende a intenção, sem depender de comandos rígidos.
Como GAIA usa Reconhecimento de Voz
O componente de agente de voz do GAIA usa reconhecimento de voz para permitir interação sem o uso das mãos. Você pode ditar tarefas, fazer perguntas sobre sua agenda e emitir comandos verbalmente. O texto transcrito é processado pelo LLM do GAIA para reconhecimento de intenção e execução de ações. Isso é especialmente útil para uso móvel e para registrar tarefas e anotações longe do teclado.
Conceitos relacionados
Texto para Fala
Texto para fala (TTS) é a tecnologia que converte textos escritos em áudio falado sintetizado, permitindo que computadores e sistemas de IA se comuniquem verbalmente por meio de vozes naturais.
Processamento de Linguagem Natural (PLN)
Processamento de Linguagem Natural (PLN) é um ramo da inteligência artificial que foca em permitir que computadores compreendam, interpretem, gerem e respondam à linguagem humana de forma significativa.
Reconhecimento de Intenção
Reconhecimento de intenção é o processo pelo qual um sistema de IA identifica o objetivo ou propósito subjacente à entrada de um usuário, permitindo selecionar a resposta ou ação adequada, em vez de apenas reagir à forma superficial da mensagem.
IA multimodal
IA multimodal refere-se a sistemas de inteligência artificial capazes de processar e gerar vários tipos de dados, como texto, imagens, áudios e vídeos, dentro de um único modelo ou pipeline integrado.


