Reconnaissance vocale
La reconnaissance vocale (STT), aussi appelée reconnaissance automatique de la parole (ASR), est la technologie qui transforme l’audio parlé en texte écrit et permet l’interaction vocale avec les ordinateurs et les systèmes d’IA.
Comprendre Reconnaissance vocale
La reconnaissance vocale a énormément progressé avec le deep learning. Les systèmes ASR modernes comme Whisper d’OpenAI atteignent une précision de transcription quasi humaine, quels que soient l’accent, la langue ou les conditions acoustiques. Cette fiabilité rend l'entrée vocale pertinente pour les usages professionnels, au-delà des commandes simples. La transcription de réunions, la prise de notes vocales, la création de tâches à la voix et les assistants IA pilotés par la voix dépendent tous d'une reconnaissance vocale fiable. L’association de la reconnaissance vocale avec la compréhension par LLM permet de véritables interfaces naturelles où l’on parle normalement et où l’IA comprend l’intention plutôt que d’analyser des commandes figées.
Comment GAIA utilise Reconnaissance vocale
Le module vocal de GAIA utilise la reconnaissance vocale pour permettre une interaction sans les mains. Vous pouvez dicter des tâches, poser des questions sur votre agenda et donner des ordres à la voix. Le texte transcrit est analysé par le LLM de GAIA pour détecter l’intention et exécuter des actions. Cela est particulièrement utile en mobilité et pour enregistrer tâches et notes loin du clavier.
Concepts liés
Synthèse vocale
La synthèse vocale (TTS) est une technologie qui transforme un texte écrit en un audio parlé synthétique, permettant aux ordinateurs et aux systèmes IA de communiquer verbalement à l’aide de voix naturelles.
Traitement automatique du langage naturel (TALN)
Le traitement automatique du langage naturel (TALN) est une branche de l’intelligence artificielle qui vise à permettre aux ordinateurs de comprendre, interpréter, générer et répondre au langage humain de manière pertinente.
Reconnaissance d’intention
La reconnaissance d’intention est le processus par lequel un système d’IA identifie l’objectif ou le but implicite d’une entrée utilisateur, ce qui lui permet de choisir la réponse ou l’action appropriée, plutôt que de répondre seulement à la formulation de surface.
IA multimodale
L'IA multimodale désigne des systèmes d'intelligence artificielle capables de traiter et de générer plusieurs types de données, comme du texte, des images, de l'audio et de la vidéo, au sein d'un même modèle ou d'une chaîne intégrée.


