¿El aprendizaje zero-shot siempre funciona?

No perfectamente. El rendimiento zero-shot disminuye en tareas altamente especializadas, instrucciones ambiguas o tareas muy diferentes de los datos con los que fue entrenado el modelo. Añadir ejemplos (few-shot) o dividir las tareas en pasos más pequeños (chain-of-thought) suele mejorar los resultados en casos complejos.

Zero-Shot Learning

El zero-shot learning es la capacidad de un modelo de IA para realizar tareas para las que nunca fue entrenado explícitamente, confiando en conocimientos generales y razonamiento en lugar de ejemplos específicos de la tarea.

Comprendiendo Zero-Shot Learning

El aprendizaje automático tradicional requiere ejemplos etiquetados para cada tarea: para clasificar correos electrónicos, necesitas miles de ejemplos clasificados. El zero-shot learning elimina esta limitación. Los grandes modelos de lenguaje, entrenados con enormes corpus de texto, desarrollan capacidades de razonamiento general que se transfieren a tareas nuevas descritas en lenguaje natural. Puedes pedirle a un modelo zero-shot que clasifique correos en categorías que nunca ha visto antes, simplemente describiendo lo que significa cada categoría. Las capacidades zero-shot surgieron como una propiedad sorprendente del escalado. Los modelos más pequeños necesitan ejemplos few-shot para desempeñarse bien en tareas nuevas. Modelos lo suficientemente grandes pueden seguir instrucciones de tareas sin necesidad de ejemplos. Esta propiedad es clave para la utilidad de los LLM: puedes emplearlos en tareas nuevas de inmediato sin recopilar ni etiquetar datos. En tareas de clasificación, el zero-shot learning suele funcionar haciendo que el modelo evalúe qué tan bien coincide cada etiqueta candidata con la entrada. En tareas de generación, funciona proporcionando instrucciones claras de la tarea. La calidad del rendimiento zero-shot depende en gran medida de qué tan bien se describe la tarea y cuán relacionada está con los datos en los que fue entrenado el modelo. El zero-shot learning está estrechamente relacionado con el in-context learning y el seguimiento de instrucciones. Los LLM modernos afinados para seguir instrucciones son especialmente buenos en tareas zero-shot porque han sido entrenados para interpretar y cumplir instrucciones nuevas de forma fiable.

Cómo GAIA usa Zero-Shot Learning

GAIA aprovecha el aprendizaje zero-shot para gestionar solicitudes de automatización que nunca ha visto antes. Cuando describes un nuevo flujo de trabajo en lenguaje natural, el LLM de GAIA interpreta la descripción de la tarea y genera la secuencia de acciones adecuada sin requerir ejemplos preprogramados. Esto es lo que permite que GAIA maneje la enorme variedad de flujos de trabajo de productividad que crean los usuarios sin necesitar entrenamiento personalizado para cada uno.

Conceptos relacionados

Aprendizaje Few-Shot

El aprendizaje few-shot es la capacidad de un modelo de IA para adaptarse a una nueva tarea o formato de salida a partir de solo unos pocos ejemplos de entrada y salida proporcionados en el prompt, sin necesidad de ajustar los pesos.

Ingeniería de prompts

La ingeniería de prompts es la práctica de diseñar y refinar entradas para los modelos de lenguaje de IA, a fin de provocar de manera confiable salidas deseadas, moldeando el comportamiento del modelo sin modificar sus parámetros subyacentes.

Modelo de lenguaje grande (LLM)

Un modelo de lenguaje grande (LLM) es un modelo de aprendizaje profundo entrenado con enormes conjuntos de datos textuales que puede comprender, generar y razonar sobre el lenguaje humano en una amplia variedad de tareas.

Modelo de Lenguaje Grande (LLM)

Un Modelo de Lenguaje Grande (LLM) es un modelo de inteligencia artificial entrenado con grandes cantidades de datos de texto capaz de comprender, generar y razonar sobre el lenguaje humano con notable fluidez.

Preguntas frecuentes

El aprendizaje zero-shot no requiere ejemplos: el modelo razona solo a partir de la descripción de la tarea. El aprendizaje few-shot proporciona un pequeño número de ejemplos de entrada-salida que muestran el comportamiento deseado. GAIA utiliza ambos: zero-shot para flujos de trabajo novedosos y few-shot para tareas consistentes de extracción de datos.

Zero-Shot Learning

Comprendiendo Zero-Shot Learning

Cómo GAIA usa Zero-Shot Learning

Conceptos relacionados

Aprendizaje Few-Shot

Ingeniería de prompts

Modelo de lenguaje grande (LLM)

Modelo de Lenguaje Grande (LLM)

Preguntas frecuentes

Explorar más

Comparar GAIA con alternativas

GAIA para tu rol

Zero-Shot Learning

Comprendiendo Zero-Shot Learning

Cómo GAIA usa Zero-Shot Learning

Conceptos relacionados

Aprendizaje Few-Shot

Ingeniería de prompts

Modelo de lenguaje grande (LLM)

Modelo de Lenguaje Grande (LLM)

Preguntas frecuentes

Explorar más

Comparar GAIA con alternativas

GAIA para tu rol

Comprendiendo Zero-Shot Learning

Cómo GAIA usa Zero-Shot Learning

Conceptos relacionados

Aprendizaje Few-Shot

Ingeniería de prompts

Modelo de lenguaje grande (LLM)

Modelo de Lenguaje Grande (LLM)

Preguntas frecuentes

¿En qué se diferencia el aprendizaje zero-shot del few-shot?

¿El aprendizaje zero-shot siempre funciona?

Explorar más

Comparar GAIA con alternativas

GAIA para tu rol

Comprendiendo Zero-Shot Learning

Cómo GAIA usa Zero-Shot Learning

Conceptos relacionados

Aprendizaje Few-Shot

Ingeniería de prompts

Modelo de lenguaje grande (LLM)

Modelo de Lenguaje Grande (LLM)

Preguntas frecuentes

¿En qué se diferencia el aprendizaje zero-shot del few-shot?

¿El aprendizaje zero-shot siempre funciona?

Explorar más

Comparar GAIA con alternativas

GAIA para tu rol