La IA de Apple, los detalles sobre el nuevo ‘MM1’

El nuevo modelo MM1 de Apple revoluciona la IA al integrar datos visuales y textuales, mejorando la generación de subtítulos e interpretación de imágenes.
El nuevo modelo MM1 de Apple revoluciona la IA al integrar datos visuales y textuales, mejorando la generación de subtítulos e interpretación de imágenes.

Investigadores de Apple han desarrollado un nuevo método para entrenar modelos de lenguaje de gran tamaño (LLMs) que integra de manera fluida tanto información textual como visual. Los hallazgos de la compañía, detallados en un artículo de investigación titulado «MM1: Métodos, Análisis e Insights desde la Pre-entrenamiento Multimodal de LLM», presentan un nuevo enfoque para crear sistemas de IA más inteligentes y flexibles.

Esta innovación permite al modelo MM1 comprender y generar lenguaje con una precisión sin precedentes, marcando un hito en la inteligencia artificial.
Esta innovación permite al modelo MM1 comprender y generar lenguaje con una precisión sin precedentes, marcando un hito en la inteligencia artificial.

Utilizando un conjunto de datos diverso que incluye pares de imágenes y subtítulos, documentos de imagen-texto entrelazados y datos solo textuales, Apple afirma que el modelo MM1 establece un nuevo estándar en la capacidad de la IA para realizar tareas como la generación de subtítulos de imágenes, respuesta a preguntas visuales e inferencia de lenguaje natural con un alto nivel de precisión.

Enfoque en la combinación de datos y arquitecturas

La investigación de Apple se centra en la combinación de diferentes tipos de datos de entrenamiento y arquitecturas de modelo, lo que permite a la IA comprender y generar lenguaje basado en una mezcla de señales visuales y lingüísticas. Esta capacidad es vital para tareas que requieren una comprensión matizada del mundo, como interpretar imágenes complejas o responder preguntas que involucran elementos visuales.

Con el enfoque de Apple en combinar diferentes tipos de datos, el modelo MM1 establece nuevos estándares en tareas de IA, como la respuesta a preguntas visuales y la inferencia de lenguaje natural.
Con el enfoque de Apple en combinar diferentes tipos de datos, el modelo MM1 establece nuevos estándares en tareas de IA, como la respuesta a preguntas visuales y la inferencia de lenguaje natural.

Apple también destaca las excepcionales habilidades de aprendizaje en contexto del modelo MM1, particularmente en la configuración más grande de 30 mil millones de parámetros del modelo. Esta versión aparentemente exhibe capacidades notables para el razonamiento multi-paso sobre múltiples imágenes utilizando el método de «cadena de pensamiento» con pocos ejemplos, una técnica que permite a la IA realizar resolución de problemas complejos y abiertos basada en ejemplos mínimos.

Impulsando las capacidades de IA de Apple

Esta investigación surge como parte de la iniciativa más amplia de Apple para mejorar sus capacidades de IA en medio de una creciente competencia. Más temprano hoy, Mark Gurman de Bloomberg informó que Apple está en discusiones con Google para licenciar los modelos generativos de lenguaje grande de Google, Gemini, para potenciar nuevas características que llegarán al iPhone como parte de iOS 18.

El modelo MM1 marca un avance significativo en el desarrollo de sistemas de IA que pueden interpretar y generar contenido basado en una combinación rica de información visual y textual, reforzando la posición de Apple como líder en innovación de inteligencia artificial.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *