Inicio Apps y Software El nuevo modelo de lenguaje grande MM1 de Apple desdibuja la línea entre imagen y texto

El nuevo modelo de lenguaje grande MM1 de Apple desdibuja la línea entre imagen y texto

por José Antonio Niebla Rizo

El equipo de investigación de Apple ha dado un gran paso adelante con su nuevo modelo de lenguaje grande multimodal “MM1” . Este interesante desarrollo se detalló en un artículo reciente titulado “MM1: Métodos, análisis e información del entrenamiento previo de LLM multimodal”, y muestra un modelo con capacidades impresionantes tanto en reconocimiento de imágenes como en razonamiento de lenguaje natural.

El modelo está disponible en tamaños de parámetros de 3 mil millones, 7 mil millones y 30 mil millones.

MM1 viene en tres tamaños: 3 mil millones, 7 mil millones y 30 mil millones de parámetros. Los investigadores utilizaron estos modelos para realizar experimentos, identificando los factores clave que influyen en el rendimiento. Curiosamente, la resolución de la imagen y la cantidad de etiquetas de imagen tienen un mayor impacto que los conectores del lenguaje visual, y diferentes conjuntos de datos previos al entrenamiento pueden afectar significativamente la efectividad del modelo.

Manzana

El equipo de investigación construyó meticulosamente MM1 utilizando una arquitectura de «mezcla de expertos» y un método de «compuerta Top-2». Este enfoque no solo produjo excelentes resultados en los puntos de referencia previos a la capacitación, sino que también se tradujo en un sólido desempeño en los puntos de referencia multimodales existentes. Incluso después de realizar ajustes para tareas específicas, los modelos MM1 mantuvieron un rendimiento competitivo.

Las pruebas revelaron que los modelos MM1-3B-Chat y MM1-7B-Chat superan a la mayoría de los competidores de tamaño similar en el mercado. Estos modelos brillan particularmente en tareas como VQAv2 (respuesta de preguntas basada en una imagen y texto), TextVQA (respuesta de preguntas basada en texto sobre una imagen) y ScienceQA (respuesta de preguntas científicas). Sin embargo, el rendimiento general del MM1 no supera del todo a los modelos Gemini de Google o GPT-4 V de OpenAI (todavía). Si bien MM1 puede no ser el líder absoluto todavía, sigue siendo un importante salto adelante para Apple en inteligencia artificial. La compañía también adquirió recientemente DarwinAI, lea más sobre eso aquí .

A continuación deja tu comentario y síguenos en nuestro Blog y redes sociales para estar al día sobre las noticias de ciencia y tecnología. Recuerda visitarnos en nuestro canal de Telegram y de WhatsApp.

También te puede gustar

Deja un comentario

Este sitio web usa cookies para mejorar la experiencia. Asumimos que aceptas, aunque puedes desactivarlas en cualquier momento. Aceptar Leer más