El nuevo generador de imágenes de IA de OpenAI supera los límites en detalle y fidelidad inmediata ⋆ Tech Is Life

El miércoles, OpenAI anunció DALL-E 3, la última versión de su modelo de síntesis de imágenes IA que cuenta con una integración total con ChatGPT. DALL-E 3 genera imágenes siguiendo de cerca descripciones complejas y maneja la generación de texto dentro de la imagen (como etiquetas y señales), lo cual representaba un desafío para los modelos anteriores. Actualmente en vista previa de investigación, estará disponible para los clientes de ChatGPT Plus y Enterprise a principios de octubre.

Al igual que su predecesor, DALL-E 3 es un generador de texto a imagen que crea imágenes novedosas basadas en descripciones escritas llamadas indicaciones. Aunque OpenAI no ha publicado detalles técnicos sobre DALL-E 3, el modelo de IA en el centro de las versiones anteriores de DALL-E fue entrenado con millones de imágenes creadas por artistas y fotógrafos humanos, algunas de ellas licenciadas de sitios web de stock como Shutterstock. Es probable que DALL-E 3 siga esta misma fórmula, pero con nuevas técnicas de entrenamiento y más tiempo de entrenamiento computacional.

A juzgar por las muestras proporcionadas por OpenAI en su blog promocional, DALL-E 3 parece ser un modelo de síntesis de imágenes mucho más capaz que cualquier otra cosa disponible en términos de seguir indicaciones. Aunque los ejemplos de OpenAI han sido seleccionados cuidadosamente por su eficacia, parecen seguir las instrucciones del indicador fielmente y renderizar objetos con mínimas deformaciones. Comparado con DALL-E 2, OpenAI dice que DALL-E 3 refina pequeños detalles como las manos de manera más efectiva, creando imágenes atractivas por defecto sin «trucos ni ingeniería de indicadores requerida».

Mira también:

Qualcomm presenta el SoC Snapdragon X Elite para portátiles y afirma tener un mejor rendimiento que el Apple M2 Max

TechIsLife lanza la nueva aplicación ChatGPT AI Chatbot

Samsung no reemplazará la Búsqueda de Google con el Chatbot de Bing a partir de ahora

Nuevo cable submarino Arimao inició período de prueba

WhatsApp trabaja en mejorar sus Estados y acá te contamos que se trae

No tener que recordar contraseñas y un desbloqueo facial más seguro se aproximan a Android

Xiaomi lanza el Poco X5 y el X5 Pro y estas son sus novedades

El smartwatch de Meta tiene varias filtraciones interesantes.

La carga rápida de 240W ya está a la vuelta de la esquina con el Realme GT Neo 5

Xiaomi cambia el nombre de Redmi 9 a Redmi 9 Prime

Elon Musk ahora está demandando a OpenAI y pide al tribunal que obligue a OpenAI a hacer pública su tecnología

En comparación, Midjourney, un modelo de síntesis de imágenes de IA competidor de otro vendedor, renderiza detalles fotorrealistas bien, pero todavía requiere mucho jogo con indicaciones contra-intuitivas para ganar algún control sobre la salida de la imagen.

DALL-E 3 también parece manejar el texto dentro de las imágenes de una manera que su predecesor no pudo (algunos modelos competidores como Stable Diffusion XL y DeepFloyd están mejorando en ello). Por ejemplo, una indicación que incluía las palabras, «Una ilustración de un aguacate sentado en la silla de un terapeuta, diciendo ‘Me siento tan vacío por dentro’ con un agujero del tamaño de un hueso en su centro», creó un aguacate de dibujos animados con la cita del personaje perfectamente encapsulada en un bocadillo de texto.

Destacablemente, OpenAI dice que DALL-E 3 ha sido «construido nativamente» en ChatGPT y llegará como una característica integrada de ChatGPT Plus, permitiendo refinamientos conversacionales a las imágenes de una manera que utilizará al asistente de IA como un compañero de brainstorming. También significa que ChatGPT podrá generar imágenes basadas en el contexto de la conversación actual, lo cual podría generar nuevas capacidades novedosas. El asistente AI de chat de Bing de Microsoft, también construido con tecnología de OpenAI, ha podido generar imágenes en conversación desde marzo.

La tetera que creó una tempestad

«Una imagen generada por IA de DALL-E 3 de ‘Un renderizado en 3D de una taza de café colocada en un alféizar de ventana durante un día tormentoso. La tormenta fuera de la ventana se refleja en el café, con mini rayos y olas turbulentas visibles dentro de la taza. La habitación está iluminada tenue, lo que añade a la atmósfera dramática'».

La versión original de DALL-E surgió en enero de 2021, y OpenAI presentó su secuela mucho más capaz en abril de 2022, lanzando una nueva era de imágenes generadas por IA con un golpe impresionante que cautivó a sus primeros testadores de la beta cerrada. Los modelos DALL-E utilizan una técnica llamada difusión latente que refina el ruido en imágenes que «reconoce» a partir de la información que obtuvo entrenándose en un conjunto de datos y la orientación de un indicador. La misma tecnología permitió la aparición del modelo de peso abierto Stable Diffusion en agosto del año pasado.

Debido a cómo DALL-E aprendió conceptos sobre imágenes en la capacitación rascando un enorme conjunto de datos de obras de arte producidas por humanos, la tecnología de generación de imágenes de IA ha sido enormemente controvertida desde su introducción en el mainstream el año pasado. La tecnología ha provocado protestas de artistas que temen que los reemplace o que reproduzca de manera no ética sus estilos, demandas por infracción de derechos de autor basadas en imágenes raspadas utilizadas como datos de entrenamiento sin consultar a los titulares de derechos de autor, y nuevas decisiones sobre derechos de autor de la Oficina de Derechos de Autor de los Estados Unidos y un juez de distrito de los Estados Unidos.

Como guiño a estas controversias, OpenAI dice que DALL-E 3 está diseñada para rechazar solicitudes que pidan una imagen con el estilo de un artista vivo. OpenAI también proporciona un formulario donde los creadores pueden optar por no tener sus imágenes utilizadas para entrenar futuros modelos. Parece poco probable que estas medidas satisfagan a los artistos que generalmente piensan que el entrenamiento de IA debería ser solo optativo en lugar de estar incluido en los conjuntos de datos de imágenes por defecto.
Actualmente, la política de derechos de autor de EE. UU. asevera que las obras de arte generadas puramente por inteligencia artificial no pueden recibir protección de derechos de autor, por lo que técnicamente cualquier imagen creada con DALL-E 3 caerá dentro del dominio público. Si bien OpenAI no lo reconoce explícitamente, sí dice que «las imágenes que creas con DALL-E 3 son tuyas para usar y no necesitas nuestro permiso para reimprimirlas, venderlas o utilizarlas para merchandising». Esto es un cambio notable respecto al año pasado, cuando OpenAI restringió el uso de imágenes DALLE-2 basándose en una licencia que decía que OpenAI «posee todas las generaciones».

En cuanto a la seguridad, OpenAI dice que, al igual que DALL-E 2, ha implementado filtros de detección de palabras clave e imágenes en DALL-E 3 para limitar su capacidad de producir contenido violento, sexual o de odio. El sistema también está programado para rechazar solicitudes que generen imágenes de figuras públicas por su nombre, lo cual ha causado problemas con el generador de imágenes de IA competidor Midjourney cuando generó imágenes falsas de la detención de Donald Trump.
OpenAI dice que ha trabajado con expertos conocidos como «red teamers» para identificar y mitigar riesgos potenciales, como sesgos perjudiciales o la generación de propaganda y desinformación. OpenAI no ha dado ninguna palabra sobre el potencial de su herramienta para alterar el registro histórico con fabricaciones convincentes, aunque dice que está experimentando con una herramienta de «clasificador de procedencia» que puede ayudar a identificar si una imagen fue generada por DALL-E 3 o no.

Por el momento, no tenemos acceso a DALL-E 3 para probarlo, pero OpenAI dice que el generador de imágenes de IA está actualmente en pruebas cerradas. Planea ponerlo a disposición de los clientes de ChatGPT Plus y Enterprise «en octubre a través de la API y en Labs a finales de este otoño».

¿Sonidos de pedos y risas? La actualización ‘Audio…

Actualización de Samsung One UI 7: dispositivos elegibles,…

¡Assassin’s Creed Mirage llegará a iPhone y iPad…

Una falla en el teclado expone las pulsaciones…

Android 15 agrega uso compartido de audio a…

¡Oppo mejora la experiencia del usuario con animaciones…

“ 𝕏 para iOS se expande: ¡Transmite sin…

Qualcomm presenta el SoC Snapdragon X Elite para portátiles y afirma tener un mejor rendimiento que el Apple M2 Max

TechIsLife lanza la nueva aplicación ChatGPT AI Chatbot

Samsung no reemplazará la Búsqueda de Google con el Chatbot de Bing a partir de ahora

Nuevo cable submarino Arimao inició período de prueba

WhatsApp trabaja en mejorar sus Estados y acá te contamos que se trae

No tener que recordar contraseñas y un desbloqueo facial más seguro se aproximan a Android

Xiaomi lanza el Poco X5 y el X5 Pro y estas son sus novedades

El smartwatch de Meta tiene varias filtraciones interesantes.

La carga rápida de 240W ya está a la vuelta de la esquina con el Realme GT Neo 5

Xiaomi cambia el nombre de Redmi 9 a Redmi 9 Prime

Elon Musk ahora está demandando a OpenAI y pide al tribunal que obligue a OpenAI a hacer pública su tecnología

¿Sonidos de pedos y risas? La actualización ‘Audio…

Actualización de Samsung One UI 7: dispositivos elegibles,…

¡Assassin’s Creed Mirage llegará a iPhone y iPad…

Una falla en el teclado expone las pulsaciones…

Android 15 agrega uso compartido de audio a…

¡Oppo mejora la experiencia del usuario con animaciones…

“ 𝕏 para iOS se expande: ¡Transmite sin…

El nuevo generador de imágenes de IA de OpenAI supera los límites en detalle y fidelidad inmediata

Qualcomm presenta el SoC Snapdragon X Elite para portátiles y afirma tener un mejor rendimiento que el Apple M2 Max

TechIsLife lanza la nueva aplicación ChatGPT AI Chatbot

Samsung no reemplazará la Búsqueda de Google con el Chatbot de Bing a partir de ahora

Nuevo cable submarino Arimao inició período de prueba

WhatsApp trabaja en mejorar sus Estados y acá te contamos que se trae

No tener que recordar contraseñas y un desbloqueo facial más seguro se aproximan a Android

Xiaomi lanza el Poco X5 y el X5 Pro y estas son sus novedades

El smartwatch de Meta tiene varias filtraciones interesantes.

La carga rápida de 240W ya está a la vuelta de la esquina con el Realme GT Neo 5

Xiaomi cambia el nombre de Redmi 9 a Redmi 9 Prime

Elon Musk ahora está demandando a OpenAI y pide al tribunal que obligue a OpenAI a hacer pública su tecnología

La tetera que creó una tempestad

WhatsApp presenta la nueva función ‘Flujos’ para compras dentro de la aplicación

Google lanza Android 14 QPR1 Beta 1 para dispositivos Pixel

También te puede gustar

Deja un comentario Cancelar respuesta