A lo grande de la historia de la humanidad, el progreso tecnológico ha dejado obsoletos a algunos trabajadores y ha empoderado a otros. Los trabajadores de industrias como el transporte y la fabricación ya se han conocido fuertemente afectados por los avances en automatización e inteligencia químico.
Hoy, es el sector creativo el que está en charnela. Artistas visuales, diseñadores, ilustradores y muchos otros creativos han conocido la presentación de los generadores de texto a imagen de IA con una mezcla de asombro y aprensión.
Esta nueva tecnología ha suscitado un debate sobre el papel de la IA en las artes visuales y cuestiones como la apropiación del estilo. Su velocidad y eficiencia han provocado temores de pleonasmo entre algunos artistas, mientras que otros la han adoptivo como una útil nueva y emocionante.
¿Qué es un alternador de texto a imagen de IA?
Un alternador de texto a imagen de IA es un software que crea una imagen a partir de la entrada de texto de un sucesor, lo que se conoce como aviso. Estas herramientas de IA están entrenadas en grandes conjuntos de datos de pares de texto e imágenes.
DALL-E 2 y Midjourney aún no han hecho públicos sus conjuntos de datos. Sin retención, la popular útil de código libre Stable Diffusion ha sido más transparente sobre en qué entrena su IA.
“No pasamos por Internet y encontramos las imágenes nosotros mismos. Eso es poco que otros ya han hecho”, dijo el profesor Björn Ommer, quien dirige el Género de formación y visión por computadora en la Universidad Ludwig Maximilian de Munich.
Ommer trabajó en la investigación que sustenta Stable Diffusion.
“Ahora hay grandes conjuntos de datos que se han extraído de Internet y están disponibles públicamente. Y estos los usamos, principalmente los conjuntos de datos LAION, que están ahí, que consisten en miles de millones de imágenes con las que podemos entrenar”, dijo a Euronews Next.
LAION es una estructura sin actitud de interés que recopila pares imagen-texto en Internet. A continuación, las organiza en conjuntos de datos en función de factores como el idioma, la resolución, la probabilidad de tener una marca de agua y una puntuación estética prevista, como el conjunto de datos de Investigación Visual Estético (AVA) que contiene fotografías que han sido calificadas del 1 al 10.
LAION obtiene estos pares de imagen y texto de otra estructura sin fines de interés señal Common Crawl. Common Crawl proporciona comunicación libre a su repositorio de datos de rastreo web, para democratizar el comunicación a la información web. Lo hace extrayendo miles de millones de páginas web mensualmente y publicándolas como conjuntos de datos disponibles abiertamente.
Entrenamiento de la IA
Una vez que estos conjuntos de datos de pares de imagen y texto se recopilan y organizan, el maniquí de IA se entrena en ellos. El proceso de entrenamiento le enseña a la IA a hacer conexiones entre la estructura visual, la composición y cualquier apunte visual perceptible en el interior de la imagen y cómo se relaciona con el texto que la acompaña.
“Entonces, cuando este entrenamiento finalmente se completa luego de mucho tiempo dedicado a entrenar estos modelos, tiene un maniquí poderoso que hace la transición entre texto e imágenes”, dijo Ommer.
El subsiguiente paso en el expansión de un alternador de texto a imagen se pira difusión.
En este proceso, el ruido visual gaussiano o “imprevisible” se agrega gradualmente a una imagen, mientras que la IA se entrena en cada iteración de la imagen gradualmente más “ruidosa”.
Luego, el proceso se invierte y se le enseña a la IA a construir, a partir de píxeles aleatorios, una imagen que es visualmente similar a la imagen de entrenamiento llamativo.
“El producto final de mil veces sumar un poco de ruido se verá como si hubiera desconectado el cable de la antena de su televisor y (hay) solo estática, solo ruido allí, ya no queda señal”, explicó Ommer.
El maniquí de IA se entrena en miles de millones de imágenes de esta modo, pasando de una imagen a ruido y luego invirtiendo el proceso cada vez.
A posteriori de esta etapa del proceso de entrenamiento, la IA puede comenzar a crear, a partir del ruido, imágenes que nunca antiguamente habían existido.
En la ejercicio, esto significa que un sucesor ahora puede conseguir a un alternador de texto a imagen, ingresar un comando de texto en un cuadro de texto simple y la IA generará una imagen completamente nueva basada en la entrada de texto.
Cada IA de texto a imagen tiene palabras esencia que sus usuarios han descubierto a través de prueba y error. Las palabras esencia como “arte digital”, “4k” o “cinematográfico” pueden tener un impresión dramático en el resultado, y los usuarios han compartido consejos y trucos en semirrecta para difundir arte en un estilo específico. Un aviso peculiar podría leerse como “una ilustración digital de una manzana con un sombrero de vaquero, 4k, detallada, tendencia en artstation”.
Apropiación del estilo bello.
La ética de los generadores de texto a imagen de IA ha sido objeto de mucho debate. Un tema esencia de preocupación ha sido el hecho de que estas IA pueden entrenarse en el trabajo de artistas reales, vivos y que trabajan. Potencialmente, esto permite que cualquier persona que use estas herramientas cree un nuevo trabajo en el estilo característico de estos artistas.
“Creo que vamos a tener que encontrar una modo para que los artistas sean compensados si sus nombres o imágenes aparecen en los conjuntos de datos, o para que simplemente opten por no participar si no quieren tener ausencia que ver. hacer con eso”, dijo el intérprete de collage de videos Erik Winkowski a Euronews Next.
Sobre el tema de la apropiación estilística para obtener ganancias financieras, agregó que “si una campaña de marca obviamente se apropia de la obra de arte de una persona, ya sea que se haya hecho con IA o de otra modo, simplemente no es poco bueno. Y espero que sean un manifiesto que se naciente en contra de eso”.
En noviembre, la comunidad de arte en semirrecta Deviant Art anunció que agregaría su propia útil de concepción de texto a imagen con inteligencia químico, DreamUp, a su sitio web.
Todas las obras de arte de los usuarios de Deviant Arts en el sitio web estarían automáticamente disponibles para entrenar la IA.
Sin retención, en el interior de las 24 horas posteriores al anuncio, frente a un válido rechazo de su comunidad, Deviant Art cambió su política. En cambio, los usuarios tendrían que designar activamente participar para entrenar la IA.
Shutterstock, un mercado de imágenes de stock, ahora planea integrar el alternador de texto a imagen de DALL-E y compensar a los creadores cuyo trabajo se utilizó para entrenar la IA.
¿Competencia desleal o nueva y poderosa útil?
En la feria estatal de Colorado de 2022, la obra de arte generada por IA de Jason Allen ‘Théâtre D’opéra Spatial’, que se creó con Midjourney, ganó en la categoría de “artistas digitales emergentes”.
El premio generó mucha controversia y debate sobre el futuro del arte. En medio de la publicidad, Allen lanzó una nueva empresa, AI Infinitum, que ofrece “impresiones de IA de riqueza”.
Algunos artistas están preocupados por la velocidad y la precisión con la que un alternador de texto a imagen de IA puede crear obras de arte. Una útil como Stable Diffusion puede, en cuestión de segundos, crear múltiples obras de arte que los artistas tardarían horas o días en producir.
Esto ha preocupado a algunos creativos que temen que sus habilidades se vuelvan obsoletas por esta tecnología.
“He conocido que el objetivo de mi investigación nunca quiere reemplazar a los seres humanos, la inteligencia humana o similares”, dijo Ommer a Euronews Next.
“Veo Stable Diffusion como muchas otras herramientas que estamos viendo allí, simplemente como una tecnología habilitadora que permite al intérprete, al ser humano, al sucesor que utiliza estas herramientas para luego hacer más o hacer las cosas que ya estaban haciendo. haciéndolos mejor, pero no reemplazándolos por los mejores”.
La subsiguiente etapa del arte de la IA
Los generadores de texto a imagen de IA se mejoran continuamente y algunos investigadores y empresas tecnológicas están desarrollando la subsiguiente etapa del arte visual generativo.
Meta ha publicado ejemplos de su IA de texto a video actualmente en expansión, que puede producir un video a partir de la entrada de texto de un sucesor.
Mientras tanto, Google ha presentado DreamFusion, una IA de texto a 3D que se base en la tecnología de generadores de texto a imagen para difundir modelos 3D sin falta de conjuntos de datos que contengan activos 3D.*
Algunos artistas visuales como Winkowski ya han comenzado a incorporar herramientas de IA generativa en su flujo de trabajo y a impulsar la tecnología para crear arte animado.
En su fresco cortometraje titulado ‘Leaving home’, Winkowski dibujó ciertos fotogramas y permitió que Stable Diffusion generara los fotogramas intermedios.
“Es casi como tener un superpoder como intérprete, de verdad”, dijo.
“Eso es efectivamente emocionante. Y creo que tal vez podamos hacerse cargo proyectos más ambiciosos de lo que en absoluto creímos posible”.
Para obtener más información sobre esta historia, vea el video en el reproductor multimedia de en lo alto.