Como en las películas de ciencia ficción, donde el zoom y la mejora revela un rostro detallado. Ahora una nueva inteligencia artificial de Google convierte a esto un hecho, basados en lo que se conoce como modelos de difusión. Las imágenes mejoradas no coinciden exactamente con las originales, pero esos detalles pueden resultar imperceptibles al ojo humano.
La inteligencia artificial (IA) se refiere a programas informáticos complejos que realizan tareas de forma similar a los cerebros humanos, a menudo lo hacen detectando y respondiendo a una característica de su entorno. Esto le permite aprender a resolver problemas de forma inesperada, reconocer los matices del habla o mostrar alguna forma de creatividad similar a la humana. Últimamente la IA ha estado revolucionando varios en la tecnología, y parece que Google se mantiene a la vanguardia.
Google llama a la técnica síntesis de imagen natural y, en este escenario particular, superresolución de imágenes, en la que se entrena un modelo para transformar una imagen de baja resolución en una imagen detallada de alta resolución. Dentro de las aplicaciones de esta técnica puede ir desde restaurar viejos retratos familiares hasta mejorar los sistemas de imágenes médicas, explica el quipo.
Presentaron dos nuevas herramientas de inteligencia artificial que amplían los límites de la calidad de síntesis de imágenes para modelos de difusión: la superresolución mediante refinamientos repetidos (SR3) y un modelo para la síntesis condicionada por clases, llamados modelos de difusión en cascada (CDM).
La primera, superresolución SR3, funciona añadiendo ruido o imprevisibilidad a una imagen y luego invirtiendo el proceso y quitándolo mediante una red neuronal.
«El modelo se entrena en un proceso de corrupción de imágenes en el que se añade progresivamente ruido a una imagen de alta resolución hasta que solo queda ruido puro», explicaron. «A continuación, aprende a invertir este proceso, comenzando por el ruido puro y eliminando progresivamente el ruido para alcanzar una distribución objetivo mediante la orientación de la imagen de baja resolución de entrada».
CDM, la segunda herramienta, son como conductos a través de los cuales se dirigen los modelos de difusión, incluido el SR3, para obtener una resolución de imagen de alta calidad que mejora las imágenes y las hace más grandes. Si desea conocer más al respecto puede visitar el artículo publicado por Google.
«Aunque podría haber un impacto negativo de nuestro trabajo en forma de usos maliciosos de la generación de imágenes, nuestro trabajo tiene el potencial de mejorar las aplicaciones posteriores beneficiosas de datos, al tiempo que se avanza en el conocimiento de los problemas fundamentales del aprendizaje automático», escribieron los autores del artículo.
«Vemos nuestros resultados como un estudio conceptual de las capacidades de síntesis de imágenes de los modelos de difusión en su forma original con un mínimo de técnicas adicionales, y esperamos que nuestro esperamos que nuestro trabajo sirva de inspiración para futuros avances en las capacidades de los modelos de difusión».
Puede obtener más información aquí.