Microsoft takes on AI rivals with three new foundational models
Microsoft AI, el laboratorio de investigación del gigante tecnológico, anunció el lanzamiento de tres nuevos modelos fundamentales de IA el jueves que pueden generar texto, voz e imágenes. Este lanzamiento señala la continuación de Microsoft por construir su propio stack de modelos multimodales de IA y competir con los laboratorios rivales de IA, aunque mantiene su vínculo con OpenAI.
MAI-Transcribe-1 transcribe voz en más de 25 idiomas diferentes y es 2.5 veces más rápido que la oferta Azure Fast de Microsoft, según un comunicado de prensa. MAI-Voice-1 es un modelo de generación de audio que permite a los usuarios generar 60 segundos de audio en un segundo y crear voces personalizadas. MAI-Image-2 es un modelo de generación de video.
Los modelos fueron desarrollados por el equipo MAI Superintelligence de Microsoft, un equipo de investigación de IA liderado por Mustafa Suleyman, CEO de Microsoft AI, que fue formado y anunciado en noviembre de 2025. “En Microsoft AI, estamos construyendo Humanist AI. Tenemos una visión distinta al crear nuestros modelos de IA: poner a los humanos en el centro, optimizando cómo las personas realmente se comunican, entrenando para uso práctico”, escribió Suleyman en una publicación de blog.
En un mercado de LLM cada vez más saturado, MAI espera que un punto de venta clave sea que estos modelos son más baratos que los de Google y OpenAI. MAI-Transcribe-1 comienza a $0.36 por hora, MAI-Voice-1 a $22 por millón de caracteres, y MAI-Image-2 a $5 por millón de tokens de entrada de texto y $33 por millón de tokens de salida de imagen.
A pesar de lanzar sus propios modelos, Suleyman reafirmó el compromiso de Microsoft con su asociación con OpenAI en una entrevista con VentureBeat, aunque una renegociación reciente de esa asociación permitió a Microsoft pursuing esta investigación de superinteligencia.
Microsoft ha invertido más de $13 mil millones en el laboratorio de investigación de IA y hospeda sus modelos en varios productos a través de una asociación de múltiples años.
Fuente: TechCrunch

