
OpenAI cautivó al mundo tecnológico hace unos meses con un modelo de IA generativa, Sora, que convierte descripciones de escenas en videos originales, sin necesidad de cámaras o equipos de filmación. Pero hasta ahora, Sora ha estado muy restringido, y la empresa parece apuntarlo hacia creativos bien financiados como directores de Hollywood, no necesariamente a aficionados o pequeños comercializadores.
Alex Mashrabov, el ex jefe de IA generativa en Snap, percibió una oportunidad. Así que lanzó Higgsfield AI, una plataforma de creación y edición de videos impulsada por IA diseñada para aplicaciones más personalizadas y específicas.
Impulsado por un modelo de texto a video personalizado, la primera aplicación de Higgsfield, Diffuse, puede generar videos desde cero o tomar un selfie y generar un clip protagonizado por esa persona.
'Nuestro público objetivo son creadores de todo tipo', dijo Mashrabov a TechCrunch en una entrevista, 'desde usuarios regulares que quieran crear contenido divertido con sus amigos, hasta creadores de contenido social que quieran probar un nuevo formato de contenido o comercializadores de redes sociales que quieran que su marca se destaque'.
Mashrabov llegó a Snap a través de AI Factory, su startup anterior, que Snap adquirió en 2020 por $166 millones. Mientras estuvo en Snap, Mashrabov ayudó a construir productos como efectos de RA y filtros para Snapchat, incluidos Cameos, así como el polémico chatbot MyAI de Snapchat.
Higgsfield, que Mashrabov cofundó hace varios meses con Yerzat Dulat, un investigador de IA especializado en video generativo, ofrece un conjunto seleccionado de clips pregenerados, una herramienta para cargar medios de referencia (como imágenes y videos) y un editor de indicaciones que permite a los usuarios describir los personajes, acciones y escenas que desean representar. Usando Diffuse, los usuarios pueden insertarse directamente en una escena generada por IA, o hacer que su imagen digital imite cosas, como movimientos de baile, capturados en otros videos.

'Nuestro modelo admite movimientos y expresiones altamente realistas', dijo Mashrabov. 'Estamos siendo pioneros en modelos de 'mundo' para consumidores, lo que nos permitirá construir generación y edición de video de primera clase con un gran nivel de control'.
Higgsfield no es la única startup de video generativo que compite con OpenAI. Runway fue una de las primeras en el escenario, y sus herramientas siguen mejorando. También está Haiper, que cuenta con el respaldo de dos ex empleados de DeepMind y más de $13 millones en capital de riesgo.
Mashrabov argumenta que Diffuse se destacará gracias a su estrategia de mercado móvil y centrada en lo social. 'Al priorizar las aplicaciones para iOS y Android en lugar de los flujos de trabajo de escritorio, permitimos a los creadores crear contenido atractivo en redes sociales en cualquier momento y lugar', dijo Mashrabov. 'De hecho, al construir en móvil, podemos priorizar la facilidad de uso y las características amigables para el consumidor desde el primer día'.
Higgsfield también está funcionando de manera eficiente. Mashrabov dice que los modelos generativos que sustentan la plataforma fueron desarrollados por un equipo de 16 personas en menos de nueve meses y entrenados en un conjunto de 32 GPU (32 GPU pueden sonar como muchas, pero considerando que OpenAI usa decenas de miles, en realidad no lo son). Y Higgsfield solo ha recaudado $8 millones hasta la fecha, la mayoría de los cuales provinieron de una reciente ronda de financiación inicial liderada por Menlo Ventures.

Para mantenerse un paso adelante de sus rivales, Higgsfield planea utilizar el dinero obtenido en la ronda inicial para construir un editor de video mejorado que permita a los usuarios modificar personajes y objetos en videos, y para entrenar modelos de generación de video más potentes específicamente para casos de uso en redes sociales. De hecho, Mashrabov ve las redes sociales, y el marketing en redes sociales, como el nicho principal para ganar dinero de Higgsfield.
Si bien Diffuse actualmente es de uso gratuito, Mashrabov visualiza un futuro en el que los comercializadores paguen algún tipo de tarifa o suscripción por funciones premium, o por volumen o campañas a gran escala.
'Creemos que Higgsfield desbloquea un nivel increíble de realismo y casos de uso de producción de contenido para los comercializadores en redes sociales', dijo. 'Constantemente escuchamos de los directores de marketing y directores creativos que necesitan optimizar los presupuestos de producción de contenido y acortar los plazos mientras siguen entregando contenido impactante. Así que creemos que las soluciones de IA generativa de video serán una solución fundamental para ayudarlos a lograrlo'.
Por supuesto, Higgsfield no es inmune a los desafíos más amplios que enfrentan las startups de IA generativa.
Está bien establecido que los modelos de IA generativa como los que impulsan Diffuse pueden 'regurgitar' datos de entrenamiento. ¿Por qué eso es problemático? Bueno, si los modelos fueron entrenados con contenido con derechos de autor sin permiso o algún tipo de acuerdo de licencia vigente, los usuarios de esos modelos podrían generar involuntariamente un trabajo que infringe los derechos de autor, exponiéndolos a demandas.

Mashrabov no reveló la fuente de los datos de entrenamiento de Higgsfield (excepto para decir que provienen de 'varios lugares públicamente disponibles'), y tampoco quiso decir si Higgsfield retendría los datos de los usuarios para entrenar futuros modelos, lo cual podría no sentar bien con algunos clientes comerciales. Sin embargo, señaló que los usuarios de Diffuse pueden solicitar que sus datos sean eliminados en cualquier momento a través de la aplicación.
Las plataformas de 'clonación' digital como Higgsfield también son propensas al abuso, como ha demostrado la propagación desenfrenada de deepfakes en las redes sociales en los últimos meses.
En una línea similar, Higgsfield podría facilitar el robo de contenido de los creadores. Por ejemplo, uno solo necesita cargar un video de la coreografía de alguien para generar un video de esa persona realizando esa misma coreografía.
Le pregunté a Mashrabov sobre qué salvaguardias o protecciones podría estar utilizando Higgsfield para intentar evitar el abuso, y, aunque no entraría en detalles específicos, afirmó que la plataforma emplea una combinación de moderación automatizada y manual.
'Hemos decidido implementar gradualmente el producto y probarlo primero en mercados selectos, para que podamos monitorear dónde existe el potencial para el abuso y evolucionar el producto según sea necesario', agregó Mashrabov.
Tendremos que esperar y ver cómo funciona eso en la práctica.