La firma OpenAI, creadora de ChatGPT, ha desarrollado ahora Sora, un modelo de inteligencia artificial capaz de crear vídeos de hasta 60 segundos, con resultados de un realismo sorprendente, a partir de instrucciones de texto.
«Estamos enseñando a la inteligencia artificial a entender y simular el mundo físico en movimiento», subrayan en el blog de presentación de este nuevo modelo. Junto a una explicación, aportan una serie de vídeos de distinto tipo que, asegura OpenAI, han sido creados con Sora y no han tenido modificación posterior alguna.
Precisamente, el vídeo que acompaña esta información es uno de los creados a partir de Sora. En este caso, el prompt (instrucción) es este: «Una mujer elegante camina por una calle de Tokyo llena de cálidos neones brillantes y letreros de la ciudad animados. Lleva puesta una chaqueta de cuero negro, un vestido largo rojo y botas negras, y lleva un bolso negro. Luce gafas de sol y lápiz labial rojo. Camina con confianza y de manera casual. La calle está húmeda y reflectante, creando un efecto de espejo de las luces coloridas. Muchos peatones caminan por allí».
No accesible todavía
La compañía señala que, por el momento, están testando a Sora para evaluar «áreas críticas de daños o riesgos», y también están dando acceso a un número de artistas visuales, diseñadores y cineastas para obtener un feedback y hacer al modelo más útil.
«Estamos compartiendo nuestro progreso de investigación temprano para comenzar a trabajar y obtener retroalimentación de personas fuera de OpenAI y para dar al público una idea de cuáles son las capacidades de la IA que están en el horizonte», explican.
La compañía avanza también su intención de «involucrarse» con políticos, educadores y artistas de todo el mundo «para comprender sus preocupaciones e identificar casos de uso positivos para esta nueva tecnología»: «A pesar de una investigación y pruebas extensas, no podemos prever todas las formas beneficiosas en que las personas utilizarán nuestra tecnología, ni todas las formas en que las personas la abusarán. Por eso creemos que aprender del uso en el mundo real es un componente crítico para crear y lanzar sistemas de IA cada vez más seguros con el tiempo».
Posibilidades y limitaciones
Si ya los vídeos de muestra arrojan resultados impresionantes, OpenAI señala que este modelo «puede generar escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y del fondo».
«El modelo comprende no solo lo que el usuario ha solicitado en la indicación, sino también cómo esas cosas existen en el mundo físico», añade.
No obstante, la compañía reconoce también que el modelo actual aún tiene debilidades: «Puede tener dificultades para simular con precisión la física de una escena compleja, y puede no entender instancias específicas de causa y efecto. Por ejemplo, una persona podría darle un mordisco a una galleta, pero después, la galleta podría no tener una marca de mordisco».
Sora también puede «confundir», según sus creadores, «detalles espaciales de una indicación, por ejemplo, mezclando izquierda y derecha, y puede tener dificultades con descripciones precisas de eventos que ocurren a lo largo del tiempo, como seguir una trayectoria de cámara específica».