2024年02月24日 星期六
Text-to-Video Generator Sora a Mixed Blessing
By TANG Zhexiao

  

    OpenAI, the creator of ChatGPT and image generator DALL-E, launched a new artificial intelligence (AI) tool that enables users to create short videos from text prompts on February 15.

    Named "Sora," this AI-video tool can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions, OpenAI said. 

    However, the San Francisco-based startup admitted that the new tool still has some limitations, such as possibly "mixing up left and right", according to Agence France-Presse (AFP).

    The technology that supports Sora is an adaptation of DALL-E. It generates a video by starting off with noise and "gradually transforms it by removing the noise over many steps," the company explained. It recognizes objects and concepts listed in the written prompt and pulls them out of the noise, so to speak, until a coherent series of video frames emerge.

    The impact of Sora in shaping video generation and its implications for various industries has been seen through factors like enhanced text-to-video capabilities and exploration of novel applications.

    According to AFP, the French video game giant Ubisoft hailed the tool as a "quantum leap forward" with the potential to let players and development teams express their imaginations.

    "For professions like marketing or creative, multimodal models could be a game changer and could create significant cost savings for film and television makers, and may contribute to the proliferation of AI-generated content rather than using actors," Reece Hayden, senior analyst at a tech intelligence company ABI Research, told CBS MoneyWatch.

    Besides the praise by some AI researchers, concerns about security were also raised.

    "The video generation model is spurring excitement about advancing AI technology, along with growing concerns over how artificial deepfake videos worsen misinformation and disinformation during a pivotal election year worldwide," said New Scientist.

    Hany Farid, professor at the University of California, Berkeley, specializing in image analysis and digital forensics, said "text-to-video will continue to rapidly improve — moving us closer and closer to a time when it will be difficult to distinguish the fake from the real."

    The new video tool is not yet publicly available. OpenAI has restricted its use to "red teamers" and some visual artists, designers and filmmakers to test the product and deliver feedback before it is released more widely.

京ICP备06005116