OpenAI meluncurkan model pembuatan video baru, yang disebut Sora. Perusahaan AI mengatakan Sora “dapat menciptakan adegan yang realistis dan imajinatif dari instruksi teks.” Model teks-ke-video memungkinkan pengguna membuat video fotorealistik berdurasi hingga satu menit, semuanya berdasarkan perintah yang mereka tulis.
Menurut theverge.com, Sora mampu menciptakan “adegan kompleks dengan banyak karakter, jenis gerakan tertentu, dan detail subjek dan latar belakang yang akurat,” menurut postingan blog pengantar OpenAI. Perusahaan juga mencatat bahwa model tersebut dapat memahami bagaimana objek ada di dunia fisik, serta menafsirkan properti secara akurat dan menghasilkan karakter menarik yang mengekspresikan emosi yang hidup.
Model ini juga dapat menghasilkan video berdasarkan gambar diam, serta mengisi frame yang hilang pada video yang ada atau memperluasnya. Demo yang dibuat Sora yang disertakan dalam postingan blog OpenAI mencakup pemandangan udara California selama demam emas, video yang terlihat seperti diambil dari dalam kereta Tokyo, dan lain-lain. Banyak yang memiliki tanda-tanda AI, seperti lantai bergerak yang mencurigakan dalam video museum, dan OpenAI mengatakan model tersebut “mungkin kesulitan dalam mensimulasikan fisika pemandangan kompleks secara akurat,” tetapi hasilnya secara keseluruhan cukup mengesankan.
Beberapa tahun yang lalu, generator teks-ke-gambar seperti Midjourney berada di garis depan dalam kemampuan model untuk mengubah kata menjadi gambar. Namun baru-baru ini, video mulai meningkat dengan kecepatan yang luar biasa: perusahaan seperti Runway dan Pika telah menunjukkan model text-to-video mereka yang mengesankan, dan Lumiere Google juga menjadi salah satu pesaing utama OpenAI di bidang ini. Mirip dengan Sora, Lumiere memberi pengguna alat teks-ke-video dan juga memungkinkan mereka membuat video dari gambar diam.
Sora saat ini hanya tersedia untuk “red teamers” yang sedang menilai potensi bahaya dan risiko pada model tersebut. OpenAI juga menawarkan akses ke beberapa seniman visual, desainer, dan pembuat film untuk mendapatkan masukan. Laporan ini mencatat bahwa model yang ada mungkin tidak secara akurat mensimulasikan fisika suatu pemandangan yang kompleks dan mungkin tidak menafsirkan dengan tepat kejadian sebab dan akibat tertentu.(ra)