Google DeepMind telah meluncurkan alat AI baru untuk menghasilkan soundtrack video. Selain menggunakan perintah teks untuk menghasilkan audio, alat DeepMind juga mempertimbangkan konten video.
Dengan menggabungkan keduanya, DeepMind mengatakan bahwa pengguna dapat menggunakan alat ini untuk membuat adegan dengan skor drama, efek suara realistis, atau dialog yang sesuai dengan karakter dan nada video. Anda dapat melihat beberapa contoh yang diposting di situs web DeepMind dan kedengarannya cukup bagus.
Untuk video mobil yang melaju melalui lanskap kota bergaya cyberpunk, Google menggunakan perintah “mobil tergelincir, mesin mobil melambat, musik elektronik malaikat” untuk menghasilkan audio. Anda bisa melihat bagaimana suara selip sesuai dengan gerakan mobil. Contoh lain menciptakan lanskap suara bawah air dengan menggunakan prompt, “ubur-ubur berdenyut di bawah air, kehidupan laut, lautan.”
Meskipun pengguna dapat menyertakan perintah teks, DeepMind mengatakan bahwa ini opsional. Pengguna juga tidak perlu mencocokkan audio yang dihasilkan dengan adegan yang sesuai secara cermat. Menurut DeepMind, alat ini juga dapat menghasilkan jumlah soundtrack yang tidak terbatas untuk video, sehingga pengguna dapat menghasilkan opsi audio yang tak terbatas.
Menurut theverge.com, hal ini dapat membantunya menonjol dari alat AI lainnya, seperti generator efek suara dari ElevenLabs, yang menggunakan petunjuk teks untuk menghasilkan audio. Hal ini juga dapat mempermudah untuk memasangkan audio dengan video yang dihasilkan AI dari alat seperti Veo dan Sora dari DeepMind (yang terakhir ini pada akhirnya akan menggabungkan audio).
DeepMind mengatakan bahwa mereka melatih alat AI-nya pada video, audio, dan anotasi yang berisi “deskripsi rinci tentang suara dan transkrip dialog yang diucapkan.” Hal ini memungkinkan generator video-ke-audio untuk mencocokkan peristiwa audio dengan adegan visual.(ra)