Facebook meluncurkan proses pembelajaran mesin terbaru yang disebut Anticipative Video Transformer (AVT), yang mampu memprediksi tindakan di masa depan dengan menggunakan interpretasi visual. AVT berfungsi sebagai model yang berbasis perhatian ujung ke ujung untuk mengantisipasi tindakan dalam video.
Model baru ini didasarkan pada terobosan terbaru dalam arsitektur transformator, terutama untuk pemrosesan bahasa alami, dan pemodelan gambar untuk aplikasi. Mulai dari mobil self-driving hingga augmented reality.
AVT menganalisis suatu aktivitas untuk menunjukkan hasil potensial khusus untuk AR dan metaverse. Facebook berencana bahwa aplikasi metaverse digunakan untuk bekerja di platform dan perangkat keras lain, melalui API yang memungkinkan program untuk berbicara satu sama lain.
Mengantisipasi aktivitas masa depan adalah masalah yang sulit bagi AI (kecerdasan buatan) karena memerlukan prediksi distribusi multimodal aktivitas masa depan dan pemodelan arah tindakan sebelumnya.
AVT ini berbasis attention, sehingga dapat memproses urutan penuh secara paralel, sementara pendekatan berbasis jaringan saraf berulang sering melupakan yang telah berlalu, karena mereka perlu memprosesnya secara berurutan. AVT juga menampilkan fungsi yang mendorong model untuk menangkap sifat sekuensial video.
AVT terdiri dari dua bagian: backbone berbasis perhatian (AVT-b) yang beroperasi pada frame video, dan arsitektur kepala berbasis perhatian (AVT-h) yang beroperasi pada fitur yang diekstraksi oleh tulang punggung.
Menurut infoq.com, tulang punggung AVT-b didasarkan pada arsitektur vision transformer (VIT). Ini membagi frame menjadi tambalan yang tidak tumpang tindih, menyematkannya dengan jaringan feedforward, menambahkan token klasifikasi khusus, dan menerapkan beberapa lapisan self-attention multihead.
Melalui arsitektur tersebut AI mengambil fitur per-bingkai dan menerapkan arsitektur transformator lain. Hal ini akan membantu mengevaluasi fitur hanya dari frame yang ada saat ini dan sebelumnya. Disaat gilirannya, memungkinkan model untuk mengandalkan fitur masa lalu ketika menghasilkan representasi dari setiap frame individu.
AVT dapat digunakan sebagai pelatih aksi AR atau sebagai asisten kecerdasan buatan yang akan memperingatkan orang sebelum mereka melakukan kesalahan. Selain itu, AVT dapat membantu untuk tugas-tugas di luar yang dapat di antisipasi, seperti pembelajaran yang diawasi sendiri, penemuan skema dan batasan tindakan, bahkan untuk pengenalan tindakan umum dalam tugas-tugasnya yang memerlukan pemodelan urutan tindakan secara kronologis.