Reddit menyatakan bahwa mereka telah mendeteksi perusahaan kecerdasan buatan (AI) yang mengumpulkan data mereka dari Wayback Machine milik Internet Archive, sehingga mereka akan mulai memblokir Internet Archive dari mengindeks sebagian besar konten Reddit.
Menurut theverge.com, Wayback Machine tidak lagi dapat mengindeks halaman detail posting, komentar, atau profil; sebaliknya, Wayback Machine hanya dapat mengindeks halaman utama Reddit.com, yang secara efektif berarti Internet Archive hanya dapat mengarsipkan informasi tentang berita dan posting mana yang paling populer pada hari tertentu.
“Internet Archive menyediakan layanan untuk web terbuka, tetapi kami telah mengetahui adanya kasus di mana perusahaan AI melanggar kebijakan platform, termasuk milik kami, dan mengumpulkan data dari Wayback Machine,” kata juru bicara Tim Rathschmidt kepada The Verge.
Misi Internet Archive adalah untuk menyimpan arsip digital dari situs web di internet dan benda-benda budaya lainnya, dan Wayback Machine adalah alat yang dapat Anda gunakan untuk melihat halaman-halaman sebagaimana tampil pada tanggal tertentu, tetapi Reddit percaya bahwa tidak semua kontennya harus diarsipkan dengan cara itu. “Sampai mereka dapat melindungi situs mereka dan mematuhi kebijakan platform (misalnya, menghormati privasi pengguna, terkait penghapusan konten yang dihapus), kami membatasi akses mereka ke data Reddit untuk melindungi pengguna Reddit,” kata Rathschmidt.
Pembatasan ini akan mulai ditingkatkan hari ini, dan Reddit mengatakan telah menghubungi Internet Archive sebelumnya untuk memberitahu mereka tentang pembatasan sebelum berlaku, menurut Rathschmidt. Dia juga mengatakan Reddit telah mengungkapkan kekhawatiran tentang kemampuan orang untuk mengumpulkan konten dari Internet Archive di masa lalu.
Reddit memiliki riwayat baru-baru ini dalam memblokir akses ke alat pengikisan data seiring dengan penggunaan (dan penyalahgunaan) alat-alat tersebut secara massal oleh perusahaan AI, tetapi Reddit bersedia menyediakan data tersebut jika perusahaan membayar. Tahun lalu, Reddit menandatangani kesepakatan dengan Google untuk data pencarian Google dan data pelatihan AI pada awal tahun lalu, dan beberapa bulan kemudian, ia mulai memblokir mesin pencari besar dari mengindeks datanya kecuali mereka membayar. Ia juga mengatakan bahwa perubahan API yang kontroversial pada 2023, yang memaksa beberapa aplikasi pihak ketiga untuk ditutup dan memicu protes, disebabkan karena API tersebut disalahgunakan untuk melatih model AI.
Reddit juga menandatangani kesepakatan AI dengan OpenAI, tetapi pada Juni lalu, Reddit menggugat Anthropic dengan klaim bahwa Anthropic masih mengumpulkan data dari Reddit meskipun Anthropic telah menyatakan bahwa mereka tidak lagi melakukan hal tersebut.
“Kami memiliki hubungan yang sudah lama terjalin dengan Reddit dan terus melakukan pembicaraan mengenai hal ini,” kata Mark Graham, direktur Wayback Machine, dalam pernyataan kepada The Verge.