OpenAI mengumumkan pada Kamis bahwa API-nya kini akan dilengkapi dengan sejumlah fitur kecerdasan suara baru yang dirancang untuk membantu pengembang membuat aplikasi yang mampu berbicara, mentranskrip, dan menerjemahkan percakapan dengan pengguna.
Menurut techcrunch.com, GPT-Realtime-2 yang baru dari perusahaan ini adalah model suara lain, yang dibuat untuk menciptakan simulasi suara realistis yang dapat bercakap-cakap dengan pengguna. Namun, tidak seperti pendahulunya (GPT-Realtime-1.5), model ini dibuat dengan penalaran kelas GPT-5 yang menurut OpenAI diciptakan untuk menangani permintaan yang lebih rumit dari pengguna.
Perusahaan juga meluncurkan GPT-Realtime-Translate, yang, seperti namanya, dirancang untuk menyediakan layanan terjemahan real-time yang mengikuti pengguna secara percakapan. Fitur ini mencakup lebih dari 70 bahasa input (yaitu, bahasa yang dapat dipahami) dan 13 bahasa output (bahasa yang diteruskan kepada pengguna).
Terakhir, perusahaan ini juga telah meluncurkan kemampuan transkripsi baru, GPT-Realtime-Whisper, yang memberikan pengguna kemampuan konversi ucapan ke teks secara langsung yang direkam saat interaksi berlangsung.
“Secara keseluruhan, model-model yang kami luncurkan ini mengubah audio real-time dari sekadar tanya-jawab menjadi antarmuka suara yang benar-benar dapat bekerja: mendengarkan, bernalar, menerjemahkan, mentranskripsi, dan mengambil tindakan seiring berjalannya percakapan,” kata perusahaan tersebut.
Untuk siapa pembaruan ini bermanfaat? Perusahaan yang ingin memperluas kemampuan layanan pelanggannya jelas menjadi sasaran utama. Namun, OpenAI juga mencatat bahwa fitur-fitur barunya akan membantu berbagai bidang, termasuk pendidikan, media, acara, dan platform kreator, di antara bidang lainnya.
Meskipun alat-alat ini tampak berguna dari perspektif perusahaan, tampaknya juga mungkin bahwa alat-alat ini dapat disalahgunakan. Perusahaan tersebut mengatakan telah membangun pengaman untuk mencegah fitur-fitur barunya disalahgunakan untuk membuat spam, penipuan, atau bentuk penyalahgunaan online lainnya. Pemicu tertentu telah disematkan dalam sistem sehingga “percakapan dapat dihentikan jika terdeteksi melanggar pedoman konten berbahaya kami,” kata OpenAI.
Semua model suara baru ini termasuk dalam API Realtime OpenAI. Translate dan Whisper ditagih per menit, sedangkan GPT-Realtime-2 ditagih berdasarkan konsumsi token.
