OpenAI mengumumkan pada Kamis bahwa API-nya kini akan dilengkapi dengan sejumlah fitur kecerdasan suara baru yang dirancang untuk membantu pengembang membuat aplikasi yang mampu berbicara, mentranskrip, dan menerjemahkan percakapan dengan pengguna.
Menurut techcrunch.com, model suara baru perusahaan, GPT-Realtime-2, dirancang untuk menciptakan simulasi suara yang realistis yang dapat berinteraksi dengan pengguna. Namun, berbeda dengan pendahulunya (GPT-Realtime-1.5), model ini dibangun dengan kemampuan penalaran kelas GPT-5 yang, menurut OpenAI, dirancang untuk menangani permintaan yang lebih kompleks dari pengguna.
Perusahaan ini juga meluncurkan GPT-Realtime-Translate, yang, seperti namanya, dirancang untuk menyediakan layanan terjemahan real-time yang mengikuti pengguna secara percakapan. Fitur ini mencakup lebih dari 70 bahasa masukan (yaitu, bahasa yang dapat dipahaminya) dan 13 bahasa keluaran (bahasa yang diterjemahkan kepada pengguna).
Terakhir, perusahaan juga meluncurkan kemampuan transkripsi baru, GPT-Realtime-Whisper, yang memberikan pengguna kemampuan speech-to-text secara langsung yang direkam saat interaksi berlangsung. “Secara bersama-sama, model-model yang kami luncurkan ini mengubah audio real-time dari sekadar tanya-jawab menjadi antarmuka suara yang benar-benar dapat melakukan tugas: mendengarkan, berlogika, menerjemahkan, mentranskripsi, dan mengambil tindakan seiring berjalannya percakapan,” kata perusahaan tersebut.
Siapa yang akan diuntungkan dari pembaruan ini? Perusahaan yang ingin memperluas kemampuan layanan pelanggan adalah target yang jelas. Namun, OpenAI juga mencatat bahwa fitur-fitur barunya akan membantu berbagai bidang, termasuk pendidikan, media, acara, dan platform kreator, di antara yang lainnya.
Meskipun alat-alat ini tampak sangat berguna dari sudut pandang perusahaan, tampaknya juga ada kemungkinan bahwa alat-alat tersebut dapat disalahgunakan. Perusahaan tersebut menyatakan telah menerapkan mekanisme pengamanan untuk mencegah fitur-fitur barunya disalahgunakan untuk membuat spam, penipuan, atau bentuk-bentuk penyalahgunaan daring lainnya. Beberapa pemicu telah diintegrasikan ke dalam sistem sehingga “percakapan dapat dihentikan jika terdeteksi melanggar pedoman konten berbahaya kami,” kata OpenAI.
Semua model suara baru tersebut termasuk dalam API Realtime OpenAI. Translate dan Whisper ditagih per menit, sedangkan GPT-Realtime-2 ditagih berdasarkan konsumsi token.
