Nvidia dan Microsoft mengumumkan model bahasa transformator monolitik terbesar mereka hingga saat ini, model AI dengan 530 miliar parameter yang mereka kembangkan bersama, bernama model Megatron-Turing Natural Language Generation.
MT-NLG lebih kuat daripada sistem berbasis transformator sebelumnya yang dilatih oleh kedua perusahaan, yaitu model Turing-NLG Microsoft dan Megatron-LM Nvidia. Model ini terdiri dari tiga kali lebih banyak parameter yang tersebar di 105 lapisan, MT-NLG jauh lebih besar dan lebih kompleks. Sebagai perbandingan, model GPT-3 OpenAI memiliki 175 miliar parameter dan demo Switch Transformer Google memiliki 1,6 triliun parameter.
Lebih besar umumnya lebih baik dalam hal jaringan. Ini mengharuskan mereka untuk menyerap lebih banyak data pelatihan. MT-NLG lebih baik dalam berbagai tugas bahasa alami seperti melengkapi kalimat secara otomatis, tanya jawab, dan membaca jika dibandingkan dengan pendahulunya. MT-NLG juga dapat melakukan tugas-tugas ini dengan sedikit lebih baik atau tanpa fine-tuning, sesuatu yang disebut sebagai pembelajaran mesin.
Ketika model bahasa ini menjadi lebih besar, peneliti dan insinyur AI perlu menemukan segala macam teknik dan trik untuk melatihnya. Ini membutuhkan koordinasi yang cermat, model dan data pelatihannya harus disimpan dan diproses di banyak chip pada saat yang bersamaan.
Menurut The Next Platform.MLT-NLG dilatih menggunakan superkomputer pembelajaran mesin Selene Nvidia, sebuah sistem yang terdiri dari 560 server DGX A100 dengan setiap server berisi delapan GPU A100 80GB. Selene juga ditenagai oleh prosesor CPU AMD EPYC 7v742 dan diperkirakan menelan biaya lebih dari 85 juta dolar,
Semua 4.480 GPU menggunakan NvLink dan NVSwitch untuk terhubung satu sama lain. Masing-masing mampu beroperasi lebih dari 113 teraFLOP per detik. Sangat mahal untuk melatih model ini dan bahkan jika mereka berjalan pada perangkat keras terbaik, akan membutuhkan perangkat lunak yang handal untuk mengurangi waktu pelatihan.
Nvidia dan Microsoft menggunakan DeepSpeed, perpustakaan pembelajaran mendalam yang berisi kode PyTorch yang memungkinkan para insinyur menambahkan lebih banyak data di berbagai saluran secara paralel untuk meningkatkan Megatron-LM. Secara keseluruhan, 1,5 TB data diproses untuk melatih model dalam proses yang memakan waktu lebih dari sebulan.
“Dengan menggabungkan tensor-slicing dan paralelisme pipa, kami dapat mengoperasikannya dalam keadaan di mana mereka paling efektif,” ujar Paresh Kharya, direktur senior manajemen produk dan pemasaran untuk komputasi yang dipercepat di Nvidia , dan Ali Alvi, manajer program grup untuk Microsoft Tim Turing, dijelaskan dalam posting blog.
“Lebih khusus lagi, sistem ini menggunakan tensor-slicing dari Megatron-LM untuk menskalakan model di dalam sebuah node dan menggunakan paralelisme pipeline dari DeepSpeed untuk menskalakan model di seluruh node,” katanya
“Misalnya, untuk model 530 miliar, setiap replika model mencakup 280 GPU Nvidia A100, dengan tensor-slicing 8 arah dalam satu node dan paralelisme pipa 35 arah di seluruh node. Kemudian kami menggunakan paralelisme data dari DeepSpeed untuk memperluas lebih jauh ke ribuan GPU,” tambahnya.
MT-NLG dilatih pada dataset raksasa yang dikenal sebagai The Pile. Disusun oleh Eleuther AI, sekelompok peneliti dan insinyur AI yang memimpin upaya model bahasa besar sumber terbuka, ini terdiri dari beberapa kumpulan data yang lebih kecil dengan total teks senilai 825GB yang diambil dari internet dari sumber seperti Wikipedia, repositori jurnal akademik, dan kliping berita.
Berurusan dengan volume teks yang begitu besar berarti kumpulan data tidak dapat dibersihkan dari bahasa yang tidak pantas. Sayangnya, ini berarti MT-NLG dapat menghasilkan output ofensif yang mungkin rasis atau seksis.
“Pengamatan kami dengan MT-NLG adalah bahwa model mengambil stereotip dari data yang dilatihnya,” kata Kharya dan Alvi.
“Microsoft dan NVIDIA berkomitmen untuk bekerja mengatasi masalah ini. Kami mendorong penelitian lanjutan untuk membantu mengukur bias model. Selain itu, setiap penggunaan MT-NLG dalam skenario produksi harus memastikan bahwa langkah-langkah yang tepat diterapkan untuk mengurangi dan meminimalkan potensi bahaya bagi pengguna.”