Technologue.id, Jakarta - NVIDIA meluncurkan model AI generatif eksperimental baru, yang disebut Foundational Generative Audio Transformer Opus 1, atau Fugatto. Keunggulan Fugatto adalah dapat melaksanakan tugas dari perintah teks dan menggunakannya untuk membuat audio atau memodifikasi file musik, suara, dan suara yang ada.
Fugatto dirancang oleh tim peneliti AI dari seluruh dunia, dan NVIDIA mengklaim hal itu membuat kemampuan multi-aksen dan multibahasa model tersebut lebih kuat.
“Kami ingin menciptakan model yang memahami dan menghasilkan suara seperti yang dilakukan manusia,” kata Rafael Valle, salah satu peneliti di balik proyek tersebut dan manajer penelitian audio terapan di NVIDIA, sebagaimana dikutip dari Engadget (25/11/2024).
Baca Juga:
Sederet Inovasi yang Dikembangkan Nvidia, GPU hingga Ray Tracing
Raksasa teknologi tersebut mencantumkan beberapa kemungkinan skenario di mana Fugatto dapat digunakan dalam setiap pengumuman. Misalnya, produser musik dapat menggunakan teknologi ini untuk dengan cepat menghasilkan prototipe ide lagu, yang kemudian dapat mereka edit dengan mudah untuk mencoba gaya, suara, dan instrumen yang berbeda.
Di sisi lain, orang-orang dapat menggunakan Fugatto untuk menghasilkan materi tool pembelajaran bahasa sesuai pilihan mereka. Sedangkan developer video game dapat menggunakannya untuk membuat variasi aset yang direkam sebelumnya agar sesuai dengan perubahan dalam game berdasarkan pilihan dan tindakan pemain.
Selain itu, para peneliti menemukan bahwa model tersebut dapat menyelesaikan tugas-tugas yang bukan bagian dari pra-trainingnya, dengan beberapa penyesuaian. Ini bisa menggabungkan instruksi yang dilatih secara terpisah, seperti menghasilkan ucapan yang terdengar marah dengan aksen tertentu atau suara kicauan burung saat terjadi badai petir. Model ini juga dapat menghasilkan suara yang berubah seiring waktu.
Baca Juga:
Sejarah Berdirinya NVIDIA dari Awal Hingga Masuk Era AI
NVIDIA tidak mengatakan apakah mereka akan memberikan akses publik ke Fugatto, namun model tersebut bukanlah teknologi AI generatif pertama yang dapat menghasilkan suara dari perintah teks. Meta sebelumnya merilis kit AI open source yang dapat menghasilkan suara dari deskripsi teks. Google memiliki AI text-to-music sendiri yang disebut MusicLM, yang dapat diakses orang melalui situs web AI Test Kitchen milik perusahaan.