Jakarta, Gizmologi – – Generative AI semakin memengaruhi cara orang berkreasi dan berinteraksi dengan konten digital. Namun, semakin canggih dan kompleks sebuah model AI, semakin besar juga kebutuhan hardware. Contohnya, model Stable Diffusion 3.5 Large membutuhkan lebih dari 18 GB VRAM untuk berjalan optimal dan membatasi jumlah perangkat yang bisa mengoperasikannya dengan lancar.
Berdasarkan laporan resmi dari laman NVIDIA, dengan Stability AI keduanya melakukan pendekatan efisiensi baru lewat proses quantization. Dengan memangkas presisi pada lapisan model yang tidak kritikal, mereka berhasil memangkas kebutuhan VRAM hingga 40% tanpa mengorbankan kualitas visual. Proses ini dimungkinkan berkat dukungan GPU NVIDIA GeForce RTX 40 Series dan RTX PRO generasi Ada Lovelace yang sudah mendukung format FP8, serta tambahan dukungan FP4 pada GPU NVIDIA Blackwell terbaru.
Berkat optimasi melalui TensorRT SDK, pengguna bisa menghasilkan gambar dua kali lebih cepat dibanding metode sebelumnya. Kini, lebih dari 100 juta pengguna PC dengan GPU RTX bisa menikmati proses AI image generation yang lebih ringan, cepat, dan hemat daya.
Baca Juga: NVIDIA Siapkan GeForce RTX 5050, GPU Entry-Level Terbaru dari Keluarga Blackwell
FP8 & TensorRT untuk Stabilitas dan Performa untuk Semua Pengguna

Salah satu langkah besar dari kolaborasi NVIDIA dan Stability AI adalah men-quantize model Stable Diffusion 3.5 Large ke format FP8. Hasilnya, kebutuhan VRAM turun dari 18 GB menjadi hanya 11 GB. Ini berarti, model yang tadinya hanya bisa dijalankan di satu GPU kelas atas, kini bisa dijalankan paralel di lima GPU GeForce RTX 50 Series sekaligus.
Selain hemat memori, peningkatan kecepatan juga signifikan. Dalam pengujian internal, Stable Diffusion 3.5 Large versi FP8 dengan TensorRT memberikan peningkatan performa hingga 2,3 kali lipat dibanding model BF16 yang berjalan di PyTorch. Bahkan pada versi Medium, peningkatan kecepatannya mencapai 1,7 kali lipat.
Performa ini tak lepas dari kemampuan TensorRT sebagai backend AI yang secara cerdas mengoptimalkan bobot (weights) dan alur instruksi model (graph) agar sesuai dengan Tensor Core pada GPU RTX. Ini memastikan setiap tugas inferensi berjalan seefisien dari segi waktu, daya, maupun sumber daya komputasi.
TensorRT Kini Tersedia Sebagai SDK Mandiri
Diumumkan dalam ajang Microsoft Build, TensorRT untuk RTX kini hadir sebagai SDK mandiri, siap diunduh dan digunakan oleh para pengembang. Sebelumnya, developer harus membuat engine TensorRT yang spesifik untuk tiap kelas GPU. Ini memakan waktu dan menyulitkan integrasi lintas perangkat.
Versi terbaru dari TensorRT mengubah pendekatan itu. Kini, developer cukup membuat engine generik yang bisa dikompilasi secara just-in-time (JIT) langsung di perangkat pengguna. Proses ini bisa dilakukan secara otomatis di latar belakang saat instalasi atau saat pertama kali fitur digunakan. Dengan ukuran paket 8 kali lebih kecil, SDK ini jauh lebih ringan dan mudah diintegrasikan ke sistem berbasis Windows ML.
TensorRT untuk RTX bisa diakses melalui situs resmi NVIDIA Developer atau langsung dicoba dalam versi preview dari Windows ML. Kemudahan ini membuka pintu bagi lebih banyak pengembang untuk menerapkan teknologi AI di aplikasi mereka tanpa harus pusing dengan kompatibilitas GPU atau kebutuhan VRAM tinggi.
Selain di sektor developer, manfaat dari optimasi ini juga langsung dirasakan oleh para kreator visual dan pengguna umum. Dengan versi terbaru Stable Diffusion 3.5 yang tersedia di halaman Stability AI di Hugging Face, siapa pun bisa mencoba membuat gambar berkualitas tinggi tanpa memerlukan PC super mahal. Ini adalah langkah besar menuju demokratisasi akses AI generatif.
NVIDIA dan Stability AI juga tengah menyiapkan versi Stable Diffusion 3.5 dalam bentuk layanan mikro (NIM microservice), yang rencananya akan dirilis bulan Juli mendatang. Layanan ini akan mempermudah integrasi model ke berbagai platform dan aplikasi secara real-time.
Bagi yang ingin melihat langsung teknologi terbaru dari NVIDIA, GTC Paris masih berlangsung hingga 12 Juni. Di ajang ini, CEO NVIDIA Jensen Huang telah menyampaikan presentasi utama mengenai terobosan dalam infrastruktur cloud AI, agentic AI, dan physical AI. Tayangan ulangnya bisa ditonton untuk melihat gambaran masa depan AI secara lebih luas.
Eksplorasi konten lain dari Gizmologi.id
Berlangganan untuk dapatkan pos terbaru lewat email.