Nvidia's TensorRT Boosts AI Performance on GPUs by 70% for Stable Diffusion and 4.4x for Large Language Models

Nvidia has released TensorRT to optimize AI performance on its GPUs. Testing shows up to 70% faster Stable Diffusion performance.
TensorRT converts models to an optimized format specific for Nvidia GPUs. It further tunes models for specific resolutions and batch sizes.
RTX 40-series GPUs show the biggest gains from TensorRT due to 4th gen Tensor cores. But all RTX GPUs benefit.
TensorRT also optimizes large language models like Llama 2, improving throughput up to 4.4x with larger batch sizes.
TensorRT-LLM allows importing local data to generate more meaningful, personalized responses from language models.