TensorRTProyectos de artículos

Artículos preliminares
Anonymous
 TensorRT

Post by Anonymous »

'''TensorRT''' es un kit de desarrollo de software (SDK) y un motor de inferencia (motor de inferencia) en tiempo de ejecución de optimización de inferencia desarrollado por Nvidia para implementar modelos capacitados de aprendizaje profundo y aprendizaje automático en unidades de procesamiento de gráficos (GPU).
En la documentación actual de Nvidia, el nombre TensorRT también se utiliza para una familia de productos más amplia que incluye el SDK principal de TensorRT, TensorRT-LLM y TensorRT-RTX.
== Historia ==
TensorRT estaba disponible como parte de la pila de software de aprendizaje profundo de Nvidia en 2017, cuando se describió como un motor de inferencia de alto rendimiento para implementar redes neuronales entrenadas en las GPU de Nvidia.
== Descripción general ==
El núcleo de TensorRT es una biblioteca de C++ que toma una red entrenada, que consta de una definición de red y parámetros entrenados, y produce un motor de tiempo de ejecución altamente optimizado para la inferencia en las GPU de Nvidia.
Según la documentación de Nvidia, TensorRT realiza optimizaciones a nivel de núcleo (reescritura de gráficos) (nivel de gráfico) y núcleo de computación (cómputo), como fusión de capas y selección de implementaciones eficientes para operaciones admitidas. cargas de trabajo de modelos de lenguaje.

Los motores TensorRT se pueden generar a través de las API de TensorRT o con la utilidad de línea de comandos ''trtexec''.
== Licencias y componentes de código abierto ==
El modelo de licencia en torno a TensorRT se divide entre un SDK central propietario y un conjunto de repositorios y herramientas de código abierto. El software TensorRT empaquetado distribuido por Nvidia se rige por el Acuerdo de licencia de software de Nvidia. Al mismo tiempo, Nvidia mantiene un repositorio público de TensorRT en GitHub bajo la licencia Apache 2.0.

La documentación oficial de TensorRT también dirige a los usuarios al repositorio de software de código abierto de TensorRT para obtener códigos de inicio rápido y ejemplos. La documentación de arquitectura describe herramientas relacionadas, como Polygraphy para depuración y plegado constante, así como ONNX-GraphSurgeon para modificar gráficos ONNX antes de la implementación con TensorRT.
== Familia de productos ==
La documentación actual de Nvidia agrupa varios productos de inferencia bajo el nombre TensorRT. En esa documentación, el SDK principal se distingue como '''TensorRT (Enterprise)''', mientras que las ofertas relacionadas incluyen TensorRT-LLM para inferencia de modelos de lenguaje grande y TensorRT-RTX para GPU GeForce RTX|RTX de consumo.

=== TensorRT-LLM ===
'''TensorRT-LLM''' es un conjunto de herramientas de código abierto relacionado para optimizar y ofrecer modelos de lenguaje grandes en GPU de Nvidia.
Según la documentación de la familia de productos de Nvidia, TensorRT-LLM admite ejecución de múltiples GPU y múltiples nodos, procesamiento por lotes en vuelo, transformador paginado (aprendizaje profundo)#almacenamiento en caché KV|almacenamiento en caché KV y modelo de lenguaje grande#cuantización|métodos de cuantificación como FP8, INT8 e INT4 para un servicio de modelos de mayor rendimiento. El código base de TensorRT-LLM está publicado en GitHub bajo la licencia Apache 2.0.
Debido a que Nvidia documenta TensorRT-LLM como un miembro separado de la familia de productos TensorRT, generalmente se trata como un proyecto de software relacionado pero distinto en lugar de como una característica única del SDK base de TensorRT.

== Ver también ==
* llama.cpp
* Idioma SGL
* vLLM
* Listas de software de inteligencia artificial de código abierto
* Comparación de software de aprendizaje profundo
* Comparación de software de aprendizaje automático

* [https://docs.nvidia.com/tensorrt-llm/index.html Documentación de TensorRT-LLM] de Nvidia
* [https://nvidia.github.io/TensorRT-LLM/ Documentación para desarrolladores de TensorRT-LLM GitHub]

Software 2017
Software de aprendizaje profundo
software de nvidia
Kits de desarrollo de software

More details: https://en.wikipedia.org/wiki/TensorRT