PyTorch TorchInductor integra CuteDSL como backend de ajuste automático para multiplicación de matrices

robot
Generación de resúmenes en curso

NOTICIAS de ME, 7 de abril (UTC+8), el equipo oficial de PyTorch anunció recientemente que ha integrado CuteDSL como el cuarto backend de optimización automática de multiplicación de matrices en TorchInductor. La selección de este backend se basó en tres criterios: no aumentar demasiado la carga de mantenimiento, no retrasar el tiempo de compilación o las pruebas de referencia, y ofrecer un mejor rendimiento en las cargas de trabajo objetivo. CuteDSL, desarrollado activamente por NVIDIA, proporciona plantillas de núcleos optimizados, cuyo tiempo de compilación es comparable al de los backends existentes y significativamente mejor que la ruta CUTLASS C++ que requiere compilación completa con \nvcc. Este backend está construido sobre la misma abstracción que CUTLASS C++, está escrito en Python, compila más rápido, es más fácil de mantener y ha demostrado un rendimiento potente en GEMM FP8 y en la fusión de Epílogo. El equipo se centra en optimizar GEMM (multiplicación de matrices) debido a que representa la mayor carga computacional en modelos Transformer. CuteDSL genera código subyacente mediante plantillas optimizadas manualmente, evitando la complejidad de escribir núcleos desde cero y exponiendo completamente la jerarquía de hilos y memoria, soportando funciones específicas de arquitectura. (Fuente: InFoQ)

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado