El equipo oficial de PyTorch anunció la integración de CuteDSL en TorchInductor como el cuarto backend de ajuste automático para multiplicación de matrices. Este backend, desarrollado por NVIDIA, compila rápidamente, es fácil de mantener y está especialmente optimizado para cálculos GEMM en FP8, con el objetivo de mejorar el rendimiento de los modelos Transformer.

MeNews

2026-04-23 21:23:33

Generación de resúmenes en curso

NOTICIAS de ME, 7 de abril (UTC+8), el equipo oficial de PyTorch anunció recientemente que ha integrado CuteDSL como el cuarto backend de optimización automática de multiplicación de matrices en TorchInductor. La selección de este backend se basó en tres criterios: no aumentar demasiado la carga de mantenimiento, no retrasar el tiempo de compilación o las pruebas de referencia, y ofrecer un mejor rendimiento en las cargas de trabajo objetivo. CuteDSL, desarrollado activamente por NVIDIA, proporciona plantillas de núcleos optimizados, cuyo tiempo de compilación es comparable al de los backends existentes y significativamente mejor que la ruta CUTLASS C++ que requiere compilación completa con \nvcc. Este backend está construido sobre la misma abstracción que CUTLASS C++, está escrito en Python, compila más rápido, es más fácil de mantener y ha demostrado un rendimiento potente en GEMM FP8 y en la fusión de Epílogo. El equipo se centra en optimizar GEMM (multiplicación de matrices) debido a que representa la mayor carga computacional en modelos Transformer. CuteDSL genera código subyacente mediante plantillas optimizadas manualmente, evitando la complejidad de escribir núcleos desde cero y exponiendo completamente la jerarquía de hilos y memoria, soportando funciones específicas de arquitectura. (Fuente: InFoQ)

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
Gate13thAnniversaryLive
1.11M Popularidad
#
WCTCTradingChallengeShare8MUSDT
825.12K Popularidad
#
BitcoinBouncesBack
227.4K Popularidad
#
IsraelStrikesIranBTCPlunges
30.72K Popularidad
#
EthereumMemeSeasonReturns
2.01M Popularidad

Anclado

PyTorch TorchInductor integra CuteDSL como backend de ajuste automático para multiplicación de matrices

Temas de actualidad

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

EthereumMemeSeasonReturns

Anclado