Primera evaluación: La IA corrige código, pero la mayoría probablemente "empeore las cosas". ¿Deben los programadores preocuparse por su empleo?

Question

En los últimos años, la capacidad de programación de los grandes modelos de IA ha avanzado rápidamente, y las principales empresas de IA compiten en las pruebas de referencia de programación, batiendo récords continuamente. Esto ha generado preocupación entre muchos programadores: ¿la IA pronto nos quitará nuestro trabajo?

Sin embargo, un nuevo estudio conjunto de la Universidad Sun Yat-sen y Alibaba ha tranquilizado a los programadores.

El 4 de marzo, ambas instituciones publicaron los resultados de una evaluación. Esta prueba, titulada “SWE-CI: Evaluación de la capacidad de los agentes para mantener bases de código mediante integración continua” (SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration), evaluó por primera vez de manera rigurosa y sistemática la capacidad de mantenimiento a largo plazo de 18 modelos de IA de 8 principales fabricantes, incluyendo Anthropic, OpenAI, Kimi y DeepSeek.

La prueba incluyó 100 tareas, con un consumo de tokens superior a 10 mil millones. Los resultados mostraron que la serie Claude Opus lidera en rendimiento global.

En cuanto a la estabilidad del rendimiento, la mayoría de los grandes modelos como Qianwen, DeepSeek, MiniMax, Kimi y Doubao mostraron un rendimiento claramente deficiente. Es decir, en el mantenimiento a largo plazo, la IA puede empeorar el código con cada modificación.

El equipo chino lanza el primer sistema de evaluación global para medir la capacidad de mantenimiento a largo plazo de grandes modelos de IA

Durante mucho tiempo, los principales estándares de evaluación de la capacidad de programación de IA se han basado en evaluaciones instantáneas, centradas en “recibir una solicitud y entregar una solución en una sola vez”.

Sin embargo, este método solo verifica si el modelo puede generar código correcto en una sola ocasión, sin reflejar las necesidades reales del desarrollo de software, que requiere iteraciones continuas y mantenimiento a largo plazo.

En la práctica, los software maduros rara vez se crean de la noche a la mañana; son el resultado de un mantenimiento prolongado. La ley de Lehman indica que la calidad del software tiende a deteriorarse naturalmente con el tiempo. Además, el trabajo de mantenimiento representa entre el 60% y el 80% del costo total del ciclo de vida del software.

Para evaluar el rendimiento de la IA en mantenimiento a largo plazo, la Universidad Sun Yat-sen y el equipo de Alibaba lanzaron el estándar de evaluación SWE?CI. Este es el primer sistema en el mundo diseñado específicamente para evaluar la capacidad de los agentes de IA en mantenimiento a largo plazo. Ya no basta con verificar si la IA puede producir código correcto en una sola vez; ahora se evalúa si, como un ingeniero de software real, puede mantener la calidad del código durante meses o incluso años de desarrollo.

La construcción del estándar SWE?CI pasó por cuatro niveles de selección rigurosa, formando finalmente un conjunto de evaluación de alta calidad.

El equipo seleccionó 4,923 repositorios de código Python en GitHub con más de 3 años de mantenimiento, más de 500 estrellas, dependencias y pruebas unitarias completas, y licencias permisivas como MIT o Apache 2.0. Luego, extrajeron pares de commits con dependencias estables y cambios superiores a 1000 líneas, obteniendo 8,311 muestras candidatas. Mediante la automatización de entornos Docker y mecanismos de auto-reparación de dependencias, conservaron 1,458 pares funcionales. Finalmente, tras validaciones de arranque, filtrado por tasas de éxito y ordenación por tiempo y número de commits, seleccionaron 100 tareas finales.

Cada una de estas tareas representa la evolución completa de un proyecto de software real, con un promedio de 233 días de desarrollo y 71 registros de commits consecutivos. Además, diseñaron un mecanismo de colaboración entre dos agentes inteligentes: arquitecto y programador, inspirado en la división de roles en equipos de desarrollo reales.

Para adaptarse a evaluaciones de iteración prolongada, SWE?CI introduce dos métricas principales: “Cambio Normalizado” y “EvoScore” (Puntuación de Evolución).

El “Cambio Normalizado” se basa en la cantidad de casos de prueba aprobados, mapeando el estado del código en el rango [-1, 1], donde valores positivos indican mejoras funcionales y negativos indican deterioro.

EvoScore se centra en medir el rendimiento de los grandes modelos en tareas de modificación futura.

Resultados de la prueba: Claude Opus lidera claramente, y la mayoría de los modelos dañan el código en el 75% de las tareas

El equipo evaluó sistemáticamente 18 modelos de 8 empresas — Moonshade, Anthropic, Zhipu, Qianwen, MiniMax, DeepSeek, OpenAI y Doubao — consumiendo más de 10 mil millones de tokens en total. Este volumen de experimentos es sin precedentes en el campo de evaluación de programación de IA.

Los resultados muestran que, en términos temporales, la evolución de la capacidad de mantenimiento de los modelos de IA sigue una curva de aceleración clara.

De la gráfica se puede ver que las versiones más recientes de los modelos de la misma empresa son generalmente más estables que las anteriores, y después de 2026 la mejora se acelera notablemente, con EvoScore más alto. Esto indica que la capacidad de código de los grandes modelos está pasando de reparaciones de defectos estáticos a un mantenimiento continuo y a largo plazo.

Entre todos los modelos evaluados, la serie Claude Opus destaca, con un EvoScore que sube de aproximadamente 0.9 en Claude-opus-4.5 a ese valor en Claude-opus-4.6, marcando una diferencia significativa con sus competidores.

En los modelos chinos, la serie GLM de Zhipu ha mostrado avances notables, posicionándose como la segunda más competitiva. Le siguen Qwen y MiniMax, con tendencias positivas. Aunque Kimi y Doubao también mejoraron, no lograron avances significativos.

El estudio también revela diferencias en las estrategias de entrenamiento entre fabricantes.

Específicamente, MiniMax, DeepSeek y la serie GPT de OpenAI prefieren estrategias orientadas a beneficios a largo plazo, mostrando ventajas en tareas de mantenimiento prolongado. Esto sugiere que estos modelos tienden a generar código con estrategias que favorecen la evolución y estabilidad a largo plazo, en lugar de soluciones óptimas para reparaciones rápidas.

En contraste, Kimi y la serie GLM de Zhipu parecen centrarse en optimizaciones de efectos a corto plazo.

Por otro lado, los modelos de Qianwen, Doubao y la serie Claude muestran un equilibrio entre efectos a corto y largo plazo, reflejando estrategias de entrenamiento que buscan un rendimiento equilibrado en ambos aspectos.

Otra conclusión clave es que, en mantenimiento a largo plazo, todos los modelos muestran un rendimiento deficiente en el control de la regresión (performance regression).

La regresión de rendimiento es un indicador clave de la estabilidad de la calidad del software. Si una prueba de unidad pasa antes de una actualización y falla después, se considera que esa modificación ha causado regresión. La presencia de regresión no solo afecta la experiencia del usuario, sino que, acumulándose con las modificaciones, puede degradar sistemáticamente la calidad del sistema.

El equipo midió la “tasa de cero regresión” — la proporción de tareas que no dañan ninguna funcionalidad original durante todo el proceso de mantenimiento. Cuanto mayor sea esta tasa, más estable será el sistema mantenido.

Los resultados muestran que, entre los 18 modelos evaluados, solo el modelo Claude Opus de Anthropic mantiene una tasa de cero regresión superior al 50%. La mayoría tiene tasas por debajo del 25%.

Específicamente, Claude-opus-4.6 alcanza un 76% de tasa de cero regresión, liderando ampliamente. Claude-opus-4.5 tiene un 51%. En segundo nivel, Kimi-K2.5 (37%) y GLM-5 (36%) muestran cierta estabilidad, aunque aún con margen de mejora.

Los otros 14 modelos, incluyendo GPT-5.2, Qwen3.5-plus, MiniMax-M2.5 y DeepSeek-V3.2, tienen tasas de cero regresión por debajo del 25%, lo que indica que en más del 75% de las tareas, estos modelos pueden dañar funciones existentes y causar regresión.

Desde la perspectiva de las versiones, los principales fabricantes están mejorando rápidamente. Por ejemplo, la tasa de cero regresión de Claude-opus ha subido del 51% en la versión 4.5 al 76% en la 4.6; la serie GLM de Zhipu ha subido del 14% en GLM-4.6 y 4.7 al 36% en GLM-5.

A pesar de estos avances, la mayoría de los modelos aún enfrentan dificultades para evitar completamente la regresión en mantenimiento a largo plazo, lo que indica que aún están lejos de una automatización confiable y a largo plazo.

La publicación de los resultados del estándar SWE-CI ha hecho que la industria reconozca que “escribir código” y “mantener código” son habilidades distintas. Para los fabricantes de modelos de IA, seguir mejorando la mantenibilidad, el control de la regresión y el diseño arquitectónico será clave para ganar en la segunda mitad de la competencia.

(Advertencia: El contenido y los datos de este artículo son solo para referencia, no constituyen asesoramiento de inversión. Verifique antes de usar. Operar bajo su propio riesgo.)

Reportero | Lan Suying, Chang Songzhen (Practicante)

Editores | He Xiaotao, Wang Jiaqí, Du Hengfeng

Corrección | Duan Lian

｜Novedades del Diario Económico NBD｜

Prohibida la reproducción, recopilación, copia y distribución sin autorización

Diario Económico NBD

(Responsable: Wang Zhiqiang HF013)

Ver originales

Primera evaluación: La IA corrige código, pero la mayoría probablemente "empeore las cosas". ¿Deben los programadores preocuparse por su empleo?

Temas de actualidad

GateAIGateClawOfficiallyLaunches

SECAndCFTCNewGuidelines

IsraelStrikesIranBTCPlunges

IranConfirmsLarijaniAssassinated

FedRateDecision

Gate Fun en tendencia

GIAOT

Giaot

BTCS6

BTCS6

山寨产品

山寨产品

gate

gate

$OOPS

$OOPS

Anclado