El estudio siguió durante 30 meses a 26.811 estudiantes chinos y detectó una paradoja inquietante: los chatbots mejoran las notas de los deberes, pero deterioran el aprendizaje real cuando el alumno debe examinarse sin ayuda.
La inteligencia artificial generativa ha entrado en las aulas por la puerta más silenciosa y más difícil de controlar: los deberes. No lo ha hecho necesariamente a través de grandes planes institucionales, plataformas educativas certificadas o programas pedagógicos diseñados por expertos, sino mediante el uso cotidiano de chatbots por parte de estudiantes que buscan resolver antes, mejor y con menos esfuerzo las tareas que les encargan en casa. La promesa parece impecable: más productividad, más eficiencia, más apoyo personalizado y menos tiempo perdido. Pero una nueva investigación académica obliga a mirar esa promesa con mucha más cautela.
El estudio “The Generative AI Learning Penalty: Evidence from Chinese Secondary Education”, publicado como discussion paper del CEPR por David Strömberg, Victor Lei y Yanhui Wu, analiza uno de los conjuntos de datos más sólidos conocidos hasta ahora sobre el impacto real de la IA generativa en el aprendizaje escolar. La investigación siguió durante 30 meses a 26.811 estudiantes chinos de secundaria, de los grados 7 a 12, y cruzó el uso de chatbots con resultados en deberes, tiempos de ejecución, exámenes mensuales a libro cerrado y pruebas de acceso de alta exigencia.
La conclusión es tan potente como incómoda: la IA generativa mejora de forma notable la productividad aparente del alumno, pero puede perjudicar su aprendizaje real. Según el estudio, cuando los estudiantes empiezan a utilizar chatbots para hacer deberes, las calificaciones de esas tareas suben alrededor de un 18%, mientras que el tiempo necesario para completarlas cae aproximadamente un 30%. A primera vista, el resultado parece extraordinario. Más nota, menos tiempo, más eficiencia. En cualquier presentación corporativa, esos indicadores serían celebrados como un éxito rotundo.
El problema aparece cuando el estudiante debe demostrar lo aprendido sin la ayuda de la máquina. En los exámenes mensuales a puerta cerrada, sin IA y sin posibilidad de delegar la respuesta en un chatbot, las notas caen alrededor de un 20% durante los primeros seis meses. En los exámenes de acceso de mayor exigencia, la penalización se sitúa entre el 18% y el 24%. El estudio añade otro dato especialmente relevante: el deterioro no se manifiesta por completo de inmediato, sino que tarda cerca de dos años en hacerse plenamente visible. La IA no produce solo un bache puntual; puede generar una pérdida acumulativa de aprendizaje.
La paradoja educativa es evidente. Los deberes, que tradicionalmente servían para practicar, consolidar conocimientos y preparar exámenes, se convierten en una métrica engañosa cuando la IA permite entregar respuestas correctas sin haber recorrido el proceso mental necesario para obtenerlas. El alumno parece avanzar, pero en realidad puede estar sustituyendo aprendizaje por resultado. El sistema ve una mejora en la superficie, mientras el conocimiento se vacía por debajo.
La investigación no sostiene que toda utilización de IA sea perjudicial. Su tesis es más precisa y, precisamente por eso, más importante. La diferencia decisiva está entre usar la IA como andamiaje o usarla como sustituto. Cuando el chatbot actúa como tutor, guía, interlocutor o herramienta de apoyo, el impacto negativo se reduce. Cuando se usa para externalizar el pensamiento, la pérdida de aprendizaje se dispara. En términos educativos, no es lo mismo recibir ayuda para comprender un problema que entregar a la máquina la responsabilidad de resolverlo.
El mecanismo detectado por los investigadores es muy claro. Alrededor del 80% de los usuarios de IA muestran un patrón reconocible: tiempos de ejecución anormalmente cortos y notas de deberes anormalmente altas. Es decir, no parecen estar utilizando la herramienta para estudiar mejor, sino para completar tareas más rápido y con mejores resultados formales. Ese patrón encaja con lo que la literatura denomina cognitive offloading, o externalización cognitiva: descargar en una herramienta externa una parte del esfuerzo mental que debería realizar el estudiante.
La cuestión no es nueva. Los alumnos han copiado deberes mucho antes de ChatGPT, DeepSeek o cualquier otro chatbot. Han pedido respuestas a compañeros, han usado solucionarios, han buscado en internet y han recurrido a atajos de todo tipo. La diferencia es la escala, la calidad y la invisibilidad del nuevo atajo. Un chatbot no solo da una respuesta: puede adaptarla al nivel del estudiante, reformularla, justificarla, hacerla parecer propia y producirla en segundos. La copia deja de parecer copia. El atajo deja de parecer atajo. Y el profesor puede recibir una tarea correcta sin tener garantías de que detrás haya habido comprensión.
Este hallazgo tiene una consecuencia directa para la evaluación escolar. Si los deberes cuentan como prueba de aprendizaje, la IA generativa desestabiliza esa relación. La tarea entregada ya no puede interpretarse automáticamente como evidencia de dominio. Puede ser una prueba de capacidad, pero también puede ser una prueba de delegación. En ese contexto, los exámenes presenciales, orales, prácticos o a libro cerrado recuperan valor no por nostalgia disciplinaria, sino porque permiten observar qué queda cuando desaparece la asistencia automatizada.
El estudio también muestra que el impacto no es uniforme. Las pérdidas son mayores en ciencias sociales que en STEM, afectan más a los estudiantes más jóvenes y golpean con especial fuerza a los alumnos de alto rendimiento. Este último dato resulta especialmente llamativo. Podría pensarse que los mejores estudiantes están más preparados para usar la IA de forma inteligente. Sin embargo, la investigación sugiere que también pueden tener más incentivos para optimizar el resultado visible, reducir tiempo y mantener calificaciones elevadas en deberes sin pagar el coste inmediato de esa delegación.
Ese detalle abre una reflexión incómoda sobre la cultura del rendimiento. Cuando el sistema premia la entrega, la nota y la rapidez, el estudiante aprende a maximizar esas variables. La IA generativa encaja perfectamente en esa lógica. Permite producir respuestas aceptables en menos tiempo. Reduce la fricción. Aumenta la eficiencia aparente. Pero aprender no siempre es eficiente. Aprender exige equivocarse, probar, atascarse, volver atrás, reformular, memorizar, comparar, escribir mal antes de escribir bien y razonar antes de responder. La IA puede ayudar en ese proceso, pero también puede eliminar precisamente las dificultades que hacen posible el aprendizaje.
La diferencia entre scaffolding y offloading es, por tanto, la clave del debate. El andamiaje educativo sostiene al alumno mientras aprende a hacer algo por sí mismo. La externalización cognitiva, en cambio, sustituye el esfuerzo del alumno por la ejecución de la máquina. En el primer caso, la IA puede ser una aliada pedagógica. En el segundo, se convierte en una prótesis que mejora el rendimiento inmediato mientras debilita la autonomía intelectual.
El problema sistémico es que el camino de menor resistencia suele imponerse. No se puede esperar que un adolescente de 13, 14 o 15 años elija voluntariamente la opción más lenta y exigente cuando la opción rápida le ofrece mejores notas visibles. La responsabilidad, por tanto, no puede recaer solo en el alumno. La escuela, las familias, las administraciones y las plataformas tecnológicas deben rediseñar normas, tareas y evaluaciones para que el uso de la IA no premie la sustitución del pensamiento.
La investigación china es especialmente relevante porque observa el comportamiento real de estudiantes durante un periodo prolongado, no solo una prueba de laboratorio o una encuesta de percepción. Ahí reside parte de su valor. Muchas discusiones sobre IA educativa se apoyan en expectativas, discursos promocionales o miedos abstractos. Este estudio introduce datos de panel, seguimiento longitudinal y comparación entre productividad en tareas y rendimiento en exámenes. No pregunta únicamente si la IA gusta o si los alumnos creen aprender más. Observa qué ocurre cuando la herramienta entra en la rutina escolar.
El debate no debería desembocar en una conclusión simplista contra la IA. Prohibirla de forma absoluta sería poco realista y probablemente inútil. Los estudiantes ya tienen acceso a estas herramientas fuera del aula, en sus teléfonos, ordenadores y hogares. La pregunta relevante no es si la IA debe existir en educación, sino bajo qué condiciones puede contribuir al aprendizaje sin reemplazarlo.
Una vía pasa por cambiar el diseño de los deberes. Las tareas puramente reproductivas, basadas en obtener una respuesta final, son las más vulnerables a la automatización. En cambio, las actividades que exigen explicar el proceso, justificar decisiones, comparar borradores, defender oralmente una respuesta o conectar el trabajo con experiencias de aula son más difíciles de delegar por completo. La IA puede utilizarse, pero el alumno debe demostrar qué ha entendido, qué ha corregido y qué decisiones ha tomado.
Otra vía consiste en enseñar explícitamente a usar la IA. No basta con decir “se permite” o “se prohíbe”. Hay que distinguir usos aceptables y usos empobrecedores. Pedir al chatbot que explique un concepto con ejemplos puede ser útil. Solicitarle la respuesta final para copiarla sin comprenderla puede ser dañino. Usarlo para detectar errores en un razonamiento propio puede reforzar el aprendizaje. Usarlo para evitar el razonamiento lo debilita. La alfabetización en IA debe incluir una alfabetización sobre el esfuerzo cognitivo.
También es necesario revisar el peso de los deberes en la calificación. Si una parte importante de la nota depende de tareas realizadas sin supervisión, el incentivo para externalizarlas será enorme. En la era de la IA generativa, los deberes pueden seguir teniendo sentido como práctica, entrenamiento o reflexión, pero quizá no como prueba principal de conocimiento. El aula debe recuperar espacios de verificación: escritura en directo, resolución guiada, debates, ejercicios orales, pruebas cortas y actividades donde el profesor pueda observar el proceso.
El estudio plantea además una advertencia para las políticas públicas. La adopción de IA en educación no puede presentarse solo como modernización tecnológica. Debe ir acompañada de criterios pedagógicos, formación docente y evaluación independiente. Incorporar chatbots sin rediseñar tareas, exámenes y metodologías puede generar una mejora estadística engañosa: mejores entregas, más productividad, más satisfacción inmediata y, al mismo tiempo, peor aprendizaje acumulado.
La lección afecta también a empresas tecnológicas y desarrolladores de herramientas educativas. Un chatbot generalista está diseñado para responder, no necesariamente para enseñar. Una herramienta pedagógica debería resistirse a entregar la solución demasiado pronto, formular preguntas, detectar lagunas, adaptar pistas, pedir al alumno que explique su razonamiento y reforzar la transferencia de conocimiento. La IA educativa no debería limitarse a ser una máquina de respuestas, sino una arquitectura de aprendizaje.
Para los profesores, el estudio confirma una intuición que muchos ya tenían: los textos perfectos, las respuestas impecables y los deberes entregados en tiempo récord no siempre indican progreso. Pueden indicar dependencia. La evaluación docente deberá incorporar nuevas señales: coherencia entre trabajo en casa y desempeño en clase, capacidad de explicación oral, evolución del estilo propio, dominio de conceptos básicos y trazabilidad del proceso de elaboración.
Para las familias, el mensaje también es relevante. El uso de IA en casa no debe interpretarse automáticamente como estudio avanzado. Puede serlo, pero también puede ser lo contrario. Un adolescente que termina los deberes en la mitad de tiempo con resultados excelentes quizá no está aprendiendo más, sino practicando menos. Acompañar el uso de la IA exige preguntar cómo ha llegado a la respuesta, qué ha entendido, qué parte le costaba y si sería capaz de resolver un ejercicio similar sin ayuda.
La educación siempre ha convivido con tecnologías que modifican el esfuerzo intelectual: calculadoras, enciclopedias digitales, buscadores, traductores automáticos, plataformas de ejercicios y vídeos explicativos. La diferencia con la IA generativa es que no solo ofrece información, sino que produce respuestas completas con apariencia de razonamiento. Eso cambia el equilibrio. La herramienta ya no solo amplía el acceso al conocimiento; puede ocupar el lugar del proceso cognitivo del alumno.
La gran pregunta de fondo es qué queremos medir. Si el sistema mide productos terminados, la IA será una ventaja competitiva. Si mide aprendizaje, comprensión y autonomía, habrá que diseñar pruebas que obliguen al estudiante a estar presente intelectualmente. La escuela no puede competir con la IA en velocidad de respuesta, pero sí puede enseñar aquello que la IA no garantiza: criterio, memoria operativa, comprensión profunda, expresión propia, pensamiento crítico y responsabilidad sobre el propio aprendizaje.
El estudio “The Generative AI Learning Penalty” no cierra el debate, pero lo desplaza. Ya no basta con preguntar si la IA mejora la productividad escolar. La productividad puede mejorar mientras el aprendizaje empeora. Tampoco basta con celebrar que los estudiantes entreguen mejores deberes. La nota de un deber puede convertirse en una señal contaminada cuando la tarea se realiza en un entorno no supervisado y con herramientas capaces de resolverla casi por completo.