Un reciente estudio interno de OpenAI encendió las alarmas en el mundo profesional: el modelo GPT-5-high ha demostrado, según la propia empresa, igualar o superar la capacidad humana en el 40.6 por ciento de las pruebas diseñadas para evaluar tareas especializadas, en 44 ocupaciones.
Bajo una evaluación llamada GDPval, OpenAI sometió al modelo GPT-5-high frente a expertos humanos en 44 ocupaciones —que van desde ingenieros de software hasta enfermeros y abogados— para comparar la calidad de los informes generados por la IA frente a los elaborados por expertos humanos.
El método consistió en presentar los resultados al mismo grupo de profesionales: se les pidió comparar los documentos producidos por la IA con los de otros expertos humanos y decidir cuál consideraban superior. Así, el