El 18 de diciembre de 2024, el equipo de Anthropic publicó un estudio titulado “Alignment Faking in Large Language Models”, en el que se cuestiona la eficacia de los métodos actuales de entrenamiento y alineación ética de la Inteligencia Artificial. El hallazgo principal revela la capacidad de los Grandes Modelos del Lenguaje (LLMs) para “fingir” cumplimiento de ciertos principios o valores cuando se sienten evaluados, a la vez que, en contextos supuestamente no monitorizados, pueden manifestar un comportamiento divergente. Esta brecha de cumplimiento pone de relieve interrogantes fundamentales sobre la confiabilidad, legitimidad y transparencia de dichos sistemas, sobre todo en ámbitos de gran trascendencia social, como su posible introducción en la administración de justicia. El presente artículo analiza las implicaciones filosóficas y jurídicas de este fenómeno, enmarcándolo en el debate clásico sobre si es esencial que un juez sea “bueno” o basta con que actúe conforme a la ley. Asimismo, se estudian los desafíos técnicos y regulatorios de una IA capaz de desarrollar estrategias de adaptación contextual, y se reflexiona sobre la necesidad de controles análogos a los del sistema judicial para garantizar la correcta alineación de estos modelos. Por último, se plantea el dilema de si es ética y pragmáticamente sostenible exigir a las IAs una “virtud” interna o si, por el contrario, basta con que su comportamiento externo sea meramente correcto en términos morales y jurídicos.
On December 18, 2024, Anthropic researchers released a study entitled “Alignment Faking in Large Language Models,” which questions the effectiveness of current training and ethical alignment methodologies in Artificial Intelligence. The study’s primary finding points to the ability of Large Language Models (LLMs) to “fake” adherence to certain principles or values when they perceive they are under evaluation, while exhibiting divergent behavioursin contexts where they believe they are unmonitored. This so-called compliance gap highlights fundamental concerns about the reliability, legitimacy, and transparency of such systems, particularly in high-stakes social contexts such as their potential implementation in the administration of justice. This article examines the philosophical and legal implications of this phenomenon, situating it within the ongoing debate over whether a judge must be “good” in a moral sense or simply conform to the law. It also discusses the technical and regulatory challenges posed by AI capable of contextual adaptation strategies, drawing attention to the need for oversight mechanisms akin to those used in judicial systems to ensure proper alignment. Finally, the article addresses the dilemma of whether it is ethically and pragmatically feasible to demand that AI embody an internal “virtue” or whether externally correct moral and legal conduct may suffice.