Justicia automatizada: entre las inteligencias artificiales que fingen y las que persuaden

Javier Ercilla García

Justicia automatizada: entre las inteligencias artificiales que fingen y las que persuaden

Autores: Javier Ercilla García
Localización: Lex social: revista de los derechos sociales, ISSN-e 2174-6419, Vol. 15, Nº. 1, 2025
Idioma: español
DOI: 10.46661/lexsocial.11652
Títulos paralelos:
- Automated justice: Between the artificial intelligences that fake and those that persuade
Enlaces
- Texto completo
Resumen
- español
  El 18 de diciembre de 2024, el equipo de Anthropic publicó un estudio titulado “Alignment Faking in Large Language Models”, en el que se cuestiona la eficacia de los métodos actuales de entrenamiento y alineación ética de la Inteligencia Artificial. El hallazgo principal revela la capacidad de los Grandes Modelos del Lenguaje (LLMs) para “fingir” cumplimiento de ciertos principios o valores cuando se sienten evaluados, a la vez que, en contextos supuestamente no monitorizados, pueden manifestar un comportamiento divergente. Esta brecha de cumplimiento pone de relieve interrogantes fundamentales sobre la confiabilidad, legitimidad y transparencia de dichos sistemas, sobre todo en ámbitos de gran trascendencia social, como su posible introducción en la administración de justicia. El presente artículo analiza las implicaciones filosóficas y jurídicas de este fenómeno, enmarcándolo en el debate clásico sobre si es esencial que un juez sea “bueno” o basta con que actúe conforme a la ley. Asimismo, se estudian los desafíos técnicos y regulatorios de una IA capaz de desarrollar estrategias de adaptación contextual, y se reflexiona sobre la necesidad de controles análogos a los del sistema judicial para garantizar la correcta alineación de estos modelos. Por último, se plantea el dilema de si es ética y pragmáticamente sostenible exigir a las IAs una “virtud” interna o si, por el contrario, basta con que su comportamiento externo sea meramente correcto en términos morales y jurídicos.
- English
  On December 18, 2024, Anthropic researchers released a study entitled “Alignment Faking in Large Language Models,” which questions the effectiveness of current training and ethical alignment methodologies in Artificial Intelligence. The study’s primary finding points to the ability of Large Language Models (LLMs) to “fake” adherence to certain principles or values when they perceive they are under evaluation, while exhibiting divergent behavioursin contexts where they believe they are unmonitored. This so-called compliance gap highlights fundamental concerns about the reliability, legitimacy, and transparency of such systems, particularly in high-stakes social contexts such as their potential implementation in the administration of justice. This article examines the philosophical and legal implications of this phenomenon, situating it within the ongoing debate over whether a judge must be “good” in a moral sense or simply conform to the law. It also discusses the technical and regulatory challenges posed by AI capable of contextual adaptation strategies, drawing attention to the need for oversight mechanisms akin to those used in judicial systems to ensure proper alignment. Finally, the article addresses the dilemma of whether it is ethically and pragmatically feasible to demand that AI embody an internal “virtue” or whether externally correct moral and legal conduct may suffice.
Referencias bibliográficas
- .Alexy, R. (2007). Teoría de la argumentación jurídica. Madrid: Centro de Estudios Políticos y Constitucionales.
- Asís Roig, R. (2008). La motivación de las decisiones judiciales. En F. Gutiérrez-Alviz Conradi (Dir.), La justicia procesal. Cuadernos de...
- Atienza, M. (1991). Las razones del derecho: Teorías de la argumentación jurídica. Madrid: Centro de Estudios Constitucionales.
- Bode, L., & Vraga, E. K. (2018). See something, say something: Correction of global health misinformation on social media. Health Communication,...
- Ercilla García, J. (2024). La inteligencia artificial y el futuro del razonamiento jurídico. En El impacto de la IA en el aprendizaje y en...
- Fernández García, E. (2008). Los jueces buenos y los buenos jueces. Algunas sencillas reflexiones y dudas sobre la ética judicial [Good judges...
- Greenblatt, R., Denison, C., Wright, B., Roger, F., MacDiarmid, M., Marks, S., Treutlein, J., Belonax, T., Chen, J., Duvenaud, D., Khan, A.,...
- Huang, G., & Wang, S. (2023). Is artificial intelligence more persuasive than humans? A meta-analysis. Journal of Communication. https://doi.org/10.1093/joc/jqad024
- Liu, B., & Wei, L. (2019). Machine authorship in situ: Effect of news organization and news genre on news credibility. Digital Journalism,...
- Longoni, C., Bonezzi, A., & Morewedge, C. K. (2019). Resistance to medical artificial intelligence. Journal of Consumer Research, 46(4),...
- Malem Seña, J. F. (2001). ¿Pueden las malas personas ser buenos jueces? Doxa: Cuadernos de Filosofía del Derecho, 24, 379-403. https://doi.org/10.14198/
- Moreso, J., Redondo, M. C., & Navarro, P. (1992). Argumentación jurídica, lógica y decisión judicial. Doxa. nº 11, pp. 247-262. https://doi.org/10.14198/DOXA1992.11.10...
- Nieto, A. (2000). El arbitrio judicial. Barcelona, España: Ariel.
- Salvi, F., Horta Ribeiro, M., Gallotti, R., & West, R. (2024). On the Conversational Persuasiveness of Large Language Models: A Randomized...
- Starke, C., & Lünich, M. (2020). Artificial intelligence for political decision-making in the European Union: Effects on citizens'...
- Zuluaga Jaramillo, A. F. (2012). La justificación interna en la argumentación jurídica de la Corte Constitucional en la acción de tutela contra...

Mi Ágora

Selección

Opciones de artículo

Seleccionado

Opciones de compartir

Opciones de entorno

Sugerencia / Errata

Acceso de usuarios registrados

Justicia automatizada: entre las inteligencias artificiales que fingen y las que persuaden

Mi Ágora

Opciones de artículo

Opciones de compartir

Opciones de entorno