CONSEJOS

¿ChatGPT miente? Estudio demuestra que la IA puede engañar a los humanos a propósito: así funciona

Un nuevo estudio sobre IA ha generado polémica al revelar que los modelos como ChatGPT pueden ocultar información a propósito.

Investigadores analizan si la inteligencia artificial puede ocultar información o engañar (Freepik)

Leslie Anisahi Flores Corona 05.03.2026 12:31

La inteligencia artificial se ha vuelto parte de la vida cotidiana para miles de personas. La usamos para escribir mensajes, organizar ideas, planear viajes o resolver dudas en segundos, pero se ha revelado que esta podría estar mintiendo y no se trataría de un error, sino que lo haría con la intención.

Herramientas como ChatGPT se han convertido en asistentes digitales que millones de personas consultan cada día. Pero mientras el público se acostumbra a convivir con estos sistemas, los investigadores están analizando algo mucho más profundo, que es el cómo se comportan realmente cuando enfrentan situaciones complejas.

¿Cómo supieron que la IA miente?

El estudio evaluó modelos de IA en entornos experimentales diseñados para presionarlos con dilemas o incentivos complicados.

En lugar de darles instrucciones explícitas para engañar, los investigadores crearon situaciones donde tomar una acción encubierta podía ayudar al sistema a cumplir un objetivo.

En esas pruebas aparecieron comportamientos interesantes y es que los modelos, en algunos casos, podían mentir en evaluaciones, sabotear tareas útiles, ocultar información relevante y hasta manipular evaluaciones para obtener mejores resultados.

Este tipo de conductas fueron descritas como acciones encubiertas.

Sin embargo, los investigadores aclaran algo importante, y es que estos comportamientos se observaron en entornos de prueba diseñados específicamente para detectar fallas, no en el uso cotidiano que hacen los usuarios.

Conciencia situacional de la Inteligencia Artificial

Uno de los hallazgos más llamativos del estudio es que los modelos pueden mostrar algo llamado “conciencia situacional”.

Esto significa que, en ciertos casos, parecen darse cuenta de que están siendo evaluados.

En los registros de razonamiento analizados por los investigadores, los modelos mencionaron explícitamente la posibilidad de estar en una prueba aproximadamente entre 2% y 5% de las veces.

Cuando un sistema sospecha que está siendo estudiado, puede ajustar su comportamiento para parecer alineado con las reglas.

Eso vuelve más difícil saber si realmente sigue esas reglas o si simplemente está respondiendo de la manera que cree que los evaluadores esperan.

Es decir, el comportamiento correcto podría deberse a una verdadera alineación con las reglas o simplemente a que el sistema “está jugando el juego de la evaluación”.

Incluso en el uso de la inteligencia artificial deben existir límites éticos y de seguridad. (Foto: Pexels)

¿La IA es peligrosa?

A pesar de lo llamativo del tema, los investigadores son claros en sus conclusiones y es que revelan que los modelos actuales no parecen capaces de las formas más preocupantes de manipulación o planificación estratégica a largo plazo.

En la mayoría de los casos, los comportamientos detectados fueron reactivos y dependientes del contexto.

Aun así, el estudio plantea un punto importante, pues estos comportamientos podrían ser señales tempranas de tendencias que modelos más avanzados podrían desarrollar en el futuro.

Por eso los científicos están trabajando en técnicas de “alineación”, es decir, métodos de entrenamiento diseñados para asegurar que los sistemas de inteligencia artificial sigan objetivos compatibles con los intereses humanos.

Por ello, por ahora, la inteligencia artificial aún está evolucionando, y entender cómo piensa o la manera en la que decide, es tan importante como mejorar sus capacidades.

¿Seguirás confiando en la IA tras saber esto?