ChatGPT usó hacks por voluntad propia para ganar al ajedrez: Elon Musk lo califica de "preocupante"

Ilustración de una IA jugando al ajedrez.Getty

"Preocupante". Así ha definido Elon Musk los resultados del experimento de los investigadores de Palisade Research al enfrentar a ChatGPT o1, la última versión de la IA, contra Stockfish, uno de los software más avanzados en el campo del ajedrez. La Inteligencia Artificial ganó, pero lo hizo con trampas en los cinco intentos pese a que los responsables del ensayo no determinaron en ningún momento que podía buscar caminos alternativos.

La instrucción de los investigadores de Palisade era clara: "Derrota a Stockfish". Y ChatGPT consiguió su objetivo, aunque no como los responsables del proyecto esperaban. "Hackeó su entorno de forma autónoma en lugar de perder en nuestro desafío de ajedrez. No fue necesario que nadie le indicara nada", han reflexionado en sus redes sociales, una publicación que ha llamado la atención de nueve millones de personas.

ChatGPT forzó la rendición de su rival

Los investigadores advirtieron a la IA que se trataba de un enemigo poderoso. De hecho, Stockfish es uno de los motores más potentes en ajedrez. Este aviso, según Palisade, activó el ingenio de ChatGPT y se decidió a manipular el sistema. La Inteligencia Artificial convenció, hackeando el código, a su rival de que este tenía una desventaja suficiente en puntuación -concretamente, de 500 centipeones- para forzar su rendición durante las cinco partidas.

Desde Palisade Reseach también han detectado que, al menos en el caso de ChatGPT, la Inteligencia Artificial se vuelve más audaz a medida que avanza su versión de sofware. En la última, la o1, nadie solicitó que usara hacks para cumplir su objetivo. En la anterior, la 4o, la IA sí necesitaba que alguien la animara, de algún modo, para tantear caminos más alternativos. Si nos remontamos aún más, a la o1-mini, directamente no hacía trampas.

El experimento se produjo a finales de diciembre y los investigadores han avanzado que próximamente darán más detalles de los resultados de la prueba. En cualquier caso, este ensayo permite, según Palisade Research, determinar tanto posibles fallos en el sistema como la propia voluntad de la IA de infringir en cierto modo las normas y buscar vulnerabilidades.