ChatGPT, DeepSeek, Copilot, Grok, Gemini y Perplexity citan mal las fuentes de noticias, hasta en un 94%

Uno de los logros de los chatbots es su faceta como interfaz entre persona y máquina, cómo usan lenguaje natural para comunicarse, de forma que imprimen a sus respuestas una apariencia de solidez, coherencia y veracidad que para muchos usuarios es más que suficiente para concluir que lo que dice debe ser cierto. Pero quien haya hecho el ejercicio de verificar sus respuestas, acudiendo a los enlaces que la IA muestra como fuentes de información, habrá encontrado en muchas ocasiones que la fuente no contiene la información que se supone debe tener.

Esto plantea la duda, en primer lugar, de dónde la ha sacado y, en segundo, de si se lo ha inventado. Ahora podemos cuantificar cuánto se equivocan las IA al citar fuentes de información gracias a un estudio de la Revista de Periodismo de Columbia (CJR), cuyos resultados no son nada halagüeños. De media, los motores de búsqueda con IA yerran más de un 60 % de las veces, alcanzando en el peor de los casos un 94 %.

Los chatbots, con capacidad de buscar en Internet, usados en el estudio han sido ChatGPT, Perplexity, Perplexity Pro, Grok 2, Grok 3, Gemini, DeepSeek y Copilot.

Perplexity es la mejor citando fuentes y Grok 3 la peor

Para llevar a cabo las pruebas, los investigadores introdujeron fragmentos de artículos de noticias reales en los modelos de IA y les pidieron que identificaran el titular del artículo, el editor original, la fecha de publicación y la URL. Se realizaron un total de 1.600 consultas en las 8 herramientas de búsqueda con IA analizadas.

Las tasas de error variaron significativamente entre las plataformas analizadas. Perplexity proporcionó información incorrecta en el 37 % de las consultas probadas, mientras que ChatGPT identificó erróneamente el 67 % de los artículos consultados. La peor tasa de error la presentó Grok 3, con un 94 %.

El estudio destaca una tendencia común en estos modelos de IA: en lugar de negarse a responder cuando carecen de información fiable, los sistemas generan fabulaciones, respuestas incorrectas o especulativas que suenan plausibles. Los investigadores subrayaron que este comportamiento fue consistente en todos los modelos probados, no limitado a una sola herramienta.

**Comparativa entre los modelos del estudio.**CJR.

Las versiones de pago cometen más errores

Sorprendentemente, las versiones premium de estos motores de búsqueda con IA obtuvieron peores resultados en ciertos aspectos. Perplexity Pro y el servicio premium de Grok 3 ofrecieron respuestas incorrectas con más frecuencia que sus versiones gratuitas. Su tendencia a evitar admitir incertidumbre resultó en una tasa de error citando fuentes más alta.

Algunas IA rastrean lo que quieren en Internet

Los investigadores de CJR también encontraron evidencia de que algunas herramientas de IA ignoran los protocolos de exclusión de robots (una configuración del archivo robots.txt de cada web en la que se indica a los rastreadores a qué parte pueden acceder y a cuál no), que los editores utilizan, en este contexto, para evitar que la IA infrinja su propiedad intelectual.

Por ejemplo, la versión gratuita de Perplexity identificó correctamente 10 fragmentos de artículos de National Geographic que están protegidos tras un muro de pago, a pesar de que National Geographic prohíbe explícitamente el rastreo de su contenido por parte de Perplexity.

Incluso cuando estos motores de búsqueda con IA citaban fuentes, a menudo redirigían a los usuarios a versiones sindicadas del contenido en plataformas como Yahoo News en lugar de a la publicación original. Esto ocurrió incluso en casos en los que los editores tenían acuerdos de licencia formales con las empresas de IA.

También se inventan URL

Otro problema importante fue la invención de URL. Más de la mitad de las citas generadas por Gemini y Grok 3 dirigieron a los usuarios a enlaces falsos o rotos que llevaban a páginas de error. En el caso de Grok 3, 154 de 200 citas analizadas resultaron en enlaces no funcionales.

Todos estos errores suponen un problema para los editores, que deben elegir entre bloquear los rastreadores de IA, perdiendo así la atribución del contenido, o permitir su acceso con el riesgo de que la reutilización por parte de los chatbots no les genere tráfico en sus webs.

Mark Howard, director de operaciones de Time Magazine, ha señalado a CJR su preocupación sobre la necesidad de transparencia y control en la forma en que el contenido de Time aparece en los resultados generados por IA. No obstante, Howard se mostró optimista sobre futuras mejoras, afirmando que ‘hoy es el peor momento para este tipo de productos’, en referencia a las inversiones y esfuerzos de ingeniería destinados a mejorar estas herramientas.

Sin embargo, Howard también culpó en parte a los usuarios, sugiriendo que es su responsabilidad ser escépticos ante la precisión de las herramientas gratuitas de IA: ‘Si algún consumidor cree que estos productos gratuitos son 100 % precisos, entonces la culpa es suya’.

Source link