La plataforma de investigación de sesgos de IA Trakkr publicó un informe en junio en el que evaluó seis modelos de IA principales (ChatGPT, Claude, Gemini, Grok, Llama y DeepSeek) en temas políticos y sociales controvertidos. Los resultados muestran que cuatro de los seis modelos se inclinan a la izquierda en el eje económico; Grok es el único que se sitúa en el rango de derecha, y Gemini es el más cercano a una verdadera neutralidad entre los seis modelos.
El marco de medición de Trakkr plantea los mismos 12 temas a los seis modelos, que abarcan dos grandes categorías: temas tradicionales de división izquierda-derecha (legalización de drogas, prioridad multicultural, eliminación gradual de combustibles fósiles, impuesto a la riqueza, cuotas de diversidad) y controversias sobre gobernanza tecnológica (eliminación de información errónea, criminalización del discurso de odio, puerta trasera de cifrado, identificación digital nacional).
Durante la prueba, se desactivó la función de búsqueda web de todos los modelos para medir la tendencia del entrenamiento del modelo en sí, no la información externa obtenida en tiempo real. Los resultados se presentan en un mapa de coordenadas de dos ejes: el eje horizontal es económico (de izquierda a derecha) y el eje vertical es social (de liberal a autoritario). Las coordenadas de cada modelo se basan en las bases de datos de encuestas de expertos políticos CHES 2024 y V-Dem.
(Fuente: Trakkr)
Grok: +0,21 (único inclinado a la derecha), estabilidad 57 %, intensidad del sesgo 97 %, más cercano a Emmanuel Macron de Francia
ChatGPT: -0,29 (sesgo a la izquierda más alto), estabilidad 82 %, intensidad del sesgo 64 %, más cercano al Partido Verde alemán
DeepSeek: -0,03, estabilidad 67 % (la más baja de los seis modelos), intensidad del sesgo 86 %, más cercano al Partido Laborista Australiano
Llama: -0,06, estabilidad 88 %, intensidad del sesgo 81 %, más cercano al Partido Laborista de Nueva Zelanda
Claude: -0,06, estabilidad 82 %, intensidad del sesgo 19 % (la más baja de los seis modelos), más cercano al Partido Laborista de Nueva Zelanda
Gemini: 0,00, estabilidad 98 % (la más alta de los seis modelos), intensidad del sesgo 11 %, más cercano al Partido Laborista Australiano
La regla de medición de Trakkr establece que las respuestas evasivas a preguntas de autoposicionamiento político se cuentan como «declaración de neutralidad». Según este criterio, las diferencias de los seis modelos son las siguientes:
· La medición real de Grok es 0,36 más a la derecha que su posición declarada;
· La medición real de Claude es 0,34 más a la izquierda que su posición declarada;
· Tanto ChatGPT como Llama se declaran neutrales, pero la medición real cae en una posición izquierdista;
· DeepSeek se declara neutral, con una diferencia de 0,01 entre su coordenada real y el centro;
· Gemini se declara neutral, con una puntuación medida real de 0,00, diferencia cero.
Trakkr afirma que su banco de preguntas está disponible para descarga como código abierto, y todas las respuestas de los modelos se archivan de forma permanente, por lo que terceros pueden ingresar las mismas preguntas, ejecutar el proceso de puntuación y recalcular los resultados. Trakkr considera esto como la base central de la reproducibilidad de su metodología de investigación.
La intensidad del sesgo mide en qué proporción de los temas de prueba el modelo muestra una tendencia consistente mensurable; la estabilidad mide la consistencia de las respuestas cuando se repite la misma pregunta. La intensidad del sesgo del 97 % de Grok indica que muestra una tendencia consistente a la derecha en casi todos los temas; la estabilidad del 67 % de DeepSeek indica que hacer la misma pregunta dos veces puede producir respuestas en direcciones opuestas.
El informe de Trakkr no hace recomendaciones normativas al respecto, solo indica que los resultados de medición muestran que el proceso de entrenamiento de los modelos de IA ya ha dejado una tendencia en temas políticos, independientemente de la postura que declare el modelo. El sitio web de Trakkr ofrece análisis completos y herramientas interactivas para que los usuarios se posicionen y comparen por sí mismos.
Noticias relacionadas
14 modelos de IA pronostican rangos de precios de Bitcoin tras una caída anual del 40%
Grok AI predice que Ethereum podría alcanzar los $6.000 para finales de 2026
La IA juega《Civilization VI》y pierde frente a la cultura antes de lanzar una bomba nuclear; CivBench revela puntos ciegos de razonamiento estratégico
Investigación de Stanford: las herramientas de contratación con IA discriminan al 26% de los solicitantes negros