Poniéndonos en contexto

El 4 de noviembre, la Unidad de Información, Infraestructura Informática y Vinculación Tecnológica presentó por medio de La Mañanera un informe sobre la conversación digital que ocurrió en Twitter con los hashtags #PrensaSicaria, #PrensaProstituida y #PrensaCorrupta. Dichas etiquetas fueron usadas principalmente en México del 31 de octubre al 3 de noviembre, producto de los cuestionamientos que realizó el periodista Irving Pineda al presidente López Obrador.

Este informe presenta la temporalidad de estos hashtags, clasificación de usuarios: hombres, mujeres e indefinidos; conteo del total de tuits generados, así como un análisis a las cargas emocionales de dichos tuits que representan sentimientos. Finalmente, el reporte cierra con un análisis para detectar automatismos (bots) en esta conversación, señalando las cuentas de @tumbaburross, @JCRomeroHicks y @aurelionuno como usuarios que detonaron e inflaron las tendencias antes mencionadas.

El informe presentado por parte del gobierno de México generó polémica en términos de su metodología y afirmaciones. En este sentido, se informó que la cuenta @tumbaburross era una cuenta “motherbot”.

El objetivo principal de este documento es replicar el mismo estudio presentado por el Gobierno Federal con el propósito de comprobar dichas afirmaciones.

Ilustración: David Peón

Materiales y Métodos

Proporciones

Se recolectaron todos los tuits donde apareciera alguno de los 3 hashtags antes mencionados. Es importante señalar que dicha recolección no utilizó la API oficial de Twitter, la cual limita la cantidad que se pueden obtener a 1 %. En total, se obtuvieron 220 020 tuits los cuales están distribuidos como se presenta a continuación (cada cuadro equivale a 100 unidades):

En las gráficas anteriores es posible observar que el comportamiento de la distribución de cada tendencia es muy similar. La mayor cantidad de tuits son del tipo retuit, mientras que los tuits originales presentan una proporción menos significativa. #PresaProstituida tuvo un total de 104 974 tuits generados por un total de 33 202 usuarios; #PrensaSicaria consta de 76 584 tuits producto de 21 560 usuarios. Finalmente, #PrensaCorrupta estuvo conformada por 38 462 tuits generados por 12 698 usuarios. A continuación, es posible observar aquellas cuentas que tuvieron mayor interacción con dichos hashtags separados por tipo (retuit o tuit).

Retuits

Tuits

Usuario Interacciones Usuario Interacciones
@Erickisback1

176

@_venusobrador_

116

@PabloMtzDelCam1

151

@atolitoconelddo

87

@rsalrocky1

149

@angelical_cen

82

@porras_armando

145

@jorge_octavio7

77

@JorgePazLo

145

@pedroramosfranc

76

@Patrici49611123

143

@irmajuarez85

67

@RogelioGalvn2

123

@1963rosita

66

@__thehusky__

118

@saguilar99

62

@gaxiola2019

116

@arturom33338390

58

@mario240198

115

@maximokinast

57

La tabla anterior nos muestra una tasa de retuit desproporcionada con respecto a la duración del tiempo de los hashtags, coincidiendo con la heurística del gobierno acerca de la existencia de cuentas de tipo bot.

Por otra parte, las cuentas que publicaron los tuits más populares se muestran en la siguiente tabla:

Cuenta Tuit Respuesta Retuit Like
@Miriam_Junne https://twitter.com/Miriam_Junne/
status/1190109869057011712
1.1 k 7.2 k 10.8 k
@NachoRgz https://twitter.com/NachoRgz/
status/1189981740359512066
1.6 k 1.9 k 5.9 k
@DraAleMont https://twitter.com/DraAleMont/
status/1190131027017994240
178 2.4k 4.7 k
@atameAti https://twitter.com/atameAti/
status/1190014454966210560
43 899 1.7 k
@GloriaE95511727 https://twitter.com/GloriaE95511727/
status/1190285882630131714
292 945 1.6 k

Espacio y Temporalidad

Este estudio coincide con el reporte de la mañanera en términos de temporalidad. La observación de la actividad digital se registró a partir del 31 de octubre y hasta el 3 de noviembre del 2019, mostrando su pico el día 1 de noviembre con aproximadamente 10 000 tuits para #PrensaProstituida seguida de #PrensaSicaria y #PrensaCorrupta. En la serie de tiempo siguiente se muestran los puntos más altos de la actividad para cada etiqueta. Se debe señalar que los retuits fueron removidos de dichas series de tiempo para conservar aquellos tuits originales y no sesgar la muestra.

Siguiendo con la replicación del reporte, nos hemos dado a la tarea de ubicar las zonas con mayor actividad en Twitter dentro de la república mexicana. A continuación, presentamos un mapa de calor con aquellas regiones que mostraron mayor intensidad en la generación de tuits.

Sentimiento

Por otro lado, se llevó a cabo un análisis de sentimientos para los tuits que emergieron con las etiquetas antes mencionadas. Para este caso, se tomó una muestra por cada hashtag, excluyendo los retuits para evitar redundancia: 10 000 tuits para #PrensaProstituida, 10 000 para #PrensaSicaria y 7 500 para #PrensaCorrupta. A continuación, presentamos el análisis para cada etiqueta:

Con lo anterior se concluye que la carga sentimental de los tuits es mayormente negativa para los tres casos. Por lo tanto, es posible argumentar que las palabras utilizadas en los tuits están relacionadas con odio, repulsión, enojo, desaprobación, entre otras.

Bots

El informe presentando por la Unidad de Información, Infraestructura Informática y Vinculación Tecnológica establece la existencia de automatismos o “bots”. En el reporte se argumenta que la tasa de retuits y el nombre del usuario fue tomado como una heurística para la clasificación de bots lo cual es una condición necesaria pero no suficiente. Para replicar este paso, nos hemos dado a la tarea de utilizar la herramienta Botometer. Esta herramienta presenta un índice que va de 0 a 5 y que, de acuerdo a su valor numérico, indica si una cuenta podría ser bot o humano. Se debe aclarar que la detección de bots está lejos de ser exacta, por lo que es muy común encontrar falsos-positivos.

Se tomó una muestra de aproximadamente 3 000 usuarios por cada etiqueta y se realizaron las pruebas pertinentes para obtener los valores relacionados con el índice de bot (bot-score). En primer lugar, se calculó la proporción bot y humano con respecto a cada etiqueta y se encontró que dicha proporción es similar al reporte presentado en la mañanera. A continuación, se muestran las gráficas:

Además, se obtuvieron las listas de los usuarios que alcanzaron un índice de bot o muy cercano a ser bot. Dichas listas solamente incluyen las primeras 50 cuentas que alcanzaron un puntaje más alto en los tres casos analizados:

Por otro lado, fue posible obtener variables relacionadas con su comportamiento tales como: Friends, Network, Temporal y User; cada variable define una característica de la cuenta analizada. En este caso, la información en términos de amistad está en la variable Friends. La variable Network explica la actividad que el usuario tiene con respecto a una red de usuarios cercana. La variable Temporal expone información de qué tan activa es una cuenta con respecto a periodos de tiempo. La variable User precisa información relativa al usuario.

Con la finalidad de analizar la actividad temporal del usuario en Twitter, calculamos el coeficiente de correlación de Pearson, el cual nos permite medir el grado de relación entre las variables Temporal y User. Para analizar las siguientes gráficas se debe considerar que en el eje X se encuentra reflejada la variable temporal que mide la actividad del usuario; es decir, si el gradiente está mayormente cargado hacia la derecha —sobre el eje temporal— quiere decir que la actividad es inusual y se asume un comportamiento ligeramente inorgánico en dichas cuentas. En los tres casos se puede decir que la presencia fue mínima. El desplazamiento del gradiente indica que muchos de estos usuarios no tienen tanta actividad y solo generan tuits en un periodo determinado de tiempo. Se puede asumir que la mayoría de estas cuentas son de reciente creación.

Finalmente, basado en la variable bot-score y utilizando un umbral mayor o igual a 2 adaptado para actividad bot en México, se generaron tres gráficas de dispersión de automatismos para #PresaProstituida, #PrensaSicaria y #PrensaCorrupta.

De la información anterior podemos inferir lo siguiente: para el caso de #PrensaProstituida se detectaron un total de 389 cuentas con probabilidad de automatismo y casi un 10 % de las cuentas son inorgánicas. En el caso de #PrensaSicaria, 223 cuentas tienen un puntaje de bot muy alto. Por otro lado, a pesar de haber sido el hashtag con menor tamaño, #PrensaCorrupta tuvo más cuentas con probabilidad de ser bot con un total de 240 cuentas. La muestra para cada hashtag fue de n = 3 000.

Es importante señalar que para el caso de la dispersión de #PrensaSicaria y #PrensaCorrupta, las gráficas muestran una cantidad menor a 3 000 en el eje X, esto es debido a que los usuarios pudieron haber sido eliminados o suspendidos. En los tres casos, este estudio coincide proporcionalmente con los resultados presentados en el informe de la mañanera.

¿Cuentas Mother-Bots?

En el informe se comentó que las cuentas de twitter correspondientes a: @tumbaburross, @JCRomeroHicks y @aurelionuno eran de tipo “Mother-bot” o lo que podemos entender como cuentas que detonaron y orquestaron los tres hashtags antes mencionados. En este sentido llevamos a cabo un análisis de la actividad en términos de la tasa con que se publicaba un tuit por cada una de estas cuentas, esta misma técnica fue utilizada por la Unidad de Información, Infraestructura Informática y Vinculación Tecnológica como métrica para determinar si una cuenta tenía mayor probabilidad de ser automatismo. A continuación, presentamos las gráficas por tipo de tuit, y la cantidad de tuits por hora para cada una de estas cuentas:

Lo que podemos observar de las gráficas es que la cuenta @tumbaburross tuvo un promedio de 4 a 10 tuits durante la ventana de  tiempo del 31 de octubre al 3 de noviembre del 2019. En el caso de @JCRomeroHicks alcanzó un promedio de 1 a 3 tuits por hora en las mismas fechas. Finalmente, @aurelionuno no mostró ninguna actividad significativa en esas fechas.

Conclusiones

La finalidad de este reporte es comparar y corroborar la información que se presentó en La Mañanera del 4 de noviembre. A continuación, se enlistan algunos puntos clave:

• Se coincide en la carga sentimental mayormente negativa en los tuits.
• Se concuerda en las zonas o regiones de mayor actividad geográfica en términos de tuits dentro de la república mexicana.
• Se confirma que la cantidad de retuits es significativamente mayor.
• Se establece una relación entre los usuarios que más interactuaron en las tres tendencias, por ejemplo: @atameAti, @Erickisback1, entre otras que han sido listadas en la sección de bots.
• Se coincide con la proporción de cuentas de tipo bot en la dispersión de usuarios involucrados.

Sin embargo, en este estudio no se pudo comprobar lo siguiente:

• No fue posible llevar a cabo una clasificación por género: masculino, femenino o indefinido. Este tipo de análisis se suelen hacer vía imagen de usuario o nombre de usuario. Sin embargo, esta clasificación no es confiable ni contundente para determinar el género de una cuenta en Twitter.
• No se encontró ninguna evidencia sólida para vincular a las siguientes cuentas como bots o “mother-bots”: @tumbaburross, @JCRomeroHicks y @aurelionuno. Estas cuentas no presentan actividad significativa a nivel tuits que pudiese ligarlos al término de mother-bot. Por lo tanto, se refuta esta hipótesis establecida sin fundamentos ni evidencias en La Mañanera.

 

Carlos Adolfo Piña García e Israel Morales Trigueros.

 

Notas
Aquí se pueden consultar los datos con los que se replicó este artículo, así como las gráficas, las cuales fueron generadas utilizandoTableau,Python y R.