Lentitud en los procesos de registro y su impacto en la subestimación y percepción de la magnitud de la pandemia por covid-19 en México

La pandemia1 generada por el coronavirus SARS-COV2 ha causado grandes afectaciones sociales, económicas y sanitarias en México y el mundo. En la parte de salud, la secretaría de Salud del gobierno federal (SSA), presenta a diario un corte sobre la evolución de algunos indicadores que, en parte, dan cuenta sobre el particular. Indicadores como el número de contagios confirmados, de muertes y sospechosos de contagios por covid-19, así como la cantidad de contagios activos a una fecha dada, que se refiere al número de personas contagiadas con inicio de síntomas en los últimos catorce días. Esta métrica es muy relevante, porque indica la cantidad de personas que a la fecha tienen el mayor potencial de propagación de la epidemia. Sin embargo, un asunto que es necesario analizar y evaluar con mayor profundidad es el retraso en los procesos de diagnóstico y registro de información, y su impacto en los indicadores anteriores.

En México algunos estudios han evaluado el impacto del retraso en la información. Por ejemplo, Castañeda y Garrido analizan el retraso en el registro de las muertes por covid-19 en México. Temática similar es abordada por González (a, b),  quien propone un modelo multinomial bayesiano para estimar la cantidad de muertes reales a una fecha dada. Adicionalmente, Medina et al. analizan el rezago en el registro de los datos relativos a los contagiados covid-19. No obstante, en dichos estudios no se analiza ni caracteriza con detalle el proceso que permite generar la información, solo dan cuenta de su impacto en los indicadores referidos.

En este contexto, el objetivo del presente trabajo es analizar y caracterizar el rezago en los procesos de diagnóstico y de registro de información sobre covid-19 en México, así como el impacto de estos rezagos en la subestimación y percepción de la magnitud de la pandemia.

Ilustración: David Peón

Registro de casos covid-19 en México

El sistema de información sobre covid-19 en México se fue desarrollando conforme avanzaba la propagación de los contagios, y en varios rubros alejado de las buenas prácticas sugeridas. A partir del primer contagio documentado en México, confirmado el 28 de febrero, las autoridades federales generaron boletines de prensa diarios, en formato pdf en donde se reportaban los datos más recientes.2 Fue hasta 44 días después (el 12 de abril) cuando la información acumulada estuvo disponible en una base electrónica de datos,3 la cual contiene información de cada paciente que ha sido sometido a la prueba de reacción en cadena de la polimerasa (PCR en inglés), en los laboratorios autorizados de los gobiernos estatales y federal. Un primer problema, es que esta información se genera inicialmente en forma manual, a partir de llenar un formato impreso. Posteriormente se debe registrar esta información en la base electrónica de datos, la cual genera un “Identificador”, que es único para cada paciente, pero que carece de alguna referencia pública relativa a la fecha en la que se capturó la información.
Para cada paciente en la base de datos se registran diversas variables. Una de ellas es la fecha en la que el paciente refirió haber tenido los primeros síntomas (fecha de inicio de síntomas; Fsíntomas). Así mismo, se incluye la fecha en la que cada paciente acudió a consulta a la unidad médica, donde por la sintomatología se le declaró como sospechoso de contagio por covid-19 (fecha consulta médica; Fconsulta.m). La diferencia entre estas dos fechas será aquí denotada con Tconsulta.m (=Fconsulta.m-Fsíntomas).

A partir de lo anterior, hay dos fechas más que son claves para evaluar el rezago en la información. Por un lado, está la fecha en que se incluye por primera vez en la base de datos covid-19 la información del paciente sospechoso COVID (Fecha de registro como sospechoso; Freg.sosp), la cual no está explícitamente registrada en una variable de la base de datos, por lo que su identificación fue parte del trabajo realizado en esta investigación. La diferencia entre Fconsulta.m y Freg.sosp le denominaremos Treg.sosp (= Freg.sosp – Fconsulta.m). Por otra parte, está la fecha en la que se incluye en la base de datos el resultado de la prueba PCR (Fecha resultado de la prueba; Fres.prueba) para cada paciente. Este dato tampoco es parte de una variable en la base de datos, por lo que fue necesario identificar la fecha y generar la variable correspondiente. De esta manera, el último periodo de interés es el relativo al tiempo adicional requerido para realizar y registrar el resultado de la prueba, el cual denominaremos Tprueba (= Fres.prueba – Freg.sosp). Identificar estas fechas de registro es relevante, porque permite cuantificar cuánto se tardan los sistemas de salud en subir información, realizar la prueba y registrar su resultado, pudiendo, a partir de dicha información, conocer el retraso de la información que a diario reporta la SSA.

Para indagar esas fechas y tiempos de registro, se partió de la base de datos del 15 de junio, que contenía la información de 415 090 registros (pacientes); para los cuales era necesario reconstruir su historia (fechas Freg.sosp y Fres.prueba). Para esto se partió de la variable Identificador de la base de datos, que es único para cada paciente, y se rastreó en qué fecha aparece por primera vez, así como en qué fecha se modifica el registro para reportar el resultado de la prueba PCR del paciente correspondiente. Esto se hizo mediante un algoritmo computacional programado en Python, que buscó la información requerida en las 64 bases de datos históricas entre el 12 de abril y el 14 de junio. No fue posible reconstruir adecuadamente la historia de todos los registros. En primer lugar, había 53 217 casos que no estaban completos, ya que no tenían asignado el resultado de la prueba, por lo que estaban en calidad de sospechosos. Es de resaltar que el 15.1 % de estos casos tenían más de 24 días en calidad de sospechosos. Lo que además de lentitud de los procesos, indica problemas de control administrativo. Igualmente, para todos los registros hasta el 12 de abril no fue posible reconstruir su historia, porque, como se mencionó antes, fueron cargados en la base en forma simultánea. Además, se depuraron algunos cientos de registros con inconsistencia en las fechas, todos ellos incluidos en las primeras bases de datos. Al final, para el análisis que se reporta enseguida, se utilizaron 317 369 registros, de los cuales 139 856 tuvieron una prueba con un resultado positivo a covid-19.

Análisis de los tiempos de diagnóstico y registro

En la Figura 1 se presenta la distribución de los tres tiempos característicos del proceso de diagnóstico y registro de los casos con resultado positivo. Primero (Figura 1 a) está Tconsulta.m (días transcurridos entre los primeros síntomas y la consulta médica a la unidad médica autorizada), el cual, en promedio, es cercano a cuatro días. Destaca que el 13 % de los individuos considerados tardó más de siete días en lograr contactar con el sistema de salud. Varias circunstancias pueden contribuir a que este tiempo se extendiera. Por ejemplo, que los síntomas iniciales hayan sido moderados o bajos, que la personas haya asistido primero a clínicas no autorizadas y/o la espera para que el paciente haya sido atendido en las unidades médicas autorizadas haya sido larga.

En la Figura 1b se presenta la distribución de Treg.sosp, tiempo transcurrido entre que el paciente fue a consulta a la unidad médica y su registro fue incluido en la base de datos. En el 70.4 % de los casos esta actividad administrativa  tardó un día o más y para el 18.9 % tomó tres días o más. Con un sistema de registro en línea en la clínica, este tiempo se podría evitar. En lo que respecta a los valores de Tprueba (tiempo adicional requerido para realizar y registrar el resultado de la prueba en la base de datos), en la Figura 1c se puede ver que, en general, este proceso es particularmente tardado: en poco más de la mitad de los casos (50.5 %) requirió de tres días o más, en tanto que 14.7 % de los pacientes hubo que esperar seis o más días. En este aspecto contribuye la lentitud en hacer la prueba en los laboratorios estatales y nacionales autorizados, pero también, los procesos administrativos correspondientes y el registro de la información.

Figura 1. Histograma para los días requeridos para cubrir cada etapa del proceso de diagnóstico y registro de información en la base de datos covid-19 de México

Figura 1. Histograma para los días requeridos para cubrir cada etapa del proceso de diagnóstico y registro de información en la base de datos covid-19 de México

Fuente. Elaboración propia con base en las bases de datos históricas de covid de la SSA hasta el 15 de junio de 2020.

Finalmente, en la Figura 1d se puede analizar la distribución del tiempo global, Tglobal, requerido para todo el proceso, que es igual a la suma de los tres tiempos anteriores o bien Tglobal = Fres.prueba – Fsíntomas. Este tiempo contabiliza los días transcurridos entre el inicio de síntomas y el reconocimiento oficial de cada caso como covid positivo. El promedio para Tglobal es de 9.6 días.

Considerando que un paciente es considerado contagiado activo durante 14 días a partir de los primeros síntomas, el que requiera, en promedio, 9.6 días para ser registrado, conlleva a que, en lugar de ser catalogado como contagio activo durante los 14 días, en los hechos, sólo tenga ese carácter durante un tiempo mucho menor. Esto se traduce en una subestimación importante en el número de contagios activos reportados diariamente. Por ejemplo, para tres de cada cinco pacientes contagiados el Tglobal fue superior a siete días; lo que implica que el 60 % de los casos fueron considerados como contagios activos durante menos de la mitad del tiempo que debieron serlo. Caso extremo sucede con el 13.6 % de los casos, cuyo Tglobal fue mayor a 14 días, lo que implica que esos casos nunca fueron contabilizados como pacientes activos en las estadísticas oficiales (de aquí en adelante, este valor es denominado porcentaje no contabilizado o NC).

La Figura 1 permite tener una panorámica global de lo que ha ocurrido a nivel país. No obstante, resulta clave estudiar lo ocurrido con los tiempos de diagnóstico y registro en los sistemas de salud en los estados, ya que éstos tienen la responsabilidad primaria en la realización de pruebas y registro de la información; mientras que la SSA aplica los lineamientos generales y administra el sistema de información. Con ese objetivo en mente, en la Figura 2a se presentan los valores promedio del tiempo global y del tiempo administrativo (Tadm). Este último indica los días que pasaron entre que el paciente acudió a consulta al centro de salud autorizado, la fecha que lo declararon como sospechoso de contagio, y cuando el resultado confirmatorio de la misma se registró en la base de datos; es decir: Tadm= Fres.prueba – Fconsulta.m. De forma complementaria, la Figura 2b muestra los valores porcentuales para NC.

Ambas figuras muestran que Chihuahua es el estado con el mayor Tglobal (promedio de 14.8 días), y que 35.3 % de los pacientes atendidos de esta entidad nunca fueron contabilizados entre los contagios activos, ya que, cuando sus datos estuvieron completos en la base de datos nacional, dichos pacientes ya no eran activos, porque había pasado más de 14 días desde sus primeros síntomas. Este estado también tiene el valor más alto en el tiempo administrativo, el cual, en promedio, es de 10.4 días. Los niveles de los tres indicadores antes descritos denotan que los datos diarios que se reportan sobre Chihuahua en realidad hablan de contagios iniciados hace alrededor de dos semanas.

Después de Chihuahua, los estados con mayor lentitud son Sonora, Baja California, Estado de México y Guerrero. En el caso de los tiempos globales, sus promedios están cercanos a los 11 días y sus  tiempos administrativos son los más altos (entre 6.5 y 10.4 días). Esto último implica que en estos estados el proceso administrativo es entre 20 y 93 % más tardado que el promedio nacional (5.4 días). Asimismo, el porcentaje de casos no contabilizados de estas entidades oscila entre 13 y 21 %.

Sinaloa, CDMX, Veracruz, Oaxaca, Michoacán, Tamaulipas y Coahuila tienen tiempos globales muy próximos al promedio nacional (9.6 días), lo que implica que, en promedio, los pacientes de estas entidades solo son contabilizado como casos activos cuatro o cinco días. En el otro extremo del listado tenemos que las entidades federativas con los procesos globales que más ágiles son Jalisco, San Luis Potosí, Durango, Querétaro, Yucatán, Aguascalientes, Nayarit y Zacatecas. En este grupo de entidades, los tiempos administrativos estuvieron entre 2.7 (Zacatecas) y 3.9 (Jalisco) días, en tanto que, los tiempos globales estuvieron entre 5.9 (Zacatecas) y 6.8 (Jalisco) días. Los tiempos en esos estados siguen siendo altos para la adecuada medición de la cantidad de contagios activos, ya que, en promedio, los pacientes solo se contabilizan como activos 7 u 8 días, cuando, en estricto, ese número debería ser lo más cercano posible a 14 días. Las grandes diferencias consignadas a nivel de estados demuestran que hay formas de agilizar los procesos, aun con la limitante de tener un proceso que, desde su origen, parte de un registro manual, en lugar de un registro automatizado en línea.

Figura 2. Promedios por entidad federativa del tiempo global y el administrativo, así como valores del NC

Figura 2. Promedios por entidad federativa del tiempo global y el administrativo, así como valores del NC

Fuente. Elaboración propia con base en las bases de datos históricas de COVID de la SSA al 15 de junio de 2020.

El efecto de los retrasos

Una vez evidenciado el nivel de retraso en el registro de los casos covid-19 en México y sus entidades federativas, analizaremos a continuación algunos de los efectos que dicho retraso tiene en la percepción del nivel y evolución de la pandemia. En la Figura 3 se presentan tres curvas de colores; de las cuales la negra representa el número de casos confirmados que inició síntomas del 16 al 29 de mayo (de aquí en adelante denominados casos diarios) y que fueron oficialmente contabilizados por la SSA en la base de datos del 29 de mayo. La suma de los valores diarios en dicha ventana de tiempo es la cifra que la SSA reportó como el número de contagios activos al 29 de mayo (), cuyo valor es 16 209.

Figura 3. Casos diarios nacionales clasificados por la fecha de inicio de síntomas, para el periodo comprendido entre el 16 y el 29 de mayo. Reportados oficialmente el 29 de mayo (línea negra); contabilizados con las bases de datos del 15 de junio (línea roja) y del 30 de junio (línea azul).

Figura 3. Casos diarios nacionales clasificados por la fecha de inicio de síntomas, para el periodo comprendido entre el 16 y el 29 de mayo

Fuente. Elaboración propia con base en las bases de datos históricas de COVID de la SSA hasta el 30 de junio de 2020.

Al observar la tendencia de la línea negra, da la impresión de que la pandemia iba cediendo, porque a partir del 18 de mayo el número de casos diarios está disminuyendo considerable y permanentemente. No obstante, si esperamos algunos días y contabilizamos el número de casos diarios para el mismo periodo, pero ahora considerando la base de datos reportada el 15 de junio, encontraremos que el comportamiento es representado por la curva en rojo de la Figura 3. Ahí, ya no hay indicios de que la pandemia esté cediendo. Por el contrario, la curva roja deja claro que el número de casos activos sigue aumentando, lenta, pero progresivamente, lo cual es una visión más cercana a la realidad.

Además, es claro que el número de casos diarios reportado oficialmente el 29 de mayo (línea negra), está claramente subestimado; ello es consecuencia directa del tiempo requerido para oficializar un caso y que realmente ingrese a la contabilidad de casos diarios. De hecho, al intentar evaluar, en tiempo real el número de casos activos del 29 de mayo (), la SSA solo reportó 16 209 casos activos, pero al evaluar el mismo indicador el 15 de junio (), dicho valor fue de 46 917 (se excluyeron los casos de activos fallecidos al 29 de mayo y reportados en la base del 15 de junio). Al comparar estos valores se puede cuantificar nivel de subestimación en el número de casos activos que reporta la SSA dividiendo , que en este caso es igual 2.9. Esto significa que a nivel nacional, el número real de casos activos fue al menos 2.9 veces mayor al que reportó oficialmente la SSA el 29 de mayo. Y esta proporción que se mantiene muy similar en otros períodos.

Otra alternativa es hacer el cálculo inverso, , que en este caso es igual a 34.5 %. Esto indica que la cifra oficial de la SSA solo representa el 34.5 % de los contagios activos al 29 de mayo. Lo que establece una subestimación demasiado grande como para pasarla por alto.

Si consideramos ahora la Figura 2, donde el valor promedio del tiempo global de Chihuahua es de 14.8 días y el más grande entre los 32 estados, podría pensarse que la línea roja de la Figura 3 debería considerar prácticamente la totalidad de casos activos al 29 de mayo, ya que para el 15 de junio han transcurrido más de 15 días. Para corroborar esto, se hizo una tercera evaluación de los casos diarios, utilizando ahora la base de datos del 30 de junio, que contiene el registro de 15 días adicionales. Los valores contabilizados se resumen con la línea azul de la Figura 3, (), y suman la cantidad de 47 623 (sin contabilizar los casos de activos del período fallecidos al 29 de mayo). Al comparar las líneas roja y azul resulta claro que, si bien la línea azul debe estar más cercana a la realidad, el nivel de mejoría es bastante modesto (el número de activos sólo incrementó un 1.5 % con respecto al correspondiente valor del 15 de junio). Pero implica una espera de 15 días adicionales, lo cual consideramos que, ante la necesidad de tener datos cercanos a la realidad lo más pronto posible, es un precio comparativamente alto, dada la discreta mejora lograda.

Como ha sido mostrado, el retraso en el reporte oficial de la información no sólo impide tener un valor realista del número de casos activos (valor de importancia vital, ya que la velocidad de contagio es directamente proporcional al número de agentes contagiantes o casos activos). También genera una gran distorsión del perfil evolutivo de la pandemia, llevando a conclusiones erróneas (e. g. que el máximo de la pandemia ya se alcanzó), las que, si son utilizadas para tomar decisiones trascendentes, llevarán a acciones sociales inadecuadas.

Tomando en cuenta lo anterior, para dar una panorámica del efecto del retraso a nivel estatal, en la Tabla 1 se presenta información que permite estimar, con suficiente aproximación, el número de contagio que estaban activos el 29 de mayo. En la primera columna se muestra la cantidad de casos considerando la metodología oficial () que la SSA obtiene con la base del mismo 29 de mayo. En las siguientes columnas se anotan los casos activos para cada estado con la información obtenida a partir de las bases de datos del 15 de junio, (, y el 30 de junio, (). De donde resalta la gran diferencia entre el valor reportado oficialmente, y el que se obtiene una vez que se completa el registro de la mayor parte de casos de dicho período que estaban en proceso.

Precisamente con propósitos comparativos, en la Tabla 1, las entidades federativas han sido ordenadas en forma decreciente con respecto al valor de la relación  (tercera columna), de donde se puede observar que nueve entidades federativas presentan valores superiores a 3.0 para esta relación; es decir, sus respectivos casos totales son más que el triple de los reportados por la SSA. En contraparte, los valores más bajos de ese cociente (entre 1.8 y 2.0) los presentan Querétaro, Morelos, Aguascalientes, Yucatán, Quintana Roo y, Zacatecas.

Considerando lo anterior, aún en los estados menos afectados por el retraso, la magnitud de la subestimación de casos activos es demasiado alta como para ser ignorada. De hecho, en todos los estados, el número de casos totales es, al menos, 80 % más grande que el número de casos oficialmente reportados. Además, como ya fue mencionado, hay varios estados en los que los casos totales son más del triple de los oficialmente reportados, lo que demuestra la relevancia de utilizar la metodología de evaluación de casos activos aquí propuesta.

Con la intención de evidenciar si es posible, o no, lograr una mejora ulterior que pudiera ser relevante, en la última columna se agrega para cada estado la relación . De cuyos valores resulta evidente que, con excepción de los estados de Morelos, Chihuahua, Coahuila, Estado de México y Sonora, en donde, durante los 15 días adicionales (entre el 15 y el 30 de junio), ocurrió un aumento considerable en el valor del número de casos activos (entre 6 y 21 %), en el resto de las entidades federativas, la diferencia entre los respectivos cocientes es menor al 5 %.

Basado en lo anterior, salvo en los casos en los que el retraso sea anormalmente alto, es considerado como adecuado estimar los casos activos diarios utilizando una base de datos 17 días posterior al último día considerado en la ventana de activos; para el ejemplo aquí utilizado, la base del 15 de junio es considerada como adecuada para evaluar los activos del 29 de mayo.

Considerando los retrasos en la información que se detallado antes, como parte de la investigación de los autores de este trabajo, se tienen propuestas estadísticas para estimar la cantidad total de casos activos, a partir del reporte oficial (parcial) de casos activos. Esto se detallará en un texto subsecuente. En tanto eso ocurre, una regla práctica que genera una mucho mejor estimación de los casos activos para un estado a una fecha dada, es multiplicar la cantidad reportada por la SSA en ese día por el correspondiente factor de la última columna de la tabla 1.

Conclusiones

Con un algoritmo computacional automatizado se investigaron las bases de datos históricas de la SSA sobre covid-19, que permitió completar detalles adicionales de medio millón de registros. A partir de lo cual se cual es posible afirmar que el proceso de diagnóstico y registro de información relativo a la pandemia de covid-19 en México es lento y está fragmentado, de tal forma que el registro de la información no se hace mediante un sistema en línea como parte de las actividades claves de consulta y realización de la prueba PCR, sino más bien como una tarea que se desarrolla posteriormente en la medida de los recursos disponibles. Esto contribuye a tener información con un considerable retraso que repercute en la cuantificación y percepción de la evolución de la pandemia.

Con el análisis de los registros de entre el 15 de abril y 15 de junio se obtuvo que el proceso de consulta y registro de la información tarda en promedio 9.6 días; que va desde el inicio de los síntomas al registro de cada caso como COVID positivo. De este tiempo, 5.4 días en promedio transcurren desde que el paciente es declarado como sospechoso en una clínica autorizada y hasta que se reporta el resultado en la base de datos oficial.

En varios de los indicadores que usa la SSA estos retrasos no son considerados adecuadamente, de tal forma que en varios de los análisis y métricas utilizadas dan la idea, equivoca, de que la propagación de los contagios es menor y estuviera disminuyendo. Pero esto se debe a los miles de casos que aún están en proceso de completar prueba y registros. Uno de los indicadores peor cuantificados por la SSA es la cantidad de contagios activos, cuyos primeros síntomas iniciaron en los últimos 14 días. El reporte cotidiano de la SSA representa aproximadamente solo la tercera parte de los casos activos.

Al analizar estos indicadores a nivel de los estados se encuentran grandes diferencias. El estado con los procesos más lentos fue Chihuahua, con un tiempo global promedio de casi 14 días; le sigue Sonora, Baja California, Estado de México, Guerrero, Sinaloa y la Ciudad de México, con tiempos globales promedio, entre 10 y 11.5 días. Los estados con los procesos más ágiles tardan entre seis y siete días en promedio por caso.

Tabla 1. Información relativa a los casos activos estimados para el 29 de mayo que caracterizan al país y sus estados, evaluados considerando las bases de datos oficiales del 29 de mayo, y del 15 y 30 de junio

Tabla 1. Información relativa a los casos activos estimados para el 29 de mayo que caracterizan al país y sus estado

Fuente. Elaboración propia con base en las bases de datos históricas de COVID de la SSA del 29 de mayo, y 15 y 30 de junio de 2020.

 

Humberto Gutiérrez Pulido
Centro Universitario de Ciencias Exactas e Ingenierías, Universidad de Guadalajara.

Luis J. González-Ortiz
Centro Universitario de Ciencias Exactas e Ingenierías, Universidad de Guadalajara.

Óscar A. González-Sánchez
Centro Universitario de Ciencias Exactas e Ingenierías, Universidad de Guadalajara.

Abelardo Montesinos López
Centro Universitario de Ciencias Exactas e Ingenierías, Universidad de Guadalajara.

Noel G. Brizuela
Scripps Institution of Oceanography, Universidad de California, San Diego, California, EE. UU.


1 El presente reporte es parte de una investigación que desarrolla el equipo de coautores, enfocada a analizar el rezago en el proceso de diagnóstico y registro de información sobre contagios por covid-19 en México y su impacto en la percepción de la evolución de la pandemia. Cuyo trabajo detallado considera dos modelos estadísticos para estimar los contagios activos, y que actualmente está en proceso de dictaminarían para publicación en una revista científica.

2 Ver primeros comunicados aquí.

3 Aquí están las bases de datos como se fueron presentado cada día desde el 12 de abril de 2020.

Escribe tu correo para recibir el boletín con nuestras publicaciones destacadas.


Publicado en: Hallazgos