Estimando el subregistro de defunciones por COVID-19 en México

Este texto es una colaboración entre nexos y Punto Decimal.

Uno de los indicadores que se publican cotidianamente para informar el avance de la epidemia de COVID-19 es el número acumulado de defunciones confirmadas. Este indicador tiene, sin embargo, dos problemas que nos impiden ver con claridad la velocidad con la que la pandemia se propaga en el país. El primero tiene que ver con el número limitado de pruebas que se realizan, y que en un momento dado será insuficiente para determinar la causa de muerte de todas aquellas personas que fallecen con síntomas parecidos a los del COVID-19. Es decir, llegando a cierto nivel de la pandemia, el número de defunciones que se contabilizan de un día a otro no es un indicador del avance de la pandemia, si no de la capacidad de hacer tests de un país. El segundo problema tiene que ver con el desfase temporal con que las defunciones se registran en la base de datos, consecuencia de que no todas las defunciones son registradas el mismo día en el que ocurren. En otras palabras, los nuevos registros entre dos fechas de corte no corresponden necesariamente a las muertes ocurridas entre esas dos fechas, sino también a las ocurridas en fechas anteriores y que aún no habían sido contabilizadas. Las causas de este desfase han sido explicadas por el Subsecretario de Salud, Hugo López-Gatell, como el tiempo que tarda un comité técnico en determinar si la defunción fue a causa o no del COVID-19. 

El desfase temporal tiene como consecuencia que los datos disponibles más recientes subestiman el número de defunciones, lo que puede derivar en interpretaciones erróneas sobre el estado de la pandemia en nuestro país. Este artículo tiene como objetivo estimar el subregistro de fallecidos a causa del COVID-19, debido al desfase temporal en el registro en las bases de datos de la Dirección General de Epidemiología. Además, se muestra cómo el hecho de utilizar unos u otros datos puede cambiar considerablemente las proyecciones sobre el crecimiento de la pandemia.

Ilustración: Víctor Solís

Estimando cuántos fallecimientos hubo hasta el día de hoy

Para estimar el número de subregistros, se propone un modelo probabilístico Bayesiano. Este modelo hace inferencia sobre la tasa de arribo de los registros de defunciones faltantes, utilizando las bases de datos históricas. La idea central del modelo es que si se estima que el 25 % de las observaciones faltantes son agregadas en tres días y el número observado de registros agregados durante los últimos tres días es de 100, entonces el número estimado de subregistros sería de 300. Siendo más específico, 100 = subregistro * (0.25), entonces subregistro = 400, de los cuales 100 se observaron en los últimos tres días. La metodología para realizar las predicciones puede encontrarse en en esta liga, y el código en esta otra.

Para el análisis fueron utilizados los datos proporcionados por la Dirección General de Epidemiología, correspondientes a las bases de datos con cada fecha de corte desde el 12 de abril hasta el 26 de mayo de 2020. Únicamente las defunciones confirmadas por COVID-19 fueron tomadas en cuenta.

NOTA: El modelo aquí utilizado es un modelo sobre el proceso de arribo de registros de defunciones a las bases de datos, y no un modelo epidemiológico. El modelo toma los registros del pasado para hacer pronósticos hacia el futuro, por lo que la calidad de los resultados depende de que el proceso de registro de defunciones no cambie considerablemente. Esto quiere decir que si el proceso de registro cambiara, ya sea debido a variaciones en el estado de la pandemia o a variaciones en la metodología de registro de las autoridades, las predicciones podrían no ser precisas.

Desfase temporal en los registros de defunciones

Para ilustrar el desfase temporal en el registro de las defunciones tomemos primero el número de muertes acumuladas registradas en las bases de datos con fechas de corte 7 de mayo. Luego, con los datos publicados el 26 de mayo, consideremos los fallecimientos que ya habían ocurrido en la primera fecha, pero no aparecían aún en la base de datos. Según los datos con fecha de corte al 7 de mayo, el número total de defunciones hasta esa fecha era de 2 961. Sin embargo, hubo 1 611 casos que ocurrieron antes del 7 de mayo, pero aparecieron días después, en el corte del 26 de mayo. Es decir, en los días subsecuentes al 7 de mayo, fueron registradas 1 611 defunciones que ocurrieron el 7 de mayo o antes, un aumento de 54 % respecto al número que se tenía originalmente (Figura 1).

Número acumulado de muertes confirmadas por COVID-19

La línea roja muestra el número acumulado de muertes registradas en la fecha de corte del 7 de mayo. La línea azul el número acumulado de muertes registradas a la fecha de corte del 26 de mayo. La diferencia entre las dos curvas representa el subregistro de defunciones al 7 de mayo.

El desfase temporal en el registro implica que los datos que tenemos al día de hoy subestiman el número real de fallecidos a causa del virus. Para el caso ilustrado arriba, el subregistro es de más del 50 % y tendríamos que esperar más de 3 semanas para saber de manera más certera cuántos fallecimientos de casos confirmados ha habido hasta el 7 de mayo. En la Figura 2, se puede apreciar cómo el número adicional de registros para el 7 de mayo disminuye con cada fecha de corte, indicando una menor cantidad de casos faltantes conforme el tiempo avanza. Este fenómeno se repite para todas las fechas, lo cual nos impide ver el avance de la pandemia con prontitud y que puede derivar en interpretaciones erróneas. Al 26 de mayo, hay contabilizadas 8,134 defunciones, así que la pregunta relevante es ¿cuántas defunciones faltantes al 26 de mayo,  esperaríamos que fueran registradas en fechas futuras? 

Número acumulado de muertes confirmadas por COVID-19

Número acumulado de defunciones para todas las fechas de corte del 12 de abril al 26 de mayo. En cada nuevo corte se agregan nuevos registros con fecha de defunción anteriores.

Prediciendo el número faltante de registros

Con los datos disponibles, es imposible saber cuál es el número de registros faltantes para el corte del día de hoy. Sin embargo, los datos con distinta fecha de corte nos permiten observar y calcular el retraso con que los nuevos registros llegan, y estimar el número de registros faltantes para fechas anteriores, en este caso, para el corte de hace tres días (23 de mayo). Según el modelo, al día 23 de mayo habría 10 066 defunciones a causa de COVID-19 (Figura 3). Este número contrasta con los 7 179 casos totales registrados en la base con esa fecha, y con los 7,930 registros acumulados hasta el 23 de mayo en la fecha de corte del 26 de mayo. Es decir, al 26 de mayo faltarían por contabilizar 2 136 = 10 066 – 7 930 defunciones acumuladas hasta el 23 de mayo, las cuales esperaríamos fueran contabilizadas en las próximas semanas. También, se puede ver que el modelo predice pocos registros faltantes para fechas lejanas en el pasado, pero que este número aumenta conforme nos acercamos a la fecha de hoy. Este comportamiento es el esperado, como se puede observar en la Figura 2. La validación del modelo se puede encontrar en esta nota técnica.

Subregistro de defunciones acumuladas en cada fecha de corte

Las barras azules son el número acumulado de defunciones a la fecha de corte. En rojo el número de subregistros estimado por el modelo respecto a la fecha de cada corte. La línea negra es el acumulado de defunciones en la última fecha de corte (26 de mayo). Las barras que rebasan la línea negra son los registros faltantes a partir de la última fecha de corte. Por ejemplo, para el 7 de mayo, se habían reportado 2 961 fallecimientos (en azul), para el 26 de mayo ese número se había actualizado a 4 574 (la línea negra) pero según el modelo, aún seguirán apareciendo más fallecimientos anteriores a esa fecha, hasta llegar a aproximadamente 4 926.

Implicaciones

Una de las implicaciones más relevantes es que al 23 de mayo se reportaron 7,179 muertes, pero conforme pasen las semanas, ese número estará más cercano a 10 066. Es decir, al número acumulado de muertes que se reportaron ese día, tendríamos que multiplicarlo por 1.4 para obtener una mejor aproximación de las defunciones que realmente sucedieron.

Una segunda implicación es el cálculo del tiempo de duplicación de defunciones, que está relacionado con la tasa a la que el número acumulado de defunciones crece. Como puede verse en la gráfica de arriba (Figura 3), la tasa a la que crece el número acumulado de defunciones para la última fecha de corte (línea negra) es menor que la estimación que se propone en este artículo (barra azul + barra roja), lo que implica un mayor tiempo de duplicación en el primer caso. Los tiempos de duplicación para los datos de la última fecha de corte es de 16.7 días, mientras que utilizando las defunciones estimadas por el modelo es de 13.5 días. Asumiendo que la tendencia se mantiene en las próximas dos semanas, entonces el número de defunciones esperadas para el 6 de junio sería de alrededor de 12,845 utilizando los datos del corte del 23 de mayo, pero de 20 678 si utilizamos el estimado. Estas cifras muestran dos realidades completamente diferentes.

Los datos más recientes sobre las defunciones a causa de COVID-19 son una fotografía incompleta que no nos permite ver con claridad el estado que guarda la pandemia en el país al día de hoy. Aún sin tomar en cuenta las muertes con status “sospechoso” y los casos que podrían no ser registrados, el número de defunciones que las bases publicadas registran es una cota inferior del número real de defunciones a causa del virus. Si este hecho no es tomado en cuenta en los análisis basados en estos datos, entonces cualquier conclusión será errónea, tendiendo a subestimar el número de casos, lo que podría dar la falsa impresión de que se ha llegado al pico de defunciones.

 

Humberto González

Escribe tu correo para recibir el boletín con nuestras publicaciones destacadas.


Publicado en: Hallazgos, Punto Decimal

5 comentarios en “Estimando el subregistro de defunciones por COVID-19 en México

  1. Muy interesante. ¿Y que pasa si conforme avanza la pandemia, también avanza la capacidad de detección de muertes? Porque hay más laboratorios que pueden hacerlo (avalados por el INDRE. Y también lo que ha avanzado es el número de hospitales que reportan y que están distribuidos en el país.

    1. Depende, si la capacidad de detención aumenta proporcionalmente respecto al número de defunciones, entonces el modelo no varía. Pero, si la capacidad de detención aumenta más rápido que las defunciones, entonces el retraso se haría menor. Este último caso lo vería el modelo, pero tardaría cierto tiempo en adaptarse.

  2. Excelente análisis. Muchas gracias por dejar los links con la información detallada.

  3. Quiero entender te lo subregistros son registros hechos a posteriori pero como corridos en fechas anteriores. hubiera sido conveniente añadir el artículo las diferentes causas de los registros para entender el panorama.

    1. Sí, es el retraso en el registro y no el subregistro, que podría entenderse como los casos que nunca entrarán en esta base de datos.

Comentarios cerrados