4E - Création d'un indicateur de suivi épidémique multi-sources

L’objectif était d’intégrer des données externes à la prévision épidémique, avec en premier lieu les données google trends (que nous monitorons déjà cf track-covid) qui permettent de suivre la recherche de symptômes ou de mots clés laissant penser à une infection au covid. Ensuite, nous avons imaginé intégrer la concentration de virus dans les eaux usées, les indicateurs de mobilité type google/apple mobility index, la météo, la densité en termes de restaurants … Tout cela afin de construire un indicateur donnant une vision d’ensemble de la situation.
Nous avons choisi les données d’hospitalisation car non dépendante de la politique de test.

1. Nettoyage de la base des données d’hospitalisation
Nous avons testé différentes astuces pour “normaliser” les entrées hospitalières des dimanches et jours fériés, nous avons finalement opté pour la plus simple : faire la moyenne du nombre d’hospitalisation actuel avec le jour du rattrapage et attribuer cette valeur aux deux points.

2. Etude des corrélations
Nous avons commencé par étudier les corrélations entre la courbe des hospitalisation et la courbe de nos données, avec un décalage de jour, afin de déterminer si cette variable pouvait avoir une valeur “prédictive”.
Voici un exemple pour les données google trends de suspicion d’infection à Paris, avec en abscisse le nombre de jour de décalage à la courbe des hospitalisations et en ordonnée le coefficient de corrélation obtenu
image
On a donc autour de 60j le pic du coefficient de corrélation, à plus de 0.8
C’est également ce que l’on constate sur les indicateurs google trends de recherche de symptômes covid et de test. Les indicateurs Google semblent donc pouvoir anticiper les variation avec 2 mois d’avance.

Nous avons également analysé les données « d’Apple mobility trends » dans le but d’observer un lien avec le nombre d’hospitalisations par un jour.

Nous avons également analysé les données « d’Apple mobility trends » dans le but d’observer un lien avec le nombre d’hospitalisations par jour.

Apple fournit des tendances de mobilité c’est-à-dire une évolution de l’utilisation des transports via l’application Plans en base 100 par rapport au 13 janvier 2020 et ce sur trois modes de transport et sur un certain nombre de villes et de Région (il est à noter que seules 13 villes correspondent à des départements au sein des données Apple) :

  • percentage_baseline transit pour les transports en commun,
  • percentage_baseline walking pour les déplacements à pieds
  • percentage_baseline driving pour les déplacements routiers

Après rapprochement et mise à l’échelle des données des hôpitaux et d’Apple trends par ville voici ce que l’on obtient pour la ville de Lyon et selon les 3 modes de déplacements

Les trois courbes de mobilité (graphique ci-dessus) ont une même évolution, pour simplifier notre analyse nous nous focaliserons donc sur les déplacements à pied à Lyon (percentage_from_baseline_ Lyon_Walking).

En filtrant la saisonnalité avec une moyenne mobile sur 15 jours de cette série on remarque une évolution similaire entre les deux courbes (corrélation : r = 0.57) avec 40 jours de décalage pour la courbe des hospitalisation (en rouge) en se focalisant sur la période du 15 août 2020 au 17 avril 2021.

Cette corrélation devient d’autant plus forte avec un décalage de 60 jours (r = 0.85).
Les indicateurs de déplacements fournis par Apple sont donc de très bons prédicteurs du nombre d’hospitalisations journalières et peuvent-être combinés à d’autres indicateurs pour construire un modèle qui aidera au suivi des places disponibles dans les hôpitaux pour certaines villes.

3. Indicateur simple
En comparant les taux de croissance hebdomadaires google trends et hospitalisation, on constate qu’on a en moyenne taux de croissance des hospitalisations = 0.3 x taux de croissance google avec 8 semaines d’écart.
Un premier indicateur potentiel de la reprise épidémique.

4. Et la suite ?
Poursuivre l’indicateur simple sur les autres sources
Mettre en place un/des modèles de ML à partir des données que l’on aura sélectionnées.

Equipe C-Ways :
Aurélien Plaire,
Eva Lekic,
Grégoire Mialet,
Tilia Tomiche,
Victor Andrieu,
Xavier Lai

Ainsi que :

Hamid Khaoua

Destiné à piloter la gestion de crise sanitaire

2 J'aime