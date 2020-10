Dès les premiers jours de la pandémie de COVID-19, l’épidémiologiste Melissa Haendel savait que les États-Unis allaient avoir un problème de données. Il ne semblait pas y avoir de stratégie nationale pour contrôler le virus, et des cas surgissaient dans des points chauds sporadiques à travers le pays. Avec une réponse aussi disparate, il serait probablement difficile d’obtenir des informations à l’échelle nationale sur les personnes qui sont tombées malades.

D’autres chercheurs à travers le pays identifiaient des problèmes similaires. À Seattle, Adam Wilcox, directeur des analyses chez UW Medicine, a contacté des collègues. La ville était le premier hotspot américain COVID-19. «Nous avions 10 fois plus de données, en termes de tests bruts, que dans d’autres domaines», dit-il. Il voulait partager ces données avec d’autres hôpitaux, afin qu’ils aient ces informations sous la main avant que les cas de COVID-19 ne commencent à grimper dans leur région. Tout le monde voulait mettre le plus de données possible entre les mains du plus grand nombre de personnes possible, afin de pouvoir commencer à comprendre le virus.

Haendel était bien placé pour y contribuer. Elle est présidente du National Center for Data to Health (CD2H), un programme des National Institutes of Health qui vise à améliorer la collaboration et le partage de données au sein de la communauté de la recherche médicale. Ainsi, une semaine en mars, juste après avoir commencé à travailler à domicile et retiré sa 10e année de l’école, elle a commencé à essayer de comprendre comment utiliser les projets de partage de données existants pour lutter contre cette nouvelle maladie.

La solution sur laquelle Haendel et CD2H ont atterri semble simple: une base de données centralisée et anonyme des dossiers de santé des personnes testées positives au COVID-19. Les chercheurs pourraient utiliser les données pour comprendre pourquoi certaines personnes tombent très malades et d’autres non, comment des conditions comme le cancer et l’asthme interagissent avec la maladie et quels traitements finissent par être efficaces.

Mais aux États-Unis, la création de ce type de ressources n’est pas facile. «Le système de santé américain est très fragmenté», dit Haendel. «Et comme nous n’avons pas de soins de santé centralisés, cela signifie également que nous n’avons pas de données de santé centralisées.» Les hôpitaux, invoquant des problèmes de confidentialité, n’aiment pas divulguer les données de santé de leurs patients. Même si les hôpitaux acceptent de partager, ils utilisent tous des méthodes différentes de stockage des informations. Dans un établissement, la classification «femme» pourrait entrer dans un enregistrement comme un, et «homme» pourrait entrer comme deux – et à la suivante, elles seraient inversées.

Les urgences, cependant, ont un moyen de contourner les normes. «Rien de tel qu’une pandémie pour faire ressortir le meilleur d’une institution», dit Haendel. Et après seulement quelques mois de travail effréné de la part du CD2H et de ses collaborateurs à travers le pays, l’Enclave de données collaboratives de la cohorte nationale COVID, ou N3C, s’est ouverte aux chercheurs début septembre. Maintenant qu’il est en place, il pourrait aider à renforcer les réponses à la pandémie à l’avenir. C’est unique par rapport à tout ce qui l’a précédé, en taille et en portée, dit Haendel. «Aucune autre ressource n’a jamais essayé de faire cela auparavant.»

Silos institutionnels

Les dossiers de santé des patients sont relativement accessibles aux scientifiques – en vertu des lois sur la protection de la vie privée en matière de santé, les dossiers peuvent être utilisés à des fins de recherche tant que les informations d’identification (comme les noms et les lieux) sont supprimées. Le hic, c’est que les chercheurs sont généralement limités aux dossiers des patients sur les lieux où ils travaillent. L’ensemble de données ne peut inclure que le nombre de patients que cet établissement traite, et il est géographiquement limité. Les chercheurs ne peuvent pas être sûrs que les données des patients à New York seraient équivalentes aux données des patients en Alabama. Utiliser des informations provenant de plusieurs endroits permettrait de s’assurer que les résultats étaient aussi représentatifs que possible.

Mais il peut être risqué pour les institutions de partager et de combiner leurs données, dit Wilcox. Déplacer des données hors du contrôle d’une organisation risque de provoquer une violation de données, ce qui pourrait conduire à la méfiance des patients, ouvrir l’institution à des problèmes juridiques ou créer d’autres désavantages concurrentiels, dit-il. Ils doivent trouver un équilibre entre toutes ces préoccupations et les avantages potentiels. «L’organisation doit l’approuver. Est-ce une bonne idée? Voulons-nous y participer? » Dit Wilcox.

Les établissements répondent souvent à ces questions par un «non». Ils veulent conserver la propriété et le contrôle de leurs propres données, déclare Anita Walden, directrice adjointe de CD2H. La pandémie a changé cette culture. Les gens qui hésitent généralement à participer à des programmes comme celui-ci ont soudainement été all-in, dit-elle. «À cause du COVID-19, les gens veulent juste faire ce qu’ils peuvent.»

Amener les établissements à envoyer leurs données n’était que la première étape. Ensuite, les experts ont dû transformer ces données en quelque chose d’utile. Les établissements médicaux collectent et enregistrent tous les informations sur la santé de manière légèrement différente, et il n’y a pas eu d’incitation à normaliser leurs méthodes. De nombreux établissements ont dépensé des centaines de millions de dollars pour mettre en place leurs dossiers médicaux électroniques – ils ne veulent pas changer les choses à moins d’y être absolument obligés.

«C’est comme tourner le Titanic à ce stade», déclare Emily Pfaff, qui dirige l’équipe de N3C fusionnant les données de différentes institutions. Les entreprises qui créent le logiciel pour les dossiers de santé électroniques, comme Epic, ne mettent pas non plus leurs stratégies de stockage de données à la disposition des chercheurs externes. «Si vous voulez pratiquer la science ouverte avec des données cliniques, ce que je pense que beaucoup d’entre nous font, vous ne pourrez pas le faire avec les données formatées comme le fait le dossier de santé électronique», dit-elle. «Vous devez transformer ces données.»

Des pays comme le Royaume-Uni, qui ont des systèmes de soins de santé centralisés, n’ont pas à faire face aux mêmes problèmes: les données de chaque patient du service national de santé du pays se trouvent déjà au même endroit. En mai, des chercheurs ont publié une étude qui analysait les enregistrements de plus de 17 millions de personnes pour trouver des facteurs de risque de décès par COVID-19.

Mais aux États-Unis, pour N3C, ce n’est pas aussi simple. Au lieu que les données d’un patient COVID-19 soient directement entrées dans une base de données nationale, le nouveau processus est beaucoup plus complexe. Disons qu’une femme enceinte se rend chez son médecin avec des symptômes de ce qu’elle pense être COVID-19. Elle se fait tester et le test revient positif. Ce résultat apparaît dans son carnet de santé. Si son fournisseur de soins de santé participe à la base de données N3C, cet enregistrement est signalé. «Ensuite, son dossier de santé a une chance d’être attrapé par notre filet, car ce que notre filet recherche, entre autres, est un test COVID positif», dit Pfaff.

Ses données sont ensuite transférées dans une base de données, où un programme (qui a dû être créé à partir de zéro) transforme les informations sur les traitements du patient et les conditions préexistantes dans un format standardisé. Ensuite, il sera poussé dans l’enclave de données N3C, subira un contrôle de qualité, puis – sans son nom ou le nom de l’institution d’où provient le document – sera disponible pour les chercheurs.

Près de 70 institutions ont entamé le processus pour fournir des données à l’enclave. Les données de 20 sites ont suivi le processus complet et les données sont accessibles aux chercheurs. Fin septembre, la base de données contenait environ 65 000 cas de COVID-19, selon Pfaff, et environ 650 000 cas de non-COVID-19 (qui peuvent être utilisés comme témoins). Il n’y a pas d’objectif numérique spécifique, dit-elle. «Nous en prendrions autant que possible.»

Utiliser les données

Alors que certains experts s’efforçaient d’impliquer les institutions médicales dans le projet et que d’autres cherchaient à harmoniser un tas de données, d’autres encore s’organisaient pour déterminer ce qu’ils voulaient faire exactement avec les informations obtenues. Ils se sont répartis en une poignée de groupes de travail, chacun axé sur un domaine différent: il y en a un axé sur l’intersection du diabète et du COVID-19, par exemple, et un autre sur les lésions rénales.

Elaine Hill, économiste de la santé à l’Université de Rochester, dirige un groupe axé sur la grossesse et le COVID-19. La première chose qu’ils espèrent faire, dit-elle, est de déterminer combien de personnes avaient le virus au moment de l’accouchement – seuls quelques hôpitaux ont publié ces données jusqu’à présent. «Ensuite, nous voulons comprendre comment l’infection au COVID-19 affecte les issues liées à la grossesse pour la mère et le bébé», dit-elle. Grâce à la base de données, ils pourront le faire avec des informations nationales, et pas seulement des données de patients dans une poignée d’endroits.

Cette vision large du problème est l’un des principaux avantages d’une grande base de données nationale. Différents endroits aux États-Unis avaient des politiques de prévention du COVID-19 différentes, des réglementations différentes concernant les verrouillages et des données démographiques différentes. Leur combinaison donne une image plus complète de la façon dont le virus a frappé le pays. «Cela permet de faire la lumière sur des choses que nous ne pourrions pas faire avec seulement ma cohorte de Rochester», dit Hill.

Certains symptômes ou complications du COVID-19 sont également rares, et un hôpital peut ne voir qu’un ou deux patients au total qui en ont. «Lorsque vous recueillez des données à travers le pays, vous avez une population plus importante et pouvez regarder les tendances dans ces conditions plus rares», dit Walden. Des ensembles de données plus volumineux peuvent également permettre aux analystes d’utiliser des techniques d’apprentissage automatique plus complexes.

Si tout se passe bien avec N3C, le projet pourrait offrir un plan pour un meilleur partage des données à l’avenir. Plus que cela, il peut offrir un outil concret pour les projets futurs – le code nécessaire pour nettoyer, transformer et fusionner les données de plusieurs hôpitaux existe maintenant. «J’ai presque l’impression de construire une infrastructure prête pour une pandémie pour l’avenir», déclare Pfaff. Et maintenant que les instituts de recherche ont partagé des données une fois – même si c’est dans des circonstances uniques – ils seront peut-être plus disposés à le refaire à l’avenir.

«Dans cinq ans, la plus grande valeur de cet ensemble de données ne sera pas les données», déclare Wilcox. «Ce sont les méthodes que nous avons apprises en essayant de le faire fonctionner.»