Pourquoi la normalisation est-elle importante ?
Lorsqu'on analyse des données de scRNA-seq, il est crucial de s'assurer que les différences observées entre les cellules ne sont pas simplement le résultat de variations techniques. Par exemple, le nombre de molécules détectées dans chaque cellule peut varier considérablement. Cette variation peut rendre difficile l'identification des véritables différences biologiques entre les cellules, telles que celles qui existent entre différents types de cellules ou états cellulaires.
La normalisation vise à éliminer ces biais techniques tout en préservant la variabilité biologique réelle. Pour cela, il faut une méthode robuste qui peut distinguer les effets techniques des effets biologiques.
Une nouvelle approche : la régression binomiale négative régularisée
Hafemeister et Satija ont proposé un modèle statistique basé sur la régression binomiale négative régularisée. Ce modèle est conçu pour corriger les effets techniques en utilisant la profondeur de séquençage (c'est-à-dire le nombre total de molécules détectées par cellule) comme variable explicative dans un modèle statistique. Ce faisant, ils ont pu obtenir des estimations plus précises des niveaux d'expression des gènes.
Comment cela fonctionne-t-il ?
Le modèle fonctionne en calculant ce que les chercheurs appellent des résidus de Pearson. Ces résidus sont des valeurs normalisées qui reflètent la véritable expression des gènes, en éliminant les influences techniques. Les chercheurs ont démontré que cette approche permet de conserver la variabilité biologique tout en minimisant les biais dus aux différences techniques. Cela signifie que les analyses ultérieures, comme la sélection de gènes variables ou l'analyse de l'expression différentielle, peuvent être réalisées de manière plus fiable.
Les résultats de cette nouvelle méthode
Les chercheurs ont testé leur méthode sur un ensemble de données de 33 148 cellules sanguines humaines. Ils ont montré que leur approche permettait d'obtenir des résultats plus cohérents et fiables que les méthodes de normalisation traditionnelles. En outre, les résidus de Pearson ont démontré une indépendance vis-à-vis de la profondeur de séquençage, ce qui n'était pas le cas avec les méthodes précédentes.
Une méthode applicable à grande échelle
Un des avantages majeurs de cette méthode est qu'elle peut être appliquée à n'importe quel ensemble de données de scRNA-seq basé sur des identifiants moléculaires uniques (UMI). De plus, cette méthode est accessible gratuitement grâce à un package R appelé sctransform, qui facilite son utilisation pour les chercheurs du monde entier.
Pourquoi cette recherche compte pour nous ?
Cette avancée dans l'analyse des données de scRNA-seq a des implications importantes pour la biologie, la médecine et la recherche biomédicale. En améliorant la précision des analyses de séquençage, cette méthode peut aider à mieux comprendre les maladies, la réponse immunitaire et le développement cellulaire. En fin de compte, cela pourrait conduire à des découvertes qui améliorent la santé humaine et permettent un traitement plus ciblé des maladies.