Pfam 2021 : Une avancée majeure dans la classification des protéines

Introduction à Pfam

La base de données Pfam est un outil essentiel pour les chercheurs qui étudient les séquences de protéines. Elle permet de classer ces séquences en familles et en domaines, facilitant ainsi l'analyse des génomes et des systèmes protéiques. En 2021, la version Pfam 33.1 a été publiée, apportant avec elle plus de 350 nouvelles familles et diverses améliorations des entrées existantes.

Les améliorations de Pfam 33.1

Cette version a été particulièrement influencée par la pandémie de COVID-19. Les chercheurs ont mis à jour les modèles de Pfam concernant le SARS-CoV-2, le virus responsable de la maladie, et ont créé de nouveaux modèles pour des régions qui n'étaient pas couvertes auparavant. En tout, Pfam 33.1 compte 18 259 familles de protéines et 635 clans.

Pfam-B : Une nouvelle approche

Pfam-B, un complément à la base de données initiale, a été réintroduit dans cette version. Il contient 136 730 nouveaux clusters de séquences qui n'étaient pas encore associés à une famille Pfam. Ce complément est basé sur un nouvel algorithme de clustering appelé MMseqs2, qui permet une classification plus efficace des séquences.

Importance de la classification des protéines

La classification des protéines est cruciale pour plusieurs raisons. D'abord, elle aide les scientifiques à comprendre les fonctions protéiques et leur implication dans divers processus biologiques. Par exemple, la mise à jour des modèles pour le SARS-CoV-2 a permis de mieux comprendre les protéines clés, comme la protéine Spike, qui joue un rôle essentiel dans l'infection des cellules hôtes.

Analyse des protéines du SARS-CoV-2

Les modèles mis à jour de Pfam pour le SARS-CoV-2 incluent des détails sur les protéines structurales et accessoires. La protéine Nucleocapsid et la protéine Matrix sont des exemples de protéines dont les annotations ont été améliorées. De plus, des études sur des protéines non structurales ont été réalisées pour mieux comprendre leur rôle dans la réplication virale.

Contributions de la communauté scientifique

Pfam encourage les contributions de la communauté scientifique. De nombreux chercheurs soumettent des familles ou des domaines d'intérêt, et ces contributions sont intégrées dans la base de données. Par exemple, une soumission récente a permis d'ajouter 88 nouvelles familles basées sur le regroupement de virus.

Les défis à venir

Malgré les progrès réalisés, il reste encore beaucoup de travail à faire. Environ 23 % de toutes les familles Pfam sont encore classées comme domaines de fonction inconnue (DUF). Cela signifie qu'il existe un potentiel énorme pour de futures découvertes dans le domaine de la biologie moléculaire.

Conclusion

La mise à jour de la base de données Pfam en 2021 représente un pas en avant significatif dans la compréhension des protéines et de leur classification. En réponse à la pandémie de COVID-19, les chercheurs ont non seulement mis à jour les modèles existants, mais ont également introduit de nouvelles méthodes de classification. Ces avancées sont cruciales pour la recherche scientifique et pourraient avoir des implications significatives pour le développement de traitements et de vaccins.

Pfam protéines SARS-CoV-2 COVID-19 biologie

Publication scientifique originale

Titre : Pfam: The protein families database in 2021.

Année : 2021

Licence : http://creativecommons.org/licenses/by/4.0/

Accéder à la publication originale