avril 26, 2024

BreaGeek News

Obtenez toutes les dernières nouvelles et rapports sur la FRANCE ici. Manchettes, politique et culture françaises sur une chaîne d'information

Meta dit avoir créé un modèle de nouvelle génération de repliement des protéines • The Register

Meta dit avoir créé un modèle de nouvelle génération de repliement des protéines • The Register

Les chercheurs en intelligence artificielle de Meta affirment avoir développé le plus grand modèle de repliement de protéines de ce type à ce jour et qu’il est capable de prédire la structure de plus de 600 millions de protéines.

l’équipe poitrine Le modèle basé sur l’adaptateur ESM-2 de 15 milliards de variantes et une base de données pour ses prédictions de la structure des protéines, baptisée Atlas métagénomique ESM, Mardi. Cette base de données comprend des isoformes de protéines que les scientifiques n’ont pas encore observées.

Les protéines sont des molécules biologiques complexes contenant jusqu’à 20 types d’acides aminés, et elles remplissent toutes sortes de fonctions biologiques dans les organismes vivants. Fondamentalement, ils sont pliés en structures 3D complexes, et leur forme est essentielle à leur fonctionnement ; Savoir à quoi cela ressemble aide les scientifiques à comprendre comment cela fonctionne, et à partir de là, les aide à découvrir des moyens d’imiter, de modifier ou de contrecarrer ce comportement.

Malheureusement, vous ne pouvez pas simplement prendre la composition en acides aminés et travailler immédiatement sur la structure finale. Vous pouvez exécuter des simulations ou expérimenter pour le savoir, mais cela prend beaucoup de temps. De nos jours, vous pouvez fournir un logiciel d’apprentissage automatique correctement formé à la structure chimique d’une protéine, et le modèle prédira rapidement et de manière relativement précise la structure.

En fait, DeepMind a beaucoup montré avec son modèle AlphaFold, qui gagner – gagner Concours international biennal de pliage de protéines CASP en 2020. Grâce à une chaîne d’entrée d’acides aminés, AlphaFold et d’autres logiciels d’apprentissage automatique peuvent générer la structure 3D correspondante.

READ  Plus qu'une simple météorite : les nouveaux indices sur la disparition des dinosaures | rédaction

Depuis lors, les chercheurs de DeepMind, basé à Londres, ont amélioré leur système pour fierté La structure de plus de 200 millions de protéines est connue de la science. Le dernier système ESM de Meta est allé encore plus loin, prédisant des centaines de millions après avoir été formé sur des millions de séquences de protéines.

Article préliminaire de l’équipe Meta – Lin et al – expliquant la conception de l’ESM-2 Il peut être trouvé ici. Fait intéressant, selon Des chercheurs, le système est en fait un grand modèle linguistique conçu « pour apprendre des modèles évolutifs et générer des prédictions structurelles précises de bout en bout directement à partir de séquences de protéines ». AlphaFold, par exemple, n’est pas un langage modèle et utilise une approche différente.

Comme le note Boffin dans son article, ces grands modèles de langage peuvent être utilisés pour bien plus que traiter les langages humains : « Les modèles de langage modernes avec des dizaines à des centaines de milliards de paramètres développent des capacités telles que la traduction de langage à faible accrochage, le raisonnement logique et les mathématiques. Résolution de problèmes Le tout sans supervision explicite.

« Ces observations soulèvent la possibilité d’une forme parallèle d’apparition par des modèles linguistiques entraînés sur des séquences protéiques. »

Le résultat est ESM-2, qui bien qu’un modèle linguistique ait été enseigné pour prédire la forme physique d’une protéine à partir d’une chaîne de texte représentant des acides aminés.

ESM-2 est le plus grand modèle de ce type, prédisant apparemment les structures plus rapidement que des systèmes similaires ; Il est jusqu’à 60 fois plus rapide que les derniers systèmes précédents comme AlphaFold ou Rosetta, qui peuvent prendre plus de dix minutes pour générer une sortie, selon Meta.

READ  Test du Dyson Purifier Big + Quiet : Le type puissant et silencieux

Le modèle a pu créer l’atlas métagénomique ESM et prédit plus de 600 millions de structures à partir de MGnify90 Base de données de protéines en seulement deux semaines fonctionnant sur 2000 GPU. Sur un seul GPU Nvidia V100, il ne faut que 14,2 secondes pour simuler une protéine de 384 acides aminés. Il ressort du document de recherche que Meta a déclaré que son système correspond principalement, mais pas complètement, à AlphaFold en termes de précision, bien que sa vitesse soit l’élément clé, lui permettant de prédire plus de protéines.

« En utilisant les outils informatiques de pointe actuels, prédire les structures de centaines de millions de chaînes protéiques dans un laps de temps pratique peut prendre des années, même en utilisant les ressources d’une grande institution de recherche. Pour faire des prédictions au niveau de la métagénomique, une percée dans la vitesse de prédiction est essentielle », a déclaré le propriétaire de Facebook.

Meta espère que l’ESM-2 et l’ESM Metagenomic Atlas feront progresser la science en aidant les scientifiques à étudier l’histoire de l’évolution ou à lutter contre les maladies et le changement climatique. « Pour étendre encore plus loin ce travail, nous étudions comment les modèles linguistiques peuvent être utilisés pour concevoir de nouvelles protéines et contribuer à résoudre les problèmes de santé, de maladie et d’environnement », a conclu Pease. ®