Dalla sequenza alla struttura: come l'IA sta trasformando il ripiegamento delle proteine

E se potessimo usare l'intelligenza artificiale per rispondere a uno dei più grandi misteri della vita: il ripiegamento delle proteine? Gli scienziati ci lavorano da decenni.

Le macchine possono ora prevedere le strutture proteiche con una precisione sorprendente utilizzando modelli di apprendimento approfondito, alterando lo sviluppo di farmaci, la biotecnologia e la nostra conoscenza dei processi biologici fondamentali.

Unisciti a me in un'esplorazione nell'intrigante regno del ripiegamento delle proteine AI, dove la tecnologia all'avanguardia si scontra con la complessità della vita stessa.

Svelare il mistero del ripiegamento delle proteine

Le proteine funzionano nel nostro corpo come piccole macchine per svolgere compiti cruciali come abbattere il cibo o trasportare ossigeno. Devono essere piegati correttamente affinché funzionino in modo efficace, proprio come una chiave deve essere tagliata correttamente per entrare in una serratura. Non appena la proteina viene creata, inizia un processo di ripiegamento molto complicato.

Il ripiegamento delle proteine è il processo mediante il quale lunghe catene di aminoacidi, i mattoni della proteina, si ripiegano in strutture tridimensionali che dettano la funzione della proteina.

Considera un lungo filo di perline che deve essere ordinato in una forma precisa; questo è ciò che accade quando una proteina si ripiega. Tuttavia, a differenza delle perle, gli amminoacidi hanno caratteristiche uniche e interagiscono tra loro in vari modi, rendendo il ripiegamento delle proteine un processo complesso e sensibile.

L'immagine qui rappresenta l'emoglobina umana, che è una ben nota proteina ripiegata

Le proteine devono ripiegarsi velocemente e con precisione, altrimenti diventeranno mal ripiegate e difettose. Ciò potrebbe portare a malattie come l'Alzheimer e il Parkinson. La temperatura, la pressione e la presenza di altre molecole nella cellula hanno tutti un effetto sul processo di ripiegamento.

Dopo decenni di ricerca, gli scienziati stanno ancora cercando di capire esattamente come si ripiegano le proteine.

Per fortuna, i progressi nell'intelligenza artificiale stanno migliorando lo sviluppo nel settore. Gli scienziati possono anticipare la struttura delle proteine in modo più accurato che mai utilizzando algoritmi di apprendimento automatico per esaminare enormi volumi di dati.

Questo ha il potenziale per cambiare lo sviluppo dei farmaci e aumentare la nostra conoscenza molecolare della malattia.

Le macchine possono funzionare meglio?

Le tecniche convenzionali di ripiegamento delle proteine hanno dei limiti

Gli scienziati hanno cercato di capire il ripiegamento delle proteine per decenni, ma la complessità del processo ha reso questo argomento impegnativo.

Gli approcci convenzionali alla previsione della struttura proteica utilizzano una combinazione di metodologie sperimentali e modellazione al computer, tuttavia, questi metodi presentano tutti degli svantaggi.

Tecniche sperimentali come la cristallografia a raggi X e la risonanza magnetica nucleare (NMR) possono richiedere molto tempo e denaro. Inoltre, i modelli informatici a volte si basano su semplici presupposti, che possono portare a previsioni errate.

L'intelligenza artificiale può superare questi ostacoli

Per fortuna, intelligenza artificiale sta fornendo nuove promesse per una previsione della struttura proteica più accurata ed efficiente. Gli algoritmi di apprendimento automatico possono esaminare enormi volumi di dati. E scoprono schemi che le persone mancherebbero.

Ciò ha portato alla creazione di nuovi strumenti e piattaforme software in grado di prevedere la struttura delle proteine con una precisione senza pari.

Gli algoritmi di machine learning più promettenti per la previsione della struttura proteica

Il sistema AlphaFold creato da Google DeepMind team è uno dei progressi più promettenti in questo settore. Ha ottenuto grandi progressi negli ultimi anni utilizzando algoritmi di apprendimento profondo prevedere la struttura delle proteine in base alle loro sequenze di aminoacidi.

Le reti neurali, le macchine vettoriali di supporto e le foreste casuali sono tra gli altri metodi di apprendimento automatico che mostrano risultati promettenti per la previsione della struttura delle proteine.

Questi algoritmi possono imparare da enormi set di dati. E possono anticipare le correlazioni tra diversi amminoacidi. Quindi, vediamo come funziona.

Analisi coevolutive e la prima generazione AlphaFold

Il successo dei AlphaFold è costruito su un modello di rete neurale profonda che è stato sviluppato utilizzando l'analisi coevolutiva. Il concetto di coevoluzione afferma che se due amminoacidi in una proteina interagiscono tra loro, si svilupperanno insieme per mantenere il loro legame funzionale.

I ricercatori possono rilevare quali coppie di amminoacidi potrebbero essere in contatto nella struttura 3D confrontando le sequenze di amminoacidi di numerose proteine simili.

Questi dati servono come base per la prima iterazione di AlphaFold. Predice le lunghezze tra le coppie di amminoacidi e gli angoli dei legami peptidici che le collegano. Questo metodo ha superato tutti gli approcci precedenti per la previsione della struttura proteica dalla sequenza, sebbene l'accuratezza fosse ancora limitata per le proteine senza modelli apparenti.

AlphaFold 2: una metodologia radicalmente nuova

AlphaFold2 è un software per computer creato da DeepMind che utilizza la sequenza di amminoacidi di una proteina per prevedere la struttura 3D della proteina.

Ciò è significativo perché la struttura di una proteina determina il modo in cui funziona e la comprensione della sua funzione può aiutare gli scienziati a sviluppare farmaci che prendono di mira la proteina.

La rete neurale AlphaFold2 riceve come input la sequenza di amminoacidi della proteina, nonché dettagli su come tale sequenza si confronta con altre sequenze in un database (questo è chiamato "allineamento di sequenza").

La rete neurale fa una previsione sulla struttura 3D della proteina basata su questo input.

Cosa lo distingue da AlphaFold2?

Contrariamente ad altri approcci, AlphaFold2 prevede la vera struttura 3D della proteina piuttosto che semplicemente la separazione tra coppie di amminoacidi o gli angoli tra i legami che li collegano (come facevano gli algoritmi precedenti).

Affinché la rete neurale possa anticipare immediatamente l'intera struttura, la struttura è codificata end-to-end.

Un'altra caratteristica chiave di AlphaFold2 è che offre una stima di quanto sia sicuro delle sue previsioni. Questo è presentato come una codifica a colori sulla struttura anticipata, con il rosso che rappresenta un livello di confidenza elevato e il blu che suggerisce un livello di confidenza basso.

Questo è utile poiché informa gli scienziati sulla stabilità della previsione.

Predire la struttura combinata di diverse sequenze

L'ultima espansione di Alphafold2, nota come Alphafold Multimer, prevede la struttura combinata di diverse sequenze. Ha ancora alti tassi di errore anche se funziona molto meglio delle tecniche precedenti. Solo il 25% dei 4500 complessi proteici è stato previsto con successo.

Il 70% delle regioni ruvide di formazione del contatto è stato previsto correttamente, ma l'orientamento relativo delle due proteine non era corretto. Quando la profondità di allineamento mediana è inferiore a circa 30 sequenze, l'accuratezza delle previsioni del multimero Alphafold diminuisce in modo significativo.

Come utilizzare le previsioni di Alphafold

I modelli previsti da AlphaFold sono offerti negli stessi formati di file e possono essere utilizzati allo stesso modo delle strutture sperimentali. È fondamentale tenere conto delle stime di accuratezza offerte con il modello per evitare fraintendimenti.

È particolarmente utile per strutture complicate come omomeri intrecciati o proteine che si piegano solo in presenza di un
ligando sconosciuto.

Alcune sfide

Il problema principale nell'utilizzo delle strutture previste è comprendere la dinamica, la selettività del ligando, il controllo, l'allosteria, i cambiamenti post-traduzionali e la cinetica del legame senza accesso a dati proteici e biofisici.

apprendimento automatico e la ricerca sulla dinamica molecolare basata sulla fisica può essere utilizzata per superare questo problema.

Queste indagini possono trarre vantaggio da un'architettura informatica specializzata ed efficiente. Sebbene AlphaFold abbia ottenuto enormi progressi nella previsione delle strutture proteiche, c'è ancora molto da imparare nel campo della biologia strutturale e le previsioni di AlphaFold sono solo il punto di partenza per studi futuri.

Quali sono altri strumenti notevoli?

RoseTTAFold

Anche RoseTTAFold, creato dai ricercatori dell'Università di Washington, impiega algoritmi di deep learning per prevedere le strutture proteiche, ma integra anche un nuovo approccio noto come "simulazioni dinamiche dell'angolo di torsione" per migliorare le strutture previste.

Questo metodo ha prodotto risultati incoraggianti e può essere utile per superare i limiti degli strumenti di ripiegamento delle proteine AI esistenti.

trRosetta

Un altro strumento, trRosetta, prevede il ripiegamento delle proteine utilizzando a rete neurale addestrato su milioni di sequenze e strutture proteiche.

Utilizza anche una tecnica di "modellazione basata su modelli" per creare previsioni più precise confrontando la proteina bersaglio con strutture note comparabili.

È stato dimostrato che trRosetta è in grado di prevedere le strutture di minuscole proteine e complessi proteici.

DeepMetaPSICOV

DeepMetaPSICOV è un altro strumento che si concentra sulla previsione delle mappe di contatto delle proteine. Questi sono usati come guida per prevedere il ripiegamento delle proteine. Utilizza apprendimento profondo approcci per prevedere la probabilità di interazioni residue all'interno di una proteina.

Questi vengono successivamente utilizzati per prevedere la mappa complessiva dei contatti. DeepMetaPSICOV ha dimostrato di poter prevedere le strutture proteiche con grande accuratezza, anche quando gli approcci precedenti hanno fallito.

Cosa riserva il futuro?

Il futuro del ripiegamento delle proteine AI è brillante. Gli algoritmi basati sul deep learning, in particolare AlphaFold2, hanno recentemente compiuto grandi progressi nella previsione affidabile delle strutture proteiche.

Questa scoperta ha il potenziale per trasformare lo sviluppo di farmaci consentendo agli scienziati di comprendere meglio la struttura e la funzione delle proteine, che sono bersagli terapeutici comuni.

Tuttavia, rimangono problemi come la previsione dei complessi proteici e il rilevamento del reale stato funzionale delle strutture previste. Sono necessarie ulteriori ricerche per risolvere questi problemi e aumentare l'accuratezza e l'affidabilità degli algoritmi di ripiegamento delle proteine AI.

Tuttavia, i potenziali benefici di questa tecnologia sono enormi e ha il potenziale per portare alla produzione di farmaci più efficaci e precisi.