De la seqüència a l'estructura: com la IA està transformant el plegament de proteïnes

Què passaria si poguéssim utilitzar la intel·ligència artificial per respondre a un dels misteris més grans de la vida: el plegament de proteïnes? Els científics han estat treballant en això durant dècades.

Les màquines ara poden predir les estructures de proteïnes amb una precisió sorprenent utilitzant models d'aprenentatge profund, alterant el desenvolupament de fàrmacs, la biotecnologia i el nostre coneixement dels processos biològics fonamentals.

Uneix-te a mi en una exploració al regne intrigant del plegament de proteïnes d'IA, on la tecnologia d'avantguarda xoca amb la complexitat de la vida mateixa.

Desvetllant el misteri del plegament de proteïnes

Les proteïnes funcionen al nostre cos com petites màquines per dur a terme tasques crucials com descompondre els aliments o transportar oxigen. S'han de plegar correctament perquè funcionin amb eficàcia, igual que una clau s'ha de tallar correctament per encaixar en un pany. Tan bon punt es crea la proteïna, comença un procés de plegament molt complicat.

El plegament de proteïnes és el procés pel qual llargues cadenes d'aminoàcids, els blocs de construcció de la proteïna, es pleguen en estructures tridimensionals que dicten la funció de la proteïna.

Penseu en una llarga cadena de comptes que s'ha d'ordenar en una forma precisa; això és el que passa quan una proteïna es plega. Tanmateix, a diferència de les perles, els aminoàcids tenen característiques úniques i interactuen entre ells de diverses maneres, fent que el plegament de proteïnes sigui un procés complex i sensible.

La imatge aquí representa l'hemoglobina humana, que és una coneguda proteïna plegada

Les proteïnes s'han de plegar ràpidament i amb precisió, o es plegaran malament i defectuoses. Això podria provocar malalties com l'Alzheimer i el Parkinson. La temperatura, la pressió i la presència d'altres molècules a la cèl·lula tenen un efecte en el procés de plegament.

Després de dècades d'investigació, els científics encara estan intentant esbrinar exactament com es pleguen les proteïnes.

Afortunadament, els avenços en intel·ligència artificial estan millorant el desenvolupament del sector. Els científics poden preveure l'estructura de les proteïnes amb més precisió que mai mitjançant l'ús algorismes d'aprenentatge automàtic per examinar grans volums de dades.

Això té el potencial de canviar el desenvolupament de medicaments i augmentar el nostre coneixement molecular de la malaltia.

Les màquines poden funcionar millor?

Les tècniques convencionals de plegat de proteïnes tenen limitacions

Els científics han estat intentant esbrinar el plegament de proteïnes durant dècades, però la complexitat del procés ha fet que aquest sigui un tema difícil.

Els enfocaments convencionals de predicció de l'estructura de proteïnes utilitzen una combinació de metodologies experimentals i modelització per ordinador, però, tots aquests mètodes tenen inconvenients.

Tècniques experimentals com la cristal·lografia de raigs X i la ressonància magnètica nuclear (RMN) poden consumir temps i ser costoses. I, de vegades, els models informàtics es basen en supòsits simples, que poden conduir a prediccions errònies.

La IA pot superar aquests obstacles

Per sort, intel·ligència artificial està proporcionant una nova promesa per a una predicció de l'estructura de proteïnes més precisa i eficient. Els algorismes d'aprenentatge automàtic poden examinar volums massius de dades. I, descobreixen patrons que la gent es perdria.

Això ha donat lloc a la creació de noves eines i plataformes de programari capaços de predir l'estructura de proteïnes amb una precisió incomparable.

Els algorismes d'aprenentatge automàtic més prometedors per a la predicció de l'estructura de proteïnes

El sistema AlphaFold construït per Google DeepMind equip és un dels avenços més prometedors en aquest àmbit. S'ha aconseguit un gran progrés en els últims anys amb l'ús algorismes d’aprenentatge profund predir l'estructura de les proteïnes a partir de les seves seqüències d'aminoàcids.

Les xarxes neuronals, les màquines vectorials de suport i els boscos aleatoris es troben entre els mètodes d'aprenentatge automàtic que són prometedors per predir l'estructura de proteïnes.

Aquests algorismes poden aprendre d'enormes conjunts de dades. I, poden anticipar les correlacions entre diferents aminoàcids. Així doncs, anem a veure com funciona.

Anàlisis coevolucionàries i la primera generació AlphaFold

L'èxit de AlphaFold es basa en un model de xarxa neuronal profunda que es va desenvolupar mitjançant l'anàlisi coevolutiva. El concepte de coevolució estableix que si dos aminoàcids d'una proteïna interactuen entre ells, es desenvoluparan junts per mantenir el seu enllaç funcional.

Els investigadors poden detectar quins parells d'aminoàcids és probable que estiguin en contacte a l'estructura 3D comparant les seqüències d'aminoàcids de nombroses proteïnes similars.

Aquestes dades serveixen de base per a la primera iteració d'AlphaFold. Prediu les longituds entre els parells d'aminoàcids, així com els angles dels enllaços peptídics que els uneixen. Aquest mètode va superar tots els enfocaments anteriors per predir l'estructura de proteïnes a partir de la seqüència, tot i que la precisió encara estava restringida per a les proteïnes sense plantilles aparents.

AlphaFold 2: una metodologia radicalment nova

AlphaFold2 és un programari informàtic creat per DeepMind que utilitza la seqüència d'aminoàcids d'una proteïna per predir l'estructura 3D de la proteïna.

Això és important perquè l'estructura d'una proteïna dicta el seu funcionament, i entendre la seva funció pot ajudar els científics a desenvolupar medicaments dirigits a la proteïna.

La xarxa neuronal AlphaFold2 rep com a entrada la seqüència d'aminoàcids de la proteïna, així com detalls sobre com es compara aquesta seqüència amb altres seqüències d'una base de dades (això s'anomena "alineació de seqüències").

La xarxa neuronal fa una predicció sobre l'estructura 3D de la proteïna a partir d'aquesta entrada.

Què el diferencia d'AlphaFold2?

A diferència d'altres enfocaments, AlphaFold2 prediu l'estructura 3D real de la proteïna en lloc de només la separació entre parells d'aminoàcids o els angles entre els enllaços que els connecten (com feien els algorismes anteriors).

Perquè la xarxa neuronal anticipi l'estructura completa alhora, l'estructura es codifica d'extrem a extrem.

Una altra característica clau d'AlphaFold2 és que ofereix una estimació de la confiança que té en la seva previsió. Es presenta com una codificació de colors a l'estructura prevista, amb el vermell que representa una alta confiança i el blau que suggereix una confiança baixa.

Això és útil ja que informa els científics sobre l'estabilitat de la predicció.

Predicció de l'estructura combinada de diverses seqüències

L'última expansió d'Alphafold2, coneguda com Alphafold Multimer, preveu l'estructura combinada de diverses seqüències. Encara té un alt percentatge d'errors, fins i tot si funciona molt millor que les tècniques anteriors. Només el 25% dels 4500 complexos proteics es van predir amb èxit.

El 70% de les regions rugoses de formació de contacte es van predir correctament, però l'orientació relativa de les dues proteïnes era incorrecta. Quan la profunditat d'alineació mitjana és inferior a aproximadament 30 seqüències, la precisió de les prediccions del multímer Alphafold disminueix significativament.

Com utilitzar les prediccions Alphafold

Els models predits d'AlphaFold s'ofereixen en els mateixos formats de fitxer i es poden utilitzar de la mateixa manera que les estructures experimentals. És fonamental tenir en compte les estimacions de precisió que ofereix el model per tal d'evitar malentesos.

És especialment útil per a estructures complicades com homòmers entrellaçats o proteïnes que només es pleguen en presència d'un
lligand desconegut.

Alguns reptes

El principal problema en l'ús d'estructures predites és entendre la dinàmica, la selectivitat de lligands, el control, l'al·losteria, els canvis post-traduccionals i la cinètica d'unió sense accés a proteïnes i dades biofísiques.

L'aprenentatge automàtic i la investigació de la dinàmica molecular basada en la física es pot utilitzar per superar aquest problema.

Aquestes investigacions poden beneficiar-se d'una arquitectura informàtica especialitzada i eficient. Tot i que AlphaFold ha aconseguit avenços enormes en la predicció d'estructures de proteïnes, encara hi ha molt per aprendre en el camp de la biologia estructural, i les prediccions d'AlphaFold són només el punt de partida per a futurs estudis.

Quines són les altres eines remarcables?

RoseTTAFfold

RoseTTAFold, creat pels investigadors de la Universitat de Washington, també utilitza algorismes d'aprenentatge profund per predir les estructures de proteïnes, però també integra un nou enfocament conegut com a "simulacions de dinàmiques d'angle de torsió" per millorar les estructures previstes.

Aquest mètode ha donat resultats encoratjadors i pot ser útil per superar les limitacions de les eines de plegament de proteïnes AI existents.

trRosetta

Una altra eina, trRosetta, prediu el plegament de proteïnes mitjançant a xarxa neural entrenat en milions de seqüències i estructures de proteïnes.

També utilitza una tècnica de "modelació basada en plantilles" per crear prediccions més precises comparant la proteïna objectiu amb estructures conegudes comparables.

S'ha demostrat que trRosetta és capaç de predir les estructures de petites proteïnes i complexos proteics.

DeepMetaPSICOV

DeepMetaPSICOV és una altra eina que se centra a predir mapes de contacte de proteïnes. Aquests, s'utilitzen com a guia per predir el plegament de proteïnes. S'utilitza aprenentatge profund enfocaments per predir la probabilitat d'interaccions de residus dins d'una proteïna.

Posteriorment s'utilitzen per predir el mapa de contactes general. DeepMetaPSICOV ha demostrat potencial per predir les estructures de proteïnes amb gran precisió, fins i tot quan els enfocaments anteriors han fallat.

Què ens espera el futur?

El futur del plegament de proteïnes de la IA és brillant. Els algorismes basats en l'aprenentatge profund, en particular AlphaFold2, han fet recentment grans progressos en la predicció fiable de les estructures de proteïnes.

Aquesta troballa té el potencial de transformar el desenvolupament de fàrmacs permetent als científics comprendre millor l'estructura i la funció de les proteïnes, que són objectius terapèutics habituals.

No obstant això, es mantenen problemes com la previsió de complexos proteics i la detecció de l'estat funcional real de les estructures previstes. Es requereix més investigació per resoldre aquests problemes i augmentar la precisió i la fiabilitat dels algorismes de plegament de proteïnes d'IA.

No obstant això, els beneficis potencials d'aquesta tecnologia són enormes i té el potencial de conduir a la producció de medicaments més efectius i precisos.

De la seqüència a l'estructura: com la IA està transformant el plegament de proteïnes

Desvetllant el misteri del plegament de proteïnes

Les màquines poden funcionar millor?