Från sekvens till struktur: How AI is Transforming Protein Folding

Tänk om vi kunde använda artificiell intelligens för att svara på ett av livets största mysterier – proteinveckning? Forskare har arbetat med detta i decennier.

Maskiner kan nu förutsäga proteinstrukturer med otrolig precision genom att använda modeller för djupinlärning, förändra läkemedelsutveckling, bioteknik och vår kunskap om grundläggande biologiska processer.

Följ med mig på en utforskning av AI-proteinveckningens spännande värld, där banbrytande teknologi kolliderar med livets komplexitet.

Avslöja mysteriet med proteinvikning

Proteiner fungerar i våra kroppar som små maskiner för att utföra viktiga uppgifter som att bryta ner mat eller transportera syre. De måste vikas ihop korrekt för att de ska fungera effektivt, precis som en nyckel måste skäras rätt för att passa in i ett lås. Så fort proteinet skapas börjar en mycket komplicerad veckningsprocess.

Proteinveckning är den process genom vilken långa kedjor av aminosyror, proteinets byggstenar, viker sig till tredimensionella strukturer som dikterar proteinets funktion.

Tänk på en lång sträng av pärlor som måste beställas i en exakt form; detta är vad som händer när ett protein veck. Ändå, till skillnad från pärlor, har aminosyror unika egenskaper och interagerar med varandra på olika sätt, vilket gör proteinveckning till en komplex och känslig process.

Bilden här föreställer humant hemoglobin, som är ett välkänt veckat protein

Proteiner måste vikas snabbt och exakt, annars blir de felvikta och defekta. Det kan leda till sjukdomar som Alzheimers och Parkinsons. Temperatur, tryck och närvaron av andra molekyler i cellen har alla en effekt på veckningsprocessen.

Efter decennier av forskning försöker forskare fortfarande ta reda på exakt hur proteiner viker sig.

Tack och lov förbättrar framsteg inom artificiell intelligens utvecklingen inom sektorn. Forskare kan förutse strukturen av proteiner mer exakt än någonsin tidigare genom att använda maskininlärningsalgoritmer att undersöka enorma mängder data.

Detta har potential att förändra läkemedelsutvecklingen och öka vår molekylära kunskap om sjukdomen.

Kan maskiner prestera bättre?

Konventionella proteinvikningstekniker har begränsningar

Forskare har försökt ta reda på proteinveckning i årtionden, men processens komplicerade karaktär har gjort detta till ett utmanande ämne.

Konventionella metoder för förutsägelse av proteinstruktur använder en kombination av experimentella metoder och datormodellering, men dessa metoder har alla nackdelar.

Experimentella tekniker som röntgenkristallografi och kärnmagnetisk resonans (NMR) kan vara tidskrävande och kostsamma. Och datormodeller förlitar sig ibland på enkla antaganden, vilket kan leda till felaktiga förutsägelser.

AI kan övervinna dessa hinder

Lyckligtvis, artificiell intelligens ger ett nytt löfte om mer exakt och effektiv förutsägelse av proteinstruktur. Maskininlärningsalgoritmer kan undersöka enorma mängder data. Och de upptäcker mönster som folk skulle missa.

Detta har resulterat i skapandet av nya mjukvaruverktyg och plattformar som kan förutsäga proteinstruktur med oöverträffad precision.

De mest lovande maskininlärningsalgoritmerna för förutsägelse av proteinstruktur

AlphaFold-systemet byggt av Googles Deepmind laget är en av de mest lovande framstegen inom detta område. Det har gjort stora framsteg de senaste åren genom att använda djupa inlärningsalgoritmer att förutsäga strukturen hos proteiner baserat på deras aminosyrasekvenser.

Neurala nätverk, stödvektormaskiner och slumpmässiga skogar är bland fler maskininlärningsmetoder som visar lovande för att förutsäga proteinstruktur.

Dessa algoritmer kan lära sig av enorma datamängder. Och de kan förutse sambanden mellan olika aminosyror. Så, låt oss se hur det fungerar.

Samevolutionära analyser och den första AlphaFold-generationen

Framgången med AlphaFold bygger på en djup neural nätverksmodell som utvecklades med hjälp av co-evolutionär analys. Begreppet co-evolution säger att om två aminosyror i ett protein interagerar med varandra kommer de att utvecklas tillsammans för att behålla sin funktionella länk.

Forskare kan upptäcka vilka par av aminosyror som sannolikt kommer i kontakt i 3D-strukturen genom att jämföra aminosyrasekvenserna för många liknande proteiner.

Dessa data fungerar som grunden för den första iterationen av AlphaFold. Den förutsäger längderna mellan aminosyrapar såväl som vinklarna på peptidbindningarna som länkar dem. Denna metod överträffade alla tidigare tillvägagångssätt för att förutsäga proteinstruktur från sekvens, även om noggrannheten fortfarande var begränsad för proteiner utan uppenbara mallar.

AlphaFold 2: En radikalt ny metodik

AlphaFold2 är en datormjukvara skapad av DeepMind som använder ett proteins aminosyrasekvens för att förutsäga proteinets 3D-struktur.

Detta är viktigt eftersom ett proteins struktur dikterar hur det fungerar, och att förstå dess funktion kan hjälpa forskare att utveckla mediciner som riktar sig mot proteinet.

Det neuronala nätverket AlphaFold2 tar emot som indata proteinets aminosyrasekvens samt detaljer om hur den sekvensen jämförs med andra sekvenser i en databas (detta kallas en "sekvensanpassning").

Det neurala nätverket gör en förutsägelse om proteinets 3D-struktur baserat på denna input.

Vad skiljer det från AlphaFold2?

I motsats till andra tillvägagångssätt förutsäger AlphaFold2 proteinets verkliga 3D-struktur snarare än bara separationen mellan par av aminosyror eller vinklarna mellan bindningarna som förbinder dem (som tidigare algoritmer gjorde).

För att det neurala nätverket ska kunna förutse hela strukturen på en gång, kodas strukturen från ände till ände.

En annan viktig egenskap hos AlphaFold2 är att den ger en uppskattning av hur säker den är i sin prognos. Detta presenteras som en färgkodning på den förväntade strukturen, där rött representerar högt förtroende och blått för lågt förtroende.

Detta är användbart eftersom det informerar forskarna om stabiliteten i förutsägelsen.

Förutsäga den kombinerade strukturen av flera sekvenser

Den senaste expansionen av Alphafold2, känd som Alphafold Multimer, förutser den kombinerade strukturen av flera sekvenser. Den har fortfarande höga felfrekvenser även om den presterar mycket bättre än tidigare tekniker. Bara %25 av 4500 proteinkomplex förutsades framgångsrikt.

70 % av de grova områdena för kontaktbildning förutspåddes korrekt, men den relativa orienteringen av de två proteinerna var felaktig. När medianjusteringsdjupet är mindre än ungefär 30 sekvenser, minskar noggrannheten i Alphafold-multimerförutsägelser avsevärt.

Hur man använder Alphafold Predictions

De förutsagda modellerna från AlphaFold erbjuds i samma filformat och kan användas på samma sätt som experimentella strukturer. Det är viktigt att ta hänsyn till noggrannhetsuppskattningarna som erbjuds med modellen för att förhindra missförstånd.

Det är särskilt användbart för komplicerade strukturer som sammanvävda homomerer eller proteiner som bara viker sig i närvaro av en
okänd ligand.

Några utmaningar

Det största problemet med att använda förutspådda strukturer är att förstå dynamiken, ligandselektiviteten, kontroll, allosteri, post-translationella förändringar och kinetik för bindning utan tillgång till protein och biofysikaliska data.

Maskininlärning och fysikbaserad molekylär dynamikforskning kan användas för att övervinna detta problem.

Dessa undersökningar kan dra nytta av specialiserad och effektiv datorarkitektur. Även om AlphaFold har uppnått enorma framsteg när det gäller att förutsäga proteinstrukturer, finns det fortfarande mycket att lära inom området strukturell biologi, och AlphaFold-förutsägelser är bara startpunkten för framtida studier.

Vilka är andra anmärkningsvärda verktyg?

RoseTTAFold

RoseTTAFold, skapad av University of Washingtons forskare, använder också algoritmer för djupinlärning för att förutsäga proteinstrukturer, men den integrerar också en ny metod som kallas "torsionsvinkeldynamiksimuleringar" för att förbättra de förutspådda strukturerna.

Denna metod har gett uppmuntrande resultat och kan vara användbar för att övervinna begränsningarna hos befintliga AI-proteinvikningsverktyg.

trRosetta

Ett annat verktyg, trRosetta, förutsäger proteinveckning genom att använda en neurala nätverk tränade på miljontals proteinsekvenser och strukturer.

Den använder också en "mallbaserad modellering"-teknik för att skapa mer exakta förutsägelser genom att jämföra målproteinet med jämförbara kända strukturer.

Det har visats att trRosetta är kapabel att förutsäga strukturerna hos små proteiner och proteinkomplex.

DeepMetaPSICOV

DeepMetaPSICOV är ett annat verktyg som fokuserar på att förutsäga proteinkontaktkartor. Dessa används som en guide för att förutsäga proteinveckning. Det använder djupt lärande metoder för att förutsäga sannolikheten för restinteraktioner inuti ett protein.

Dessa används sedan för att prognostisera den övergripande kontaktkartan. DeepMetaPSICOV har visat potential för att förutsäga proteinstrukturer med stor noggrannhet, även när tidigare tillvägagångssätt har misslyckats.

Vad har framtiden att erbjuda?

Framtiden för AI-proteinveckning är ljus. Algoritmer baserade på djupinlärning, särskilt AlphaFold2, har nyligen gjort stora framsteg när det gäller att tillförlitligt förutsäga proteinstrukturer.

Detta fynd har potential att förändra läkemedelsutvecklingen genom att tillåta forskare att bättre förstå strukturen och funktionen hos proteiner, som är vanliga terapeutiska mål.

Ändå kvarstår frågor som att prognostisera proteinkomplex och detektera den verkliga funktionella statusen för förväntade strukturer. Mer forskning krävs för att lösa dessa problem och öka noggrannheten och tillförlitligheten hos AI-proteinveckningsalgoritmer.

Ändå är de potentiella fördelarna med denna teknik enorma, och den har potential att leda till produktion av mer effektiva och exakta mediciner.

Från sekvens till struktur: Hur AI förvandlar proteinveckning

Avslöja mysteriet med proteinvikning

Kan maskiner prestera bättre?