Fra sekvens til struktur: Hvordan AI transformerer proteinfoldning

Hvad hvis vi kunne bruge kunstig intelligens til at besvare et af livets største mysterier – proteinfoldning? Forskere har arbejdet på dette i årtier.

Maskiner kan nu forudsige proteinstrukturer med forbløffende præcision ved hjælp af deep learning-modeller, ændre lægemiddeludvikling, bioteknologi og vores viden om fundamentale biologiske processer.

Tag med mig på en udforskning i det spændende område af AI-proteinfoldning, hvor banebrydende teknologi kolliderer med selve livets kompleksitet.

Optrævler mysteriet med proteinfoldning

Proteiner arbejder i vores kroppe som små maskiner til at udføre vigtige opgaver som at nedbryde mad eller transportere ilt. De skal foldes korrekt, for at de kan fungere effektivt, ligesom en nøgle skal skæres korrekt til for at passe ind i en lås. Så snart proteinet er skabt, begynder en meget kompliceret foldeproces.

Proteinfoldning er den proces, hvorved lange kæder af aminosyrer, proteinets byggesten, foldes til tredimensionelle strukturer, der dikterer proteinets funktion.

Overvej en lang perlerække, der skal bestilles i en præcis form; dette er, hvad der sker, når et protein folder. Men i modsætning til perler har aminosyrer unikke egenskaber og interagerer med hinanden på forskellige måder, hvilket gør proteinfoldning til en kompleks og følsom proces.

Billedet her repræsenterer humant hæmoglobin, som er et velkendt foldet protein

Proteiner skal foldes hurtigt og præcist, ellers bliver de fejlfoldede og defekte. Det kan føre til sygdomme som Alzheimers og Parkinsons. Temperatur, tryk og tilstedeværelsen af andre molekyler i cellen har alle en effekt på foldningsprocessen.

Efter årtiers forskning forsøger forskere stadig at finde ud af præcis, hvordan proteiner folder.

Heldigvis forbedrer fremskridt inden for kunstig intelligens udviklingen i sektoren. Forskere kan forudse strukturen af proteiner mere præcist end nogensinde før ved at bruge maskinlæringsalgoritmer at undersøge enorme mængder af data.

Dette har potentiale til at ændre medicinudviklingen og øge vores molekylære viden om sygdommen.

Kan maskiner yde bedre?

Konventionelle proteinfoldningsteknikker har begrænsninger

Forskere har forsøgt at finde ud af proteinfoldning i årtier, men processens indviklede har gjort dette til et udfordrende emne.

Konventionelle metoder til forudsigelse af proteinstruktur bruger en kombination af eksperimentelle metoder og computermodellering, men disse metoder har alle ulemper.

Eksperimentelle teknikker som røntgenkrystallografi og kernemagnetisk resonans (NMR) kan være tidskrævende og dyre. Og computermodeller er nogle gange afhængige af simple antagelser, som kan føre til fejlagtige forudsigelser.

AI kan overvinde disse forhindringer

Heldigvis, kunstig intelligens giver et nyt løfte om mere nøjagtig og effektiv forudsigelse af proteinstruktur. Maskinlæringsalgoritmer kan undersøge enorme mængder af data. Og de afslører mønstre, som folk ville gå glip af.

Dette har resulteret i skabelsen af nye softwareværktøjer og platforme, der er i stand til at forudsige proteinstruktur med uovertruffen præcision.

De mest lovende maskinlæringsalgoritmer til forudsigelse af proteinstruktur

AlphaFold-systemet bygget af Googles DeepMind team er en af de mest lovende fremskridt på dette område. Det har fået store fremskridt i de senere år ved at bruge dyb læringsalgoritmer at forudsige strukturen af proteiner baseret på deres aminosyresekvenser.

Neurale netværk, støttevektormaskiner og tilfældige skove er blandt flere maskinlæringsmetoder, der viser løfte om at forudsige proteinstruktur.

Disse algoritmer kan lære af enorme datasæt. Og de kan forudse sammenhængene mellem forskellige aminosyrer. Så lad os se, hvordan det virker.

Co-evolutionære analyser og den første AlphaFold-generation

Succes AlphaFold er bygget på en dyb neural netværksmodel, der blev udviklet ved hjælp af co-evolutionær analyse. Begrebet co-evolution siger, at hvis to aminosyrer i et protein interagerer med hinanden, vil de udvikle sig sammen for at bevare deres funktionelle forbindelse.

Forskere kan opdage, hvilke par af aminosyrer der sandsynligvis er i kontakt i 3D-strukturen ved at sammenligne aminosyresekvenserne af adskillige lignende proteiner.

Disse data tjener som grundlaget for den første iteration af AlphaFold. Den forudsiger længderne mellem aminosyrepar såvel som vinklerne på de peptidbindinger, der forbinder dem. Denne metode overgik alle tidligere tilgange til at forudsige proteinstruktur ud fra sekvens, selvom nøjagtigheden stadig var begrænset for proteiner uden synlige skabeloner.

AlphaFold 2: En radikalt ny metode

AlphaFold2 er en computersoftware skabt af DeepMind, der bruger et proteins aminosyresekvens til at forudsige proteinets 3D-struktur.

Dette er vigtigt, fordi et proteins struktur dikterer, hvordan det fungerer, og forståelse af dets funktion kan hjælpe videnskabsmænd med at udvikle medicin, der er målrettet mod proteinet.

AlphaFold2 neurale netværk modtager som input proteinets aminosyresekvens samt detaljer om, hvordan denne sekvens sammenlignes med andre sekvenser i en database (dette kaldes en "sekvensjustering").

Det neurale netværk laver en forudsigelse om proteinets 3D-struktur baseret på dette input.

Hvad adskiller det fra AlphaFold2?

I modsætning til andre tilgange forudsiger AlphaFold2 proteinets reelle 3D-struktur snarere end blot adskillelsen mellem par af aminosyrer eller vinklerne mellem bindingerne, der forbinder dem (som tidligere algoritmer gjorde).

For at det neurale netværk kan forudse den fulde struktur på én gang, er strukturen kodet ende-til-ende.

En anden vigtig egenskab ved AlphaFold2 er, at den giver et skøn over, hvor sikker den er i sin prognose. Dette præsenteres som en farvekodning på den forventede struktur, hvor rødt repræsenterer høj tillid og blåt indikerer lav tillid.

Dette er nyttigt, da det informerer videnskabsmænd om forudsigelsens stabilitet.

Forudsigelse af den kombinerede struktur af flere sekvenser

Den seneste udvidelse af Alphafold2, kendt som Alphafold Multimer, forudsiger den kombinerede struktur af flere sekvenser. Den har stadig høje fejlprocenter, selvom den yder langt bedre end tidligere teknikker. Kun %25 af 4500 proteinkomplekser blev forudsagt med succes.

70% af de ru områder af kontaktdannelse blev korrekt forudsagt, men den relative orientering af de to proteiner var forkert. Når medianjusteringsdybden er mindre end ca. 30 sekvenser, falder nøjagtigheden af Alphafold multimer forudsigelser betydeligt.

Sådan bruges Alphafold-forudsigelser

De forudsagte modeller fra AlphaFold tilbydes i de samme filformater og kan bruges på samme måde som eksperimentelle strukturer. Det er afgørende at tage højde for nøjagtighedsestimaterne, der tilbydes med modellen for at forhindre misforståelser.

Det er især nyttigt for komplicerede strukturer som sammenvævede homomerer eller proteiner, der kun folder i nærvær af en
ukendt ligand.

Nogle udfordringer

Hovedproblemet ved at bruge forudsagte strukturer er at forstå dynamikken, ligandselektiviteten, kontrol, allosteri, post-translationelle ændringer og kinetik af binding uden adgang til protein og biofysiske data.

Maskinelæring og fysik-baseret molekylær dynamik forskning kan bruges til at overvinde dette problem.

Disse undersøgelser kan drage fordel af specialiseret og effektiv computerarkitektur. Selvom AlphaFold har opnået enorme fremskridt med at forudsige proteinstrukturer, er der stadig meget at lære inden for strukturbiologi, og AlphaFold-forudsigelser er kun udgangspunktet for fremtidig undersøgelse.

Hvad er andre bemærkelsesværdige værktøjer?

RoseTTAFold

RoseTTAFold, skabt af forskere fra University of Washington, anvender ligeledes deep learning-algoritmer til at forudsige proteinstrukturer, men den integrerer også en ny tilgang kendt som "torsionsvinkeldynamiksimuleringer" for at forbedre de forudsagte strukturer.

Denne metode har givet opmuntrende resultater og kan være nyttig til at overvinde begrænsningerne ved eksisterende AI-proteinfoldningsværktøjer.

trRosetta

Et andet værktøj, trRosetta, forudsiger proteinfoldning ved at bruge en neurale netværk trænet på millioner af proteinsekvenser og strukturer.

Den bruger også en "skabelonbaseret modellering"-teknik til at skabe mere præcise forudsigelser ved at sammenligne målproteinet med sammenlignelige kendte strukturer.

Det er blevet påvist, at trRosetta er i stand til at forudsige strukturerne af bittesmå proteiner og proteinkomplekser.

DeepMetaPSICOV

DeepMetaPSICOV er et andet værktøj, der fokuserer på at forudsige proteinkontaktkort. Disse bruges som en guide til at forudsige proteinfoldning. Det bruger dyb læring tilgange til at forudsige sandsynligheden for restinteraktioner inde i et protein.

Disse bruges efterfølgende til at forecaste det overordnede kontaktkort. DeepMetaPSICOV har vist potentiale til at forudsige proteinstrukturer med stor nøjagtighed, selv når tidligere tilgange har fejlet.

Hvad skal fremtiden holde?

Fremtiden for AI-proteinfoldning er lys. Deep learning-baserede algoritmer, især AlphaFold2, har for nylig gjort store fremskridt med pålideligt at forudsige proteinstrukturer.

Denne opdagelse har potentialet til at transformere lægemiddeludvikling ved at give videnskabsfolk mulighed for bedre at forstå strukturen og funktionen af proteiner, som er almindelige terapeutiske mål.

Ikke desto mindre er der stadig problemer som at forudsige proteinkomplekser og detektere den reelle funktionelle status af forventede strukturer. Mere forskning er påkrævet for at løse disse problemer og øge nøjagtigheden og pålideligheden af AI-proteinfoldningsalgoritmer.

Alligevel er de potentielle fordele ved denne teknologi enorme, og den har potentialet til at føre til produktion af mere effektiv og præcis medicin.

Fra sekvens til struktur: Hvordan AI transformerer proteinfoldning

Optrævler mysteriet med proteinfoldning

Kan maskiner yde bedre?