Od sekvencie k štruktúre: Ako AI transformuje skladanie bielkovín

Čo keby sme mohli použiť umelú inteligenciu na zodpovedanie jednej z najväčších záhad života – skladanie bielkovín? Vedci na tom pracujú už desaťročia.

Stroje teraz dokážu predpovedať proteínové štruktúry s úžasnou presnosťou pomocou modelov hlbokého učenia, zmeny vývoja liekov, biotechnológie a našich vedomostí o základných biologických procesoch.

Vydajte sa so mnou na prieskum do zaujímavej sféry skladania proteínov AI, kde sa špičková technológia stretáva so zložitosťou samotného života.

Odhalenie tajomstva skladania bielkovín

Proteíny fungujú v našom tele ako malé stroje, ktoré vykonávajú kľúčové úlohy, ako je rozkladanie potravy alebo transport kyslíka. Aby fungovali efektívne, musia byť správne zložené, rovnako ako kľúč musí byť správne zarezaný, aby zapadol do zámku. Akonáhle sa vytvorí proteín, začne veľmi komplikovaný proces skladania.

Skladanie proteínov je proces, pri ktorom sa dlhé reťazce aminokyselín, stavebných blokov proteínu, skladajú do trojrozmerných štruktúr, ktoré určujú funkciu proteínu.

Zvážte dlhý reťazec guľôčok, ktoré musia byť usporiadané do presnej formy; toto nastane, keď sa proteín zloží. Napriek tomu, na rozdiel od guľôčok, majú aminokyseliny jedinečné vlastnosti a vzájomne sa ovplyvňujú rôznymi spôsobmi, vďaka čomu je skladanie bielkovín zložitý a citlivý proces.

Na tomto obrázku je znázornený ľudský hemoglobín, čo je dobre známy zložený proteín

Proteíny sa musia zložiť rýchlo a presne, inak sa zle poskladajú a pokazia sa. To by mohlo viesť k chorobám, ako je Alzheimerova a Parkinsonova choroba. Teplota, tlak a prítomnosť iných molekúl v bunke majú vplyv na proces skladania.

Po desaťročiach výskumu sa vedci stále snažia zistiť, ako presne sa proteíny skladajú.

Našťastie pokroky v umelej inteligencii zlepšujú vývoj v tomto sektore. Vedci môžu pomocou použitia predvídať štruktúru bielkovín presnejšie ako kedykoľvek predtým algoritmy strojového učenia skúmať obrovské objemy údajov.

To má potenciál zmeniť vývoj liekov a zvýšiť naše molekulárne znalosti o tejto chorobe.

Môžu stroje fungovať lepšie?

Konvenčné techniky skladania proteínov majú obmedzenia

Vedci sa už desaťročia snažia prísť na to, ako skladať proteíny, ale zložitosť procesu z toho urobila náročnú tému.

Konvenčné prístupy predikcie proteínovej štruktúry využívajú kombináciu experimentálnych metodológií a počítačového modelovania, avšak všetky tieto metódy majú nevýhody.

Experimentálne techniky ako rôntgenová kryštalografia a nukleárna magnetická rezonancia (NMR) môžu byť časovo náročné a nákladné. A počítačové modely sa niekedy spoliehajú na jednoduché predpoklady, čo môže viesť k chybným predpovediam.

Umelá inteligencia dokáže prekonať tieto prekážky

Našťastie umelá inteligencia poskytuje nový prísľub presnejšej a efektívnejšej predpovede proteínovej štruktúry. Algoritmy strojového učenia môžu skúmať obrovské objemy údajov. A odhaľujú vzory, ktoré by ľuďom chýbali.

To viedlo k vytvoreniu nových softvérových nástrojov a platforiem schopných predpovedať proteínovú štruktúru s bezkonkurenčnou presnosťou.

Najsľubnejšie algoritmy strojového učenia na predpovedanie štruktúry proteínov

Systém AlphaFold vytvorený spoločnosťou Google Deepmind tím je jedným z najsľubnejších pokrokov v tejto oblasti. Používaním zaznamenala v posledných rokoch veľký pokrok algoritmy hlbokého učenia predpovedať štruktúru proteínov na základe ich aminokyselinových sekvencií.

Neurónové siete, podporné vektorové stroje a náhodné lesy patria medzi ďalšie metódy strojového učenia, ktoré sú sľubné pre predpovedanie proteínovej štruktúry.

Tieto algoritmy sa môžu učiť z obrovských súborov údajov. A môžu predvídať korelácie medzi rôznymi aminokyselinami. Poďme sa teda pozrieť, ako to funguje.

Koevolučné analýzy a prvá generácia AlphaFold

Úspech AlphaFold je postavený na modeli hlbokej neurónovej siete, ktorý bol vyvinutý s využitím koevolučnej analýzy. Koncept koevolúcie hovorí, že ak dve aminokyseliny v proteíne interagujú navzájom, budú sa vyvíjať spoločne, aby si udržali svoje funkčné spojenie.

Výskumníci môžu zistiť, ktoré páry aminokyselín sú pravdepodobne v kontakte v 3D štruktúre, porovnaním aminokyselinových sekvencií mnohých podobných proteínov.

Tieto údaje slúžia ako základ pre prvú iteráciu AlphaFold. Predpovedá dĺžky medzi pármi aminokyselín, ako aj uhly peptidových väzieb, ktoré ich spájajú. Táto metóda prekonala všetky predchádzajúce prístupy na predpovedanie proteínovej štruktúry zo sekvencie, hoci presnosť bola stále obmedzená pre proteíny bez zjavných templátov.

AlphaFold 2: Radikálne nová metodológia

AlphaFold2 je počítačový softvér vytvorený spoločnosťou DeepMind, ktorý používa aminokyselinovú sekvenciu proteínu na predpovedanie 3D štruktúry proteínu.

To je dôležité, pretože štruktúra proteínu určuje, ako funguje, a pochopenie jeho funkcie môže pomôcť vedcom vyvinúť lieky, ktoré sa zameriavajú na proteín.

Neurónová sieť AlphaFold2 prijíma ako vstup aminokyselinovú sekvenciu proteínu, ako aj podrobnosti o tom, ako sa táto sekvencia porovnáva s inými sekvenciami v databáze (toto sa nazýva „zarovnanie sekvencií“).

Neurónová sieť robí predpoveď o 3D štruktúre proteínu na základe tohto vstupu.

Čo ho odlišuje od AlphaFold2?

Na rozdiel od iných prístupov AlphaFold2 predpovedá skutočnú 3D štruktúru proteínu, a nie iba oddelenie medzi pármi aminokyselín alebo uhly medzi väzbami, ktoré ich spájajú (ako to robili predchádzajúce algoritmy).

Aby neurónová sieť mohla predvídať celú štruktúru naraz, štruktúra je zakódovaná od konca po koniec.

Ďalšou kľúčovou charakteristikou AlphaFold2 je, že ponúka odhad toho, nakoľko je presvedčený o svojej prognóze. Toto je prezentované ako farebné kódovanie na predpokladanej štruktúre, pričom červená predstavuje vysokú spoľahlivosť a modrá naznačuje nízku spoľahlivosť.

Je to užitočné, pretože informuje vedcov o stabilite predpovede.

Predpovedanie kombinovanej štruktúry niekoľkých sekvencií

Najnovšie rozšírenie Alphafold2, známe ako Alphafold Multimer, predpovedá kombinovanú štruktúru niekoľkých sekvencií. Stále má vysokú chybovosť, aj keď funguje oveľa lepšie ako predchádzajúce techniky. Úspešne bolo predpovedaných iba 25 zo 4500 proteínových komplexov.

70% drsných oblastí tvorby kontaktu bolo správne predpovedaných, ale relatívna orientácia týchto dvoch proteínov bola nesprávna. Keď je stredná hĺbka zarovnania menšia ako približne 30 sekvencií, presnosť predpovedí Alphafold multiméru výrazne klesá.

Ako používať predpovede Alphafold

Predpovedané modely z AlphaFold sú ponúkané v rovnakých formátoch súborov a možno ich použiť rovnakým spôsobom ako experimentálne štruktúry. Je dôležité vziať do úvahy odhady presnosti ponúkané s modelom, aby sa predišlo nedorozumeniam.

Je to užitočné najmä pre komplikované štruktúry, ako sú prepletené homoméry alebo proteíny, ktoré sa skladajú iba v prítomnosti an
neznámy ligand.

Niektoré výzvy

Hlavným problémom pri používaní predpovedaných štruktúr je pochopenie dynamiky, selektivity ligandu, kontroly, alosterie, posttranslačných zmien a kinetiky väzby bez prístupu k proteínovým a biofyzikálnym údajom.

Strojové učenie a na prekonanie tohto problému možno využiť výskum molekulárnej dynamiky založený na fyzike.

Tieto vyšetrovania môžu ťažiť zo špecializovanej a efektívnej počítačovej architektúry. Zatiaľ čo AlphaFold dosiahol obrovský pokrok v predpovedaní proteínových štruktúr, v oblasti štrukturálnej biológie je stále čo učiť a predpovede AlphaFold sú len východiskovým bodom pre budúce štúdium.

Aké sú ďalšie pozoruhodné nástroje?

RoseTTAFold

RoseTTAFold, vytvorený výskumníkmi z University of Washington, tiež využíva algoritmy hlbokého učenia na predpovedanie proteínových štruktúr, ale tiež integruje nový prístup známy ako „simulácie dynamiky torzného uhla“ na zlepšenie predpovedaných štruktúr.

Táto metóda priniesla povzbudivé výsledky a môže byť užitočná pri prekonávaní obmedzení existujúcich nástrojov na skladanie proteínov AI.

trRosetta

Ďalší nástroj, trRosetta, predpovedá skladanie proteínov pomocou a neurónové sieť trénované na miliónoch proteínových sekvencií a štruktúr.

Používa tiež techniku „modelovania na základe šablón“ na vytvorenie presnejších predpovedí porovnaním cieľového proteínu s porovnateľnými známymi štruktúrami.

Ukázalo sa, že trRosetta je schopná predpovedať štruktúry malých proteínov a proteínových komplexov.

DeepMetaPSICOV

DeepMetaPSICOV je ďalší nástroj, ktorý sa zameriava na predpovedanie máp kontaktu s proteínmi. Tieto sa používajú ako návod na predpovedanie skladania proteínov. Používa sa hlboké vzdelávanie prístupy na predpovedanie pravdepodobnosti interakcií zvyškov vo vnútri proteínu.

Tie sa následne použijú na predpovedanie celkovej mapy kontaktov. DeepMetaPSICOV preukázal potenciál pri predpovedaní proteínových štruktúr s veľkou presnosťou, aj keď predchádzajúce prístupy zlyhali.

Čo drží budúcnosť?

Budúcnosť skladania proteínov AI je jasná. Algoritmy založené na hlbokom učení, najmä AlphaFold2, nedávno dosiahli veľký pokrok v spoľahlivom predpovedaní proteínových štruktúr.

Toto zistenie má potenciál zmeniť vývoj liekov tým, že umožní vedcom lepšie pochopiť štruktúru a funkciu proteínov, ktoré sú bežnými terapeutickými cieľmi.

Problémy ako predpovedanie proteínových komplexov a detekcia skutočného funkčného stavu očakávaných štruktúr však zostávajú. Na vyriešenie týchto problémov a zvýšenie presnosti a spoľahlivosti algoritmov skladania proteínov AI je potrebný ďalší výskum.

Potenciálne výhody tejto technológie sú však obrovské a má potenciál viesť k výrobe účinnejších a presnejších liekov.