Od sekvence ke struktuře: Jak AI transformuje skládání proteinů

Co kdybychom umělou inteligenci mohli využít k zodpovězení jedné z největších záhad života – skládání proteinů? Vědci na tom pracují desítky let.

Stroje nyní dokážou předpovídat proteinové struktury s úžasnou přesností pomocí modelů hlubokého učení, změn vývoje léků, biotechnologie a našich znalostí základních biologických procesů.

Vydejte se se mnou na průzkum do fascinující říše skládání proteinů AI, kde se špičková technologie střetává se složitostí samotného života.

Odhalení tajemství skládání proteinů

Proteiny fungují v našem těle jako malé stroje, aby prováděly zásadní úkoly, jako je rozkládání potravy nebo přeprava kyslíku. Aby fungovaly efektivně, musí být správně složeny, stejně jako klíč musí být správně vyříznut, aby zapadl do zámku. Jakmile je protein vytvořen, začíná velmi komplikovaný proces skládání.

Skládání proteinů je proces, při kterém se dlouhé řetězce aminokyselin, stavebních kamenů proteinu, skládají do trojrozměrných struktur, které určují funkci proteinu.

Zvažte dlouhý řetězec korálků, které je nutné seřadit do přesné podoby; k tomu dochází, když se protein složí. Na rozdíl od kuliček však mají aminokyseliny jedinečné vlastnosti a vzájemně se ovlivňují různými způsoby, takže skládání proteinů je komplexní a citlivý proces.

Obrázek zde představuje lidský hemoglobin, což je dobře známý složený protein

Proteiny se musí rychle a přesně skládat, jinak se špatně poskládají a budou vadné. To by mohlo vést k nemocem, jako je Alzheimerova a Parkinsonova choroba. Teplota, tlak a přítomnost dalších molekul v buňce mají vliv na proces skládání.

Po desetiletích výzkumu se vědci stále snaží zjistit, jak přesně se proteiny skládají.

Naštěstí pokroky v umělé inteligenci zlepšují vývoj v tomto sektoru. Vědci mohou díky použití předvídat strukturu proteinů přesněji než kdykoli předtím algoritmy strojového učení prozkoumat obrovské objemy dat.

To má potenciál změnit vývoj léků a zvýšit naše molekulární znalosti o nemoci.

Mohou stroje fungovat lépe?

Konvenční techniky skládání proteinů mají svá omezení

Vědci se po desetiletí pokoušeli přijít na to, jak skládat proteiny, ale kvůli složitosti procesu je to náročné téma.

Konvenční přístupy k predikci proteinové struktury používají kombinaci experimentálních metodologií a počítačového modelování, avšak všechny tyto metody mají své nevýhody.

Experimentální techniky, jako je rentgenová krystalografie a nukleární magnetická rezonance (NMR), mohou být časově náročné a nákladné. A počítačové modely se někdy spoléhají na jednoduché předpoklady, což může vést k chybným předpovědím.

Umělá inteligence dokáže tyto překážky překonat

Naštěstí, umělá inteligence poskytuje nový příslib pro přesnější a účinnější předpověď struktury proteinů. Algoritmy strojového učení mohou zkoumat obrovské objemy dat. A odhalují vzorce, které by lidem chyběly.

To vedlo k vytvoření nových softwarových nástrojů a platforem schopných předpovídat proteinovou strukturu s nesrovnatelnou přesností.

Nejslibnější algoritmy strojového učení pro predikci struktury proteinu

Systém AlphaFold vytvořený společností Google DeepMind tým je jedním z nejslibnějších pokroků v této oblasti. Používáním zaznamenala v posledních letech velký pokrok algoritmy pro hluboké učení předpovídat strukturu proteinů na základě jejich aminokyselinových sekvencí.

Neuronové sítě, podpůrné vektorové stroje a náhodné lesy patří k dalším metodám strojového učení, které jsou slibné pro předpovídání proteinové struktury.

Tyto algoritmy se mohou učit z obrovských datových sad. A mohou předvídat korelace mezi různými aminokyselinami. Pojďme se tedy podívat, jak to funguje.

Koevoluční analýzy a první generace AlphaFold

Úspěch AlphaFold je postaven na modelu hluboké neuronové sítě, který byl vyvinut s využitím koevoluční analýzy. Koncept koevoluce říká, že pokud dvě aminokyseliny v proteinu vzájemně interagují, budou se vyvíjet společně, aby si udržely své funkční spojení.

Výzkumníci mohou zjistit, které páry aminokyselin jsou pravděpodobně v kontaktu ve 3D struktuře, porovnáním aminokyselinových sekvencí mnoha podobných proteinů.

Tato data slouží jako základ pro první iteraci AlphaFold. Předpovídá délky mezi páry aminokyselin a také úhly peptidových vazeb, které je spojují. Tato metoda překonala všechny předchozí přístupy pro predikci proteinové struktury ze sekvence, ačkoli přesnost byla stále omezena pro proteiny bez zjevných templátů.

AlphaFold 2: Radikálně nová metodika

AlphaFold2 je počítačový software vytvořený společností DeepMind, který využívá aminokyselinovou sekvenci proteinu k predikci 3D struktury proteinu.

To je důležité, protože struktura proteinu určuje, jak funguje, a pochopení jeho funkce může vědcům pomoci vyvinout léky, které se zaměřují na protein.

Neuronová síť AlphaFold2 přijímá jako vstup aminokyselinovou sekvenci proteinu a také podrobnosti o tom, jak se tato sekvence srovnává s jinými sekvencemi v databázi (toto se nazývá „zarovnání sekvencí“).

Na základě tohoto vstupu neuronová síť předpovídá 3D strukturu proteinu.

Čím se odlišuje od AlphaFold2?

Na rozdíl od jiných přístupů AlphaFold2 předpovídá skutečnou 3D strukturu proteinu spíše než pouze separaci mezi páry aminokyselin nebo úhly mezi vazbami, které je spojují (jak to dělaly dřívější algoritmy).

Aby neuronová síť mohla předvídat celou strukturu najednou, je struktura zakódována end-to-end.

Další klíčovou vlastností AlphaFold2 je, že nabízí odhad toho, nakolik si je jistý svou prognózou. To je prezentováno jako barevné kódování na očekávané struktuře, přičemž červená představuje vysokou spolehlivost a modrá naznačuje nízkou spolehlivost.

To je užitečné, protože informuje vědce o stabilitě předpovědi.

Předpovídání kombinované struktury několika sekvencí

Nejnovější rozšíření Alphafold2, známé jako Alphafold Multimer, předpovídá kombinovanou strukturu několika sekvencí. Stále má vysokou chybovost, i když funguje mnohem lépe než dřívější techniky. Úspěšně bylo předpovězeno pouze 25 % ze 4500 proteinových komplexů.

70 % drsných oblastí tvorby kontaktu bylo správně předpovězeno, ale relativní orientace těchto dvou proteinů byla nesprávná. Když je střední hloubka zarovnání menší než zhruba 30 sekvencí, přesnost předpovědí Alphafold multimeru významně klesá.

Jak používat předpovědi Alphafold

Predikované modely z AlphaFold jsou nabízeny ve stejných formátech souborů a lze je použít stejným způsobem jako experimentální struktury. Je důležité vzít v úvahu odhady přesnosti nabízené s modelem, aby se předešlo nedorozuměním.

Je zvláště užitečné pro komplikované struktury, jako jsou propletené homomery nebo proteiny, které se skládají pouze v přítomnosti an
neznámý ligand.

Některé výzvy

Hlavním problémem při použití predikovaných struktur je pochopení dynamiky, selektivity ligandu, kontroly, alosterie, posttranslačních změn a kinetiky vazby bez přístupu k proteinovým a biofyzikálním datům.

Strojové učení a k překonání tohoto problému lze využít výzkum molekulární dynamiky založený na fyzice.

Tato vyšetřování mohou těžit ze specializované a efektivní počítačové architektury. Zatímco AlphaFold dosáhl obrovského pokroku v předpovídání proteinových struktur, v oblasti strukturní biologie je stále co učit a předpovědi AlphaFold jsou pouze výchozím bodem pro budoucí studium.

Jaké jsou další pozoruhodné nástroje?

RoseTTAFold

RoseTTAFold, vytvořený výzkumníky z University of Washington, rovněž využívá algoritmy hlubokého učení k predikci proteinových struktur, ale také integruje nový přístup známý jako „simulace dynamiky torzního úhlu“ ke zlepšení předpokládaných struktur.

Tato metoda přinesla povzbudivé výsledky a může být užitečná při překonávání omezení existujících nástrojů pro skládání proteinů AI.

trRosetta

Další nástroj, trRosetta, předpovídá skládání proteinů pomocí a nervová síť trénovaný na milionech proteinových sekvencí a struktur.

Používá také techniku „modelování na základě šablony“ k vytvoření přesnějších předpovědí porovnáním cílového proteinu se srovnatelnými známými strukturami.

Bylo prokázáno, že trRosetta je schopna předpovídat struktury malých proteinů a proteinových komplexů.

DeepMetaPSICOV

DeepMetaPSICOV je dalším nástrojem, který se zaměřuje na predikci kontaktních map proteinů. Ty se používají jako vodítko pro predikci skládání proteinů. Používá hluboké učení přístupy k předpovědi pravděpodobnosti interakcí zbytků uvnitř proteinu.

Ty se následně použijí k předpovědi celkové mapy kontaktů. DeepMetaPSICOV prokázal potenciál v predikci proteinových struktur s velkou přesností, i když předchozí přístupy selhaly.

Co drží budoucnost?

Budoucnost skládání proteinů AI je jasná. Algoritmy založené na hlubokém učení, zejména AlphaFold2, nedávno udělaly velký pokrok ve spolehlivém předpovídání proteinových struktur.

Toto zjištění má potenciál změnit vývoj léků tím, že umožní vědcům lépe porozumět struktuře a funkci proteinů, které jsou běžnými terapeutickými cíli.

Problémy, jako je předpověď proteinových komplexů a detekce skutečného funkčního stavu předpokládaných struktur, však zůstávají. K vyřešení těchto problémů a zvýšení přesnosti a spolehlivosti algoritmů skládání proteinů AI je zapotřebí více výzkumu.

Potenciální přínosy této technologie jsou však obrovské a má potenciál vést k výrobě účinnějších a přesnějších léků.