От последователност към структура: Как изкуственият интелект трансформира сгъването на протеини

Какво ще стане, ако можем да използваме изкуствения интелект, за да отговорим на една от най-големите мистерии в живота – сгъването на протеини? Учените работят върху това от десетилетия.

Машините вече могат да предсказват протеинови структури с невероятна прецизност, използвайки модели за задълбочено обучение, променяйки разработването на лекарства, биотехнологиите и познанията ни за фундаменталните биологични процеси.

Присъединете се към мен в изследването на интригуващото царство на AI сгъването на протеини, където авангардна технология се сблъсква със сложността на самия живот.

Разкриване на мистерията на сгъването на протеините

Протеините работят в телата ни като малки машини, за да изпълняват важни задачи като разграждане на храна или транспортиране на кислород. Те трябва да бъдат сгънати правилно, за да функционират ефективно, точно както ключът трябва да бъде изрязан правилно, за да пасне в ключалката. Веднага след като протеинът се създаде, започва много сложен процес на сгъване.

Сгъването на протеина е процесът, чрез който дългите вериги от аминокиселини, градивните елементи на протеина, се сгъват в триизмерни структури, които диктуват функцията на протеина.

Помислете за дълъг низ от мъниста, които трябва да бъдат подредени в точна форма; това се случва, когато протеинът се сгъва. И все пак, за разлика от перлите, аминокиселините имат уникални характеристики и взаимодействат една с друга по различни начини, което прави сгъването на протеина сложен и чувствителен процес.

Картината тук представлява човешки хемоглобин, който е добре познат нагънат протеин

Протеините трябва да се сгъват бързо и прецизно или ще станат неправилно нагънати и дефектни. Това може да доведе до заболявания като Алцхаймер и Паркинсон. Температурата, налягането и присъствието на други молекули в клетката оказват влияние върху процеса на сгъване.

След десетилетия изследвания учените все още се опитват да разберат как точно се сгъват протеините.

За щастие, напредъкът в областта на изкуствения интелект подобрява развитието в сектора. Учените могат да предвидят структурата на протеините по-точно от всякога, като използват алгоритми за машинно обучение да изследва огромни обеми от данни.

Това има потенциала да промени развитието на лекарствата и да увеличи нашето молекулярно познание за болестта.

Могат ли машините да работят по-добре?

Конвенционалните техники за сгъване на протеини имат ограничения

Учените се опитват да разберат сгъването на протеини от десетилетия, но сложността на процеса прави това предизвикателство.

Конвенционалните подходи за прогнозиране на протеиновата структура използват комбинация от експериментални методологии и компютърно моделиране, но всички тези методи имат недостатъци.

Експериментални техники като рентгенова кристалография и ядрено-магнитен резонанс (ЯМР) могат да отнемат време и да бъдат скъпи. Освен това компютърните модели понякога разчитат на прости предположения, които могат да доведат до погрешни прогнози.

AI може да преодолее тези пречки

За щастие, изкуствен интелект предоставя ново обещание за по-точно и ефикасно предсказване на протеиновата структура. Алгоритмите за машинно обучение могат да изследват огромни обеми от данни. И те разкриват модели, които хората биха пропуснали.

Това доведе до създаването на нови софтуерни инструменти и платформи, способни да предсказват протеиновата структура с несравнима прецизност.

Най-обещаващите алгоритми за машинно обучение за прогнозиране на протеинова структура

Системата AlphaFold, създадена от Google DeepMind екип е един от най-обещаващите постижения в тази област. Постигна голям напредък през последните години чрез използване алгоритми за дълбоко обучение за предсказване на структурата на протеините въз основа на техните аминокиселинни последователности.

Невронните мрежи, поддържащите векторни машини и произволните гори са сред повече методи за машинно обучение, които показват обещание за прогнозиране на протеинова структура.

Тези алгоритми могат да се учат от огромни набори от данни. И те могат да предвидят корелациите между различните аминокиселини. И така, нека видим как работи.

Коеволюционни анализи и първото поколение AlphaFold

Успехът на AlphaFold е изграден върху модел на дълбока невронна мрежа, който е разработен с помощта на съвместен еволюционен анализ. Концепцията за съвместна еволюция гласи, че ако две аминокиселини в протеин взаимодействат една с друга, те ще се развиват заедно, за да запазят своята функционална връзка.

Изследователите могат да открият кои двойки аминокиселини е вероятно да са в контакт в 3D структурата чрез сравняване на аминокиселинните последователности на множество подобни протеини.

Тези данни служат като основа за първата итерация на AlphaFold. Той предсказва дължините между двойките аминокиселини, както и ъглите на пептидните връзки, които ги свързват. Този метод превъзхожда всички предишни подходи за прогнозиране на структурата на протеина от последователността, въпреки че точността все още е ограничена за протеини без очевидни шаблони.

AlphaFold 2: Радикално нова методология

AlphaFold2 е компютърен софтуер, създаден от DeepMind, който използва аминокиселинната последователност на протеина, за да предвиди 3D структурата на протеина.

Това е важно, защото структурата на протеина диктува как той функционира и разбирането на неговата функция може да помогне на учените да разработят лекарства, които са насочени към протеина.

Невронната мрежа AlphaFold2 получава като вход аминокиселинната последователност на протеина, както и подробности за това как тази последователност се сравнява с други последователности в база данни (това се нарича „подравняване на последователности“).

Невронната мрежа прави прогноза за 3D структурата на протеина въз основа на този вход.

Какво го отличава от AlphaFold2?

За разлика от други подходи, AlphaFold2 предсказва реалната 3D структура на протеина, а не просто разделянето между двойки аминокиселини или ъглите между свързващите ги връзки (както правеха предишните алгоритми).

За да може невронната мрежа да предвиди пълната структура наведнъж, структурата се кодира от край до край.

Друга ключова характеристика на AlphaFold2 е, че предлага оценка за това колко уверен е в своята прогноза. Това е представено като цветно кодиране на очакваната структура, като червеното представлява висока степен на сигурност, а синьото означава ниска степен на сигурност.

Това е полезно, тъй като информира учените за стабилността на прогнозата.

Предсказване на комбинираната структура на няколко последователности

Последното разширение на Alphafold2, известно като Alphafold Multimer, прогнозира комбинираната структура на няколко последователности. Той все още има висок процент грешки, дори ако се представя много по-добре от по-ранните техники. Само %25 от 4500 протеинови комплекса бяха успешно предсказани.

70% от грубите области на образуване на контакт бяха правилно предсказани, но относителната ориентация на двата протеина беше неправилна. Когато средната дълбочина на подравняване е по-малка от приблизително 30 последователности, точността на мултимерните прогнози на Alphafold намалява значително.

Как да използвате буквено кратни прогнози

Предсказаните модели от AlphaFold се предлагат в същите файлови формати и могат да се използват по същите начини като експерименталните структури. От решаващо значение е да се вземат предвид оценките за точност, предлагани с модела, за да се предотвратят недоразумения.

Това е особено полезно за сложни структури като преплетени хомомери или протеини, които се сгъват само в присъствието на
неизвестен лиганд.

Някои предизвикателства

Основният проблем при използването на прогнозирани структури е разбирането на динамиката, селективността на лиганда, контрола, алостерията, пост-транслационните промени и кинетиката на свързване без достъп до протеинови и биофизични данни.

машина обучение и базираното на физиката изследване на молекулярната динамика може да се използва за преодоляване на този проблем.

Тези изследвания могат да се възползват от специализирана и ефективна компютърна архитектура. Въпреки че AlphaFold постигна огромен напредък в предсказването на протеиновите структури, има още много да се учи в областта на структурната биология и прогнозите на AlphaFold са само отправната точка за бъдещи изследвания.

Кои са другите забележителни инструменти?

RoseTTAFold

RoseTTAFold, създаден от изследователи от Университета на Вашингтон, също използва алгоритми за дълбоко обучение за предсказване на протеинови структури, но също така интегрира нов подход, известен като „симулации на динамиката на ъгъла на усукване“, за да подобри прогнозираните структури.

Този метод е дал окуражаващи резултати и може да бъде полезен за преодоляване на ограниченията на съществуващите инструменти за сгъване на AI протеини.

trRosetta

Друг инструмент, trRosetta, прогнозира сгъването на протеини с помощта на a невронна мрежа обучени на милиони протеинови последователности и структури.

Той също така използва техника за „моделиране, базирано на шаблони“, за да създаде по-прецизни прогнози чрез сравняване на целевия протеин със сравними известни структури.

Доказано е, че trRosetta е в състояние да предскаже структурите на малки протеини и протеинови комплекси.

DeepMetaPSICOV

DeepMetaPSICOV е друг инструмент, който се фокусира върху прогнозирането на контактни карти на протеини. Те се използват като ръководство за прогнозиране на сгъването на протеини. То използва дълбоко учене подходи за прогнозиране на вероятността от остатъчни взаимодействия вътре в протеин.

Те впоследствие се използват за прогнозиране на общата карта на контактите. DeepMetaPSICOV показа потенциал за прогнозиране на протеинови структури с голяма точност, дори когато предишните подходи са се провалили.

Какво държи бъдещето?

Бъдещето на AI протеиновото сгъване е светло. Алгоритмите, базирани на дълбоко обучение, по-специално AlphaFold2, наскоро постигнаха голям напредък в надеждното прогнозиране на протеиновите структури.

Това откритие има потенциала да трансформира разработването на лекарства, като позволи на учените да разберат по-добре структурата и функцията на протеините, които са общи терапевтични цели.

Въпреки това остават проблеми като прогнозиране на протеинови комплекси и откриване на реалния функционален статус на очакваните структури. Необходими са повече изследвания за решаване на тези проблеми и повишаване на точността и надеждността на алгоритмите за сгъване на AI протеини.

И все пак потенциалните ползи от тази технология са огромни и има потенциала да доведе до производството на по-ефективни и прецизни лекарства.

От последователност към структура: Как AI трансформира сгъването на протеини

Разкриване на мистерията на сгъването на протеините

Могат ли машините да работят по-добре?