시퀀스에서 구조로: AI가 단백질 폴딩을 변형시키는 방법

인공 지능을 사용하여 인생의 가장 큰 미스터리 중 하나인 단백질 접힘에 답할 수 있다면 어떨까요? 과학자들은 수십 년 동안 이것을 연구해 왔습니다.

기계는 이제 딥 러닝 모델, 약물 개발, 생명 공학 및 기본적인 생물학적 과정에 대한 지식을 변경하여 놀라운 정밀도로 단백질 구조를 예측할 수 있습니다.

최첨단 기술이 생명 자체의 복잡성과 충돌하는 흥미로운 AI 단백질 폴딩 영역으로의 탐험에 저와 함께 하세요.

단백질 폴딩의 미스터리 풀기

단백질은 음식을 분해하거나 산소를 운반하는 것과 같은 중요한 작업을 수행하는 작은 기계처럼 우리 몸에서 작동합니다. 열쇠가 자물쇠에 꼭 맞도록 올바르게 절단되어야 하는 것처럼 그것들이 효과적으로 기능하려면 올바르게 접혀야 합니다. 단백질이 생성되자마자 매우 복잡한 접힘 과정이 시작됩니다.

단백질 접힘은 단백질의 빌딩 블록인 아미노산의 긴 사슬이 단백질의 기능을 지시하는 XNUMX차원 구조로 접히는 과정입니다.

정확한 형태로 주문해야 하는 긴 구슬 줄을 생각해 보십시오. 이것은 단백질이 접힐 때 일어나는 것입니다. 그러나 비드와 달리 아미노산은 고유한 특성을 가지고 있으며 다양한 방식으로 서로 상호 작용하므로 단백질 폴딩이 복잡하고 민감합니다.

헤모글로빙 접힌 구조 1

여기 그림은 잘 알려진 접힌 단백질인 인간 헤모글로빈을 나타냅니다.

단백질은 빠르고 정확하게 접혀야 합니다. 그렇지 않으면 잘못 접혀 결함이 생깁니다. 이는 알츠하이머병이나 파킨슨병과 같은 질병으로 이어질 수 있습니다. 온도, 압력 및 세포 내 다른 분자의 존재는 모두 폴딩 과정에 영향을 미칩니다.

수십 년간의 연구 끝에 과학자들은 여전히 단백질이 어떻게 접히는지를 정확히 파악하려고 노력하고 있습니다.

고맙게도 인공 지능의 발전으로 인해 해당 분야의 개발이 개선되고 있습니다. 과학자들은 이전보다 더 정확하게 단백질의 구조를 예측할 수 있습니다. 기계 학습 알고리즘 방대한 양의 데이터를 검사합니다.

이것은 약물 개발을 변화시키고 질병에 대한 우리의 분자 지식을 증가시킬 잠재력이 있습니다.

기계가 더 잘 작동할 수 있습니까?

기존의 단백질 폴딩 기술에는 한계가 있습니다.

과학자들은 수십 년 동안 단백질 접힘을 알아내려고 노력해 왔지만 그 과정이 복잡하기 때문에 이를 어려운 주제로 만들었습니다.

기존의 단백질 구조 예측 접근법은 실험 방법론과 컴퓨터 모델링의 조합을 사용하지만 이러한 방법에는 모두 단점이 있습니다.

X선 결정학 및 핵 자기 공명(NMR)과 같은 실험 기술은 시간과 비용이 많이 소요될 수 있습니다. 그리고 컴퓨터 모델은 때때로 단순한 가정에 의존하여 잘못된 예측으로 이어질 수 있습니다.

AI는 이러한 장애물을 극복할 수 있습니다

운 좋게, 인공 지능 보다 정확하고 효율적인 단백질 구조 예측을 위한 새로운 약속을 제공합니다. 기계 학습 알고리즘은 방대한 양의 데이터를 검사할 수 있습니다. 그리고 그들은 사람들이 놓칠 수 있는 패턴을 발견합니다.

그 결과 비교할 수 없는 정밀도로 단백질 구조를 예측할 수 있는 새로운 소프트웨어 도구와 플랫폼이 탄생했습니다.

단백질 구조 예측을 위한 가장 유망한 기계 학습 알고리즘

Google이 만든 AlphaFold 시스템 Deepmind 팀은 이 분야에서 가장 유망한 발전 중 하나입니다. 사용함으로써 최근 몇 년 동안 큰 발전을 이루었습니다. 딥 러닝 알고리즘 아미노산 서열을 기반으로 단백질의 구조를 예측합니다.

신경망, 지원 벡터 머신, 랜덤 포레스트는 단백질 구조를 예측할 가능성을 보여주는 더 많은 기계 학습 방법 중 하나입니다.

이러한 알고리즘은 방대한 데이터 세트에서 학습할 수 있습니다. 그리고 서로 다른 아미노산 사이의 상관관계를 예상할 수 있습니다. 어떻게 작동하는지 봅시다.

알파폴드1

공진화적 분석과 최초의 AlphaFold 세대

의 성공 알파 폴드 공진화 분석을 활용하여 개발된 심층 신경망 모델을 기반으로 합니다. 공진화의 개념은 단백질의 두 아미노산이 서로 상호 작용하면 기능적 연결을 유지하기 위해 함께 발달한다는 것입니다.

연구원들은 수많은 유사한 단백질의 아미노산 서열을 비교하여 3D 구조에서 어떤 아미노산 쌍이 접촉할 가능성이 있는지 감지할 수 있습니다.

이 데이터는 AlphaFold의 첫 번째 반복을 위한 기초 역할을 합니다. 아미노산 쌍 사이의 길이와 이를 연결하는 펩타이드 결합의 각도를 예측합니다. 이 방법은 서열에서 단백질 구조를 예측하기 위한 이전의 모든 접근 방식을 능가했지만 명백한 템플릿이 없는 단백질의 경우 여전히 정확도가 제한되었습니다.

알파폴드 메인

AlphaFold 2: 근본적으로 새로운 방법론

AlphaFold2는 DeepMind에서 만든 컴퓨터 소프트웨어로 단백질의 아미노산 서열을 사용하여 단백질의 3D 구조를 예측합니다.

이것은 단백질의 구조가 기능 방식을 결정하고 그 기능을 이해하면 과학자들이 단백질을 표적으로 하는 약물을 개발하는 데 도움이 될 수 있기 때문에 중요합니다.

AlphaFold2 신경망은 단백질의 아미노산 서열과 해당 서열이 데이터베이스의 다른 서열과 어떻게 비교되는지에 대한 세부 정보를 입력으로 받습니다(이를 "서열 정렬"이라고 함).

신경망은 이 입력을 기반으로 단백질의 3D 구조에 대해 예측합니다.

AlphaFold2와 다른 점은 무엇입니까?

다른 접근 방식과 달리 AlphaFold2는 아미노산 쌍 사이의 분리 또는 이를 연결하는 결합 사이의 각도(이전 알고리즘처럼)가 아니라 단백질의 실제 3D 구조를 예측합니다.

신경망이 한 번에 전체 구조를 예상할 수 있도록 구조가 종단 간 인코딩됩니다.

AlphaFold2의 또 다른 주요 특징은 예측에 얼마나 확신이 있는지 추정치를 제공한다는 것입니다. 이는 예상되는 구조에 대한 색상 코딩으로 표시되며 빨간색은 높은 신뢰도를 나타내고 파란색은 낮은 신뢰도를 나타냅니다.

이것은 과학자들에게 예측의 안정성을 알려주기 때문에 유용합니다.

알파폴드 유기체dna

여러 시퀀스의 결합 구조 예측

Alphafold Multimer로 알려진 Alphafold2의 최신 확장은 여러 시퀀스의 결합된 구조를 예측합니다. 이전 기술보다 훨씬 더 잘 수행하더라도 여전히 실수율이 높습니다. 25개의 단백질 복합체 중 4500%만이 성공적으로 예측되었습니다.

접촉 형성의 거친 영역의 70%는 정확하게 예측되었지만 두 단백질의 상대적인 방향은 부정확했습니다. 중간 정렬 깊이가 약 30개 시퀀스 미만인 경우 Alphafold multimer 예측의 정확도가 크게 떨어집니다.

단백질 구조

Alphafold 예측을 사용하는 방법

AlphaFold의 예측 모델은 동일한 파일 형식으로 제공되며 실험 구조와 동일한 방식으로 사용할 수 있습니다. 오해를 방지하기 위해 모델과 함께 제공되는 정확도 추정치를 고려하는 것이 중요합니다.

이는 서로 엮인 호모머나 단백질이 있을 때만 접히는 복잡한 구조에 특히 유용합니다.
알려지지 않은 리간드.

몇 가지 도전

예측 구조를 사용할 때의 주요 문제는 단백질 및 생물리학적 데이터에 액세스하지 않고 역학, 리간드 선택성, 제어, 알로스테리, 번역 후 변화 및 결합 동역학을 이해하는 것입니다.

기계 학습 물리 기반 분자 역학 연구를 활용하여 이 문제를 극복할 수 있습니다.

이러한 조사는 전문적이고 효율적인 컴퓨터 아키텍처의 이점을 얻을 수 있습니다. AlphaFold는 단백질 구조를 예측하는 데 엄청난 발전을 이루었지만 구조 생물학 분야에는 아직 배워야 할 것이 많으며 AlphaFold 예측은 향후 연구를 위한 출발점일 뿐입니다.

다른 놀라운 도구는 무엇입니까?

RoseTTA폴드

워싱턴 대학 연구원들이 만든 RoseTTAFold도 마찬가지로 딥 러닝 알고리즘을 사용하여 단백질 구조를 예측하지만 예측된 구조를 개선하기 위해 "비틀림 각도 역학 시뮬레이션"이라는 새로운 접근 방식을 통합합니다.

이 방법은 고무적인 결과를 얻었으며 기존 AI 단백질 폴딩 도구의 한계를 극복하는 데 유용할 수 있습니다.

tr로제타

또 다른 도구인 trRosetta는 다음을 사용하여 단백질 폴딩을 예측합니다. 신경망 수백만 개의 단백질 서열 및 구조에 대해 훈련되었습니다.

또한 "템플릿 기반 모델링" 기술을 사용하여 대상 단백질을 유사한 알려진 구조와 비교하여 보다 정확한 예측을 생성합니다.

trRosetta가 작은 단백질과 단백질 복합체의 구조를 예측할 수 있음이 입증되었습니다.

딥메타PSSICOV

DeepMetaPSSICOV는 단백질 접촉 지도를 예측하는 데 중점을 둔 또 다른 도구입니다. 이들은 단백질 폴딩을 예측하는 가이드로 사용됩니다. 그것은 사용 깊은 학습 단백질 내부의 잔류물 상호작용의 가능성을 예측하기 위한 접근법.

이후에 전체 연락처 맵을 예측하는 데 사용됩니다. DeepMetaPSSICOV는 이전 접근법이 실패한 경우에도 매우 정확하게 단백질 구조를 예측할 수 있는 가능성을 보여주었습니다.

미래를 보류은 무엇입니까?

AI 단백질 폴딩의 미래는 밝다. 딥 러닝 기반 알고리즘, 특히 AlphaFold2는 최근 단백질 구조를 안정적으로 예측하는 데 큰 진전을 이루었습니다.

이 발견은 과학자들이 일반적인 치료 표적인 단백질의 구조와 기능을 더 잘 이해할 수 있게 함으로써 약물 개발을 변화시킬 잠재력을 가지고 있습니다.

그럼에도 불구하고 단백질 복합체를 예측하고 예상되는 구조의 실제 기능 상태를 감지하는 것과 같은 문제는 남아 있습니다. 이러한 문제를 해결하고 AI 단백질 폴딩 알고리즘의 정확성과 신뢰성을 높이려면 더 많은 연구가 필요합니다.

그러나이 기술의 잠재적 이점은 엄청나며 더 효과적이고 정확한 약물 생산으로 이어질 가능성이 있습니다.

서열에서 구조로: AI가 단백질 폴딩을 변형시키는 방법

단백질 폴딩의 미스터리 풀기