Điều gì sẽ xảy ra nếu chúng ta có thể sử dụng trí thông minh nhân tạo để giải đáp một trong những bí ẩn lớn nhất của cuộc sống – sự gấp nếp của protein? Các nhà khoa học đã làm việc về điều này trong nhiều thập kỷ.
Giờ đây, máy móc có thể dự đoán cấu trúc protein với độ chính xác đáng kinh ngạc bằng cách sử dụng các mô hình học sâu, thay đổi quá trình phát triển thuốc, công nghệ sinh học và kiến thức của chúng ta về các quá trình sinh học cơ bản.
Hãy cùng tôi khám phá lĩnh vực hấp dẫn của việc gấp protein AI, nơi công nghệ tiên tiến va chạm với sự phức tạp của chính cuộc sống.
Làm sáng tỏ bí ẩn về sự gấp nếp của protein
Protein hoạt động trong cơ thể chúng ta giống như những cỗ máy nhỏ để thực hiện các nhiệm vụ quan trọng như phân hủy thức ăn hoặc vận chuyển oxy. Chúng phải được gấp đúng cách để chúng hoạt động hiệu quả, giống như chìa khóa phải được cắt chính xác để lắp vào ổ khóa. Ngay sau khi protein được tạo ra, một quá trình gấp rất phức tạp bắt đầu.
Gấp protein là quá trình mà các chuỗi axit amin dài, các khối xây dựng của protein, gấp lại thành các cấu trúc ba chiều quy định chức năng của protein.
Hãy xem xét một chuỗi hạt dài phải được sắp xếp thành một dạng chính xác; đây là những gì xảy ra khi một protein gấp lại. Tuy nhiên, không giống như các hạt, các axit amin có những đặc điểm độc đáo và tương tác với nhau theo nhiều cách khác nhau, khiến cho quá trình gấp protein trở thành một quá trình phức tạp và nhạy cảm.
Hình ảnh ở đây đại diện cho huyết sắc tố của con người, là một loại protein gấp nổi tiếng
Các protein phải gấp nhanh và chính xác, nếu không chúng sẽ bị gấp sai và bị lỗi. Điều đó có thể dẫn đến các bệnh như Alzheimer và Parkinson. Nhiệt độ, áp suất và sự hiện diện của các phân tử khác trong tế bào đều có ảnh hưởng đến quá trình gấp nếp.
Sau nhiều thập kỷ nghiên cứu, các nhà khoa học vẫn đang cố gắng tìm ra chính xác cách thức các protein gấp lại.
Rất may, những tiến bộ trong trí tuệ nhân tạo đang cải thiện sự phát triển trong lĩnh vực này. Các nhà khoa học có thể dự đoán cấu trúc của protein chính xác hơn bao giờ hết bằng cách sử dụng thuật toán học máy để kiểm tra khối lượng dữ liệu khổng lồ.
Điều này có khả năng thay đổi quá trình phát triển thuốc và nâng cao kiến thức phân tử của chúng ta về căn bệnh này.
Máy móc có thể hoạt động tốt hơn không?
Kỹ thuật gấp protein thông thường có những hạn chế
Các nhà khoa học đã cố gắng tìm ra cách gấp protein trong nhiều thập kỷ, nhưng sự phức tạp của quá trình này đã khiến đây trở thành một chủ đề đầy thách thức.
Các phương pháp dự đoán cấu trúc protein thông thường sử dụng kết hợp các phương pháp thử nghiệm và mô hình máy tính, tuy nhiên, tất cả các phương pháp này đều có nhược điểm.
Các kỹ thuật thí nghiệm như tinh thể học tia X và cộng hưởng từ hạt nhân (NMR) có thể tốn nhiều thời gian và chi phí. Và, các mô hình máy tính đôi khi dựa trên những giả định đơn giản, có thể dẫn đến những dự đoán sai lầm.
AI có thể vượt qua những trở ngại này
May mắn thay, trí tuệ nhân tạo đang cung cấp lời hứa mới cho dự đoán cấu trúc protein chính xác và hiệu quả hơn. Các thuật toán học máy có thể kiểm tra khối lượng dữ liệu khổng lồ. Và, họ phát hiện ra những mẫu mà mọi người sẽ bỏ lỡ.
Điều này đã dẫn đến việc tạo ra các công cụ và nền tảng phần mềm mới có khả năng dự đoán cấu trúc protein với độ chính xác vô song.
Các thuật toán học máy hứa hẹn nhất để dự đoán cấu trúc protein
Hệ thống AlphaFold do Google xây dựng Deepmind nhóm là một trong những tiến bộ hứa hẹn nhất trong lĩnh vực này. Nó đã đạt được tiến bộ lớn trong những năm gần đây bằng cách sử dụng thuật toán học sâu để dự đoán cấu trúc của protein dựa trên trình tự axit amin của chúng.
Mạng lưới thần kinh, máy vectơ hỗ trợ và rừng ngẫu nhiên nằm trong số các phương pháp học máy khác hứa hẹn dự đoán cấu trúc protein.
Các thuật toán này có thể học hỏi từ các bộ dữ liệu khổng lồ. Và, họ có thể dự đoán mối tương quan giữa các axit amin khác nhau. Vì vậy, hãy xem nó hoạt động như thế nào.
Phân tích đồng tiến hóa và thế hệ AlphaFold đầu tiên
Sự thành công của AlphaFold được xây dựng trên mô hình mạng thần kinh sâu được phát triển bằng cách sử dụng phân tích đồng tiến hóa. Khái niệm đồng tiến hóa nói rằng nếu hai axit amin trong protein tương tác với nhau, chúng sẽ phát triển cùng nhau để giữ liên kết chức năng của chúng.
Các nhà nghiên cứu có thể phát hiện cặp axit amin nào có khả năng tiếp xúc với nhau trong cấu trúc 3D bằng cách so sánh trình tự axit amin của nhiều protein tương tự.
Dữ liệu này đóng vai trò là nền tảng cho lần lặp đầu tiên của AlphaFold. Nó dự đoán độ dài giữa các cặp axit amin cũng như các góc của liên kết peptit liên kết chúng. Phương pháp này vượt trội hơn tất cả các phương pháp trước đây để dự đoán cấu trúc protein từ trình tự, mặc dù độ chính xác vẫn bị hạn chế đối với các protein không có mẫu rõ ràng.
AlphaFold 2: Phương pháp hoàn toàn mới
AlphaFold2 là một phần mềm máy tính do DeepMind tạo ra, sử dụng trình tự axit amin của protein để dự đoán cấu trúc 3D của protein.
Điều này rất có ý nghĩa vì cấu trúc của protein quy định cách thức hoạt động của nó và hiểu được chức năng của nó có thể giúp các nhà khoa học phát triển các loại thuốc nhắm vào protein.
Mạng thần kinh AlphaFold2 nhận đầu vào là trình tự axit amin của protein cũng như thông tin chi tiết về cách trình tự đó so sánh với các trình tự khác trong cơ sở dữ liệu (điều này được gọi là “căn chỉnh trình tự”).
Mạng thần kinh đưa ra dự đoán về cấu trúc 3D của protein dựa trên đầu vào này.
Điều gì khiến nó khác biệt với AlphaFold2?
Trái ngược với các phương pháp khác, AlphaFold2 dự đoán cấu trúc 3D thực sự của protein chứ không chỉ là sự phân tách giữa các cặp axit amin hoặc góc giữa các liên kết kết nối chúng (như các thuật toán trước đó đã làm).
Để mạng thần kinh dự đoán toàn bộ cấu trúc cùng một lúc, cấu trúc được mã hóa từ đầu đến cuối.
Một đặc điểm quan trọng khác của AlphaFold2 là nó đưa ra ước tính về mức độ tin cậy của nó đối với dự báo của nó. Điều này được trình bày dưới dạng mã màu trên cấu trúc dự đoán, với màu đỏ biểu thị độ tin cậy cao và màu xanh biểu thị độ tin cậy thấp.
Điều này rất hữu ích vì nó thông báo cho các nhà khoa học về tính ổn định của dự đoán.
Dự đoán cấu trúc kết hợp của một số chuỗi
Bản mở rộng mới nhất của Alphafold2, được gọi là Alphafold Multimer, dự đoán cấu trúc kết hợp của một số trình tự. Nó vẫn có tỷ lệ mắc lỗi cao ngay cả khi nó hoạt động tốt hơn nhiều so với các kỹ thuật trước đó. Chỉ 25% trong số 4500 phức hợp protein được dự đoán thành công.
70% các vùng hình thành tiếp xúc gồ ghề đã được dự đoán chính xác, nhưng hướng tương đối của hai protein không chính xác. Khi độ sâu căn chỉnh trung bình nhỏ hơn khoảng 30 trình tự, độ chính xác của các dự đoán đa nhân Alphafold giảm đáng kể.
Cách sử dụng dự đoán Alphafold
Các mô hình dự đoán từ AlphaFold được cung cấp ở cùng định dạng tệp và có thể được sử dụng theo cách giống như các cấu trúc thử nghiệm. Điều quan trọng là phải tính đến các ước tính chính xác được cung cấp cùng với mô hình để tránh hiểu lầm.
Nó đặc biệt hữu ích cho các cấu trúc phức tạp như các homome đan xen hoặc protein chỉ gấp nếp khi có mặt của một
phối tử chưa biết.
Một số thách thức
Vấn đề chính trong việc sử dụng các cấu trúc dự đoán là hiểu được động lực học, tính chọn lọc phối tử, kiểm soát, phân bổ, thay đổi sau dịch mã và động học của liên kết mà không cần truy cập vào dữ liệu protein và lý sinh.
học máy và nghiên cứu động lực học phân tử dựa trên vật lý có thể được sử dụng để khắc phục vấn đề này.
Những cuộc điều tra này có thể được hưởng lợi từ kiến trúc máy tính chuyên dụng và hiệu quả. Mặc dù AlphaFold đã đạt được những tiến bộ to lớn trong việc dự đoán cấu trúc protein, nhưng vẫn còn nhiều điều cần tìm hiểu trong lĩnh vực sinh học cấu trúc và dự đoán AlphaFold chỉ là điểm khởi đầu cho nghiên cứu trong tương lai.
Các công cụ đáng chú ý khác là gì?
hoa hồngTTAgấp
RoseTTAFold, do các nhà nghiên cứu của Đại học Washington tạo ra, cũng sử dụng các thuật toán học sâu để dự đoán cấu trúc protein, nhưng nó cũng tích hợp một phương pháp mới được gọi là “mô phỏng động lực học góc xoắn” để cải thiện cấu trúc dự đoán.
Phương pháp này đã mang lại kết quả đáng khích lệ và có thể hữu ích trong việc khắc phục những hạn chế của các công cụ gấp protein AI hiện có.
trRosetta
Một công cụ khác, trRosetta, dự đoán sự gấp nếp của protein bằng cách sử dụng một mạng lưới thần kinh được đào tạo về hàng triệu trình tự và cấu trúc protein.
Nó cũng sử dụng kỹ thuật “mô hình hóa dựa trên mẫu” để tạo ra các dự đoán chính xác hơn bằng cách so sánh protein mục tiêu với các cấu trúc đã biết có thể so sánh được.
Người ta đã chứng minh rằng trRosetta có khả năng dự đoán cấu trúc của các protein nhỏ và phức hợp protein.
DeepMetaPSICOV
DeepMetaPSICOV là một công cụ khác tập trung vào việc dự đoán bản đồ tiếp xúc với protein. Chúng, được sử dụng như một hướng dẫn để dự đoán sự gấp nếp của protein. Nó sử dụng học kĩ càng phương pháp tiếp cận để dự báo khả năng tương tác dư lượng bên trong protein.
Chúng sau đó được sử dụng để dự báo bản đồ liên lạc tổng thể. DeepMetaPSICOV đã cho thấy tiềm năng trong việc dự đoán cấu trúc protein với độ chính xác cao, ngay cả khi các phương pháp trước đó đã thất bại.
Tương lai giữ gì?
Tương lai của việc gấp protein AI rất tươi sáng. Các thuật toán dựa trên học sâu, đặc biệt là AlphaFold2, gần đây đã đạt được tiến bộ lớn trong việc dự đoán cấu trúc protein một cách đáng tin cậy.
Phát hiện này có khả năng thay đổi quá trình phát triển thuốc bằng cách cho phép các nhà khoa học hiểu rõ hơn về cấu trúc và chức năng của protein, vốn là mục tiêu điều trị phổ biến.
Tuy nhiên, các vấn đề như dự báo phức hợp protein và phát hiện trạng thái chức năng thực sự của các cấu trúc dự đoán vẫn còn. Cần có nhiều nghiên cứu hơn để giải quyết những vấn đề này và tăng độ chính xác cũng như độ tin cậy của thuật toán gấp protein AI.
Tuy nhiên, những lợi ích tiềm năng của công nghệ này là rất lớn và nó có khả năng dẫn đến việc sản xuất các loại thuốc chính xác và hiệu quả hơn.
Bình luận