Alphafold2蛋白质结构预测AI工作站配置推荐

2024-01-12 02:20

本文主要是介绍Alphafold2蛋白质结构预测AI工作站配置推荐,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

AlphaFold2计算特点

       蛋白质三维结构预测是一项计算量非常巨大的任务,科学家多年的探索研究,形成了X射线晶体学法、核磁共振法、冷冻电镜等。
       2021年底,谷歌的DeepMind团队的采用人工智能方法的AlphaFold2算法在生物界引起了极大的轰动,它能准确地预测蛋白质的结构,AlphaFold2是当今预测蛋白质3D结构的最强工具。它将被大量用于推动世界蛋白质研究向前发展。

        AlphaFold2在国际蛋白质结构预测竞赛(CASP14)上精确地基于氨基酸序列预测蛋白质的3D结构。其准确性可以与使用冷冻电子显微镜(CryoEM)、核磁共振或 X 射线晶体学等实验技术解析的3D结构相媲美。

目前情况(大致统计):
(1)Deepmind开源了AlphaFold2的源代码(推理部分)
(2)华盛顿大学开源了RoseTTRFold的源代码(推理部分)
(3)深势科技复现了AlphaFold的训练部分,并开源代码(训练和推理)
(4)上海天壤智能科技有限公司复现了TRfold训练部分和推理部分
(5)上海交大对AlphaFold2的推理代码进行了优化(推理并行版)

(一)AlphaFold2蛋白质结构预测计算特点
如何配置好硬件,最快速度完成训练、推理计算,首先分析其计算过程以及算法特点。

                                                      图1 Alphafold2计算示意图

环节1 数据处理-序列特征生成计算特点

                                     (图片2来源:上海交大alphafold2并行优化版)

计算过程
总输入单个蛋白质序列FASTA格式(推理);
通过搜索工具(jackHMMER/HHblits)分别对多个遗传数据库--执行隐马尔可夫模型的搜索生成MSA(序列-残基);见图1
搜索的结构和序列产生的Pairing信息(残基-残基);
通过HHsearch搜索的Template;

计算与硬件配置分析
数据库搜索过程涉及数据库密集I/O读写,数据放到高速SSD硬盘上,数据量累积超过2TB,非常耗时,加速手段提升CPU计算速度。

硬件配置
CPU计算为主,内存要够大,或配备NVME SSD固态卡,容量4TB以上
环节2 神经网络预测计算特点

(图片来源:上海交通大学 https://parafold.sjtu.edu.cn/docs/quick-start/)

计算过程
利用多序列比对(MSA),把蛋白质的结构和生物信息整合到深度学习算法中,主要包括:神经网络EvoFormer和结构模块(Structure module).
在EvoFormer中,主要是将图网络(Graph networks)和多序列比对(MSA)结合完成结构预测,Alphafold2使用Transformer结构,不管是MSA还是残基-残基对的信息更新都使用了Attention机制,结构模块的更新使用了三角法则,简化了计算的复杂度,准确率也提高了不少.
结构模块(Structure Module)主要工作是将EvoFormer得到的信息转换为蛋白质3D结构.
整个模型的Evoformer和Structure module部分都使用了Recycling,即将输出重新加入到输入在重复refinement,进行信息的精炼.
计算特点
上述计算过程用GPU更合理,对GPU要求是高显存带宽、大容量显存、大蛋白质计算通过将多GPU卡设置统一内存架构,大的显存可支持更大的计算数据存放。

计算架构分析汇总

(二)蛋白质结构预算AI工作站配置推荐:

       西安坤隆计算机科技有限公司专注于工作站专业应用,对每个应用的计算过程研究分析,给出精准高效、高可靠计算架构和专业系统优化,以及稳定的技术支持,保证与应用软件90%以上的匹配吻合,和长期稳定运行。

硬件配置具有以下特点:
1)配备CPU规格均以高频为主,兼顾足够CPU核数,这样保证数据预处理(最慢的环节),计算时间大幅缩短,GPU卡采用单精度指标高的、显存容量大的,保证神经预测计算加速,满足AlphaFold2的理想的配置方案
2)整机的cpu、gpu、硬盘配置,满足AlphaFold2推理(包括上海交大并行版)计算要求,均衡无死角,性能最大化;
3)为深势科技的Uni-Fold训练、推理模块提供理想配置架构;
4)每个配置机器做到即开即用,并提供硬件+优化+稳定高速运行技术支持服务
5)支持大规模的计算扩展应用需求

2.1 蛋白质结构预测工作站配置参考

​​​​​​​

​​​​​​​

这篇关于Alphafold2蛋白质结构预测AI工作站配置推荐的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/596499

相关文章

Python的Darts库实现时间序列预测

《Python的Darts库实现时间序列预测》Darts一个集统计、机器学习与深度学习模型于一体的Python时间序列预测库,本文主要介绍了Python的Darts库实现时间序列预测,感兴趣的可以了解... 目录目录一、什么是 Darts?二、安装与基本配置安装 Darts导入基础模块三、时间序列数据结构与

mybatis映射器配置小结

《mybatis映射器配置小结》本文详解MyBatis映射器配置,重点讲解字段映射的三种解决方案(别名、自动驼峰映射、resultMap),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定... 目录select中字段的映射问题使用SQL语句中的别名功能使用mapUnderscoreToCame

Linux下MySQL数据库定时备份脚本与Crontab配置教学

《Linux下MySQL数据库定时备份脚本与Crontab配置教学》在生产环境中,数据库是核心资产之一,定期备份数据库可以有效防止意外数据丢失,本文将分享一份MySQL定时备份脚本,并讲解如何通过cr... 目录备份脚本详解脚本功能说明授权与可执行权限使用 Crontab 定时执行编辑 Crontab添加定

Java使用jar命令配置服务器端口的完整指南

《Java使用jar命令配置服务器端口的完整指南》本文将详细介绍如何使用java-jar命令启动应用,并重点讲解如何配置服务器端口,同时提供一个实用的Web工具来简化这一过程,希望对大家有所帮助... 目录1. Java Jar文件简介1.1 什么是Jar文件1.2 创建可执行Jar文件2. 使用java

SpringBoot 多环境开发实战(从配置、管理与控制)

《SpringBoot多环境开发实战(从配置、管理与控制)》本文详解SpringBoot多环境配置,涵盖单文件YAML、多文件模式、MavenProfile分组及激活策略,通过优先级控制灵活切换环境... 目录一、多环境开发基础(单文件 YAML 版)(一)配置原理与优势(二)实操示例二、多环境开发多文件版

Vite 打包目录结构自定义配置小结

《Vite打包目录结构自定义配置小结》在Vite工程开发中,默认打包后的dist目录资源常集中在asset目录下,不利于资源管理,本文基于Rollup配置原理,本文就来介绍一下通过Vite配置自定义... 目录一、实现原理二、具体配置步骤1. 基础配置文件2. 配置说明(1)js 资源分离(2)非 JS 资

MySQL8 密码强度评估与配置详解

《MySQL8密码强度评估与配置详解》MySQL8默认启用密码强度插件,实施MEDIUM策略(长度8、含数字/字母/特殊字符),支持动态调整与配置文件设置,推荐使用STRONG策略并定期更新密码以提... 目录一、mysql 8 密码强度评估机制1.核心插件:validate_password2.密码策略级

ShardingProxy读写分离之原理、配置与实践过程

《ShardingProxy读写分离之原理、配置与实践过程》ShardingProxy是ApacheShardingSphere的数据库中间件,通过三层架构实现读写分离,解决高并发场景下数据库性能瓶... 目录一、ShardingProxy技术定位与读写分离核心价值1.1 技术定位1.2 读写分离核心价值二

QT Creator配置Kit的实现示例

《QTCreator配置Kit的实现示例》本文主要介绍了使用Qt5.12.12与VS2022时,因MSVC编译器版本不匹配及WindowsSDK缺失导致配置错误的问题解决,感兴趣的可以了解一下... 目录0、背景:qt5.12.12+vs2022一、症状:二、原因:(可以跳过,直奔后面的解决方法)三、解决方

SpringBoot路径映射配置的实现步骤

《SpringBoot路径映射配置的实现步骤》本文介绍了如何在SpringBoot项目中配置路径映射,使得除static目录外的资源可被访问,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一... 目录SpringBoot路径映射补:springboot 配置虚拟路径映射 @RequestMapp