如何破解高性能计算的安全危局?

在这个计算力决定生产力甚至国力的时代,如何让坏人远离世界上运行速度最快,存储大量敏感信息,从事核心技术研发、天气建模、经济预报、关键基础设施运营或者国家安全相关任务的超级计算机?

长期以来,“书卷气”很浓的高性能计算小圈子都是网络安全的大盲区。2020年5月份全球各大超算中心经历的“挖矿风暴”以及2022年京都大学超算备份错误导致77TB数据丢失的惨烈安全事件就是最好的例证。除了计算资源被黑客用来挖矿外,近年来高性能计算机中的关键任务和敏感数据对攻击者,尤其是国家黑客的吸引力越来越大,针对高性能计算的攻击技术与手段也不断丰富(例如针对超算的Linux恶意软件)。

随着高性能计算在人工智能、核心技术研发和企业(甚至个人)云服务等领域的快速普及和发展,对高性能计算“安全债”问题的关注和重视已经刻不容缓。

“性能优先”是导致高性能计算安全能力低下的主要原因,这导致高性能计算的大部分预算都被用于“性能建设”,此外,网络安全方案往往会导致性能损失,(在出现重大安全事件或硬性合规要求前)用户的积极性不高。

高性能计算安全问题非常复杂

通常来说,高性能计算机面临的主要网络安全风险包括以下几个方面:

  • 远程攻击:攻击者可以通过网络攻击高性能计算机,例如利用漏洞攻击远程访问协议和其他网络服务,进入高性能计算机并在其中安装后门、病毒和恶意软件等。
  • 网络拒绝服务攻击:攻击者可以通过发送大量的流量或请求来占用网络资源,导致高性能计算机无法正常工作,甚至瘫痪。
  • 数据泄露:高性能计算机通常存储大量敏感数据,例如政府机构、军事机构、大型企业等组织的机密信息,攻击者可以利用各种方法窃取这些信息。
  • 非授权访问:攻击者可以通过网络攻击或社会工程学攻击等方式获取高性能计算机的访问权限,并在未经授权的情况下进行非法操作和访问。
  • 间谍软件和病毒:攻击者可以通过网络攻击在高性能计算机中安装间谍软件和病毒等恶意软件,监控用户活动、窃取敏感信息和破坏计算机系统。

为了防止这些网络安全风险,高性能计算的运营实体需要采取有效的安全措施,如加强网络安全防护、使用防病毒软件、加密数据传输、强化用户身份验证、及时升级系统补丁、实施安全审计和监控等。

但NIST高性能计算工作组负责人郭阳(音译)认为,高性能计算的安全防护有其独特性和复杂性,并不像安装防病毒软件和扫描电子邮件那么简单。

高性能计算机是共享资源,研究人员需要预约时间并连接到系统中进行计算和模拟。安全要求将因高性能计算体系结构而异,其中一些体系结构可能会优先考虑访问控制或硬件,如存储、更快的CPU或更多用于计算的内存。郭阳指出:首要重点是保护容器并清理相关计算节点。

处理机密数据的政府机构会采用诺克斯堡式的物理隔离方法,通过切断常规网络或无线访问来保护系统。物理隔离方法有助于确保恶意软件不会入侵系统,只有获得许可的授权用户才能访问此类系统。

但是,为了方便学生和学者从事科研活动,很多超级计算机部署在大学里,这些系统的管理员的安全控制往往比较松弛,安全管理主要依赖系统供应商,而高性能计算供应商的主要精力都放在吹嘘自己的高性能计算机技术,而不是“费力不讨好”的网络安全。

美国国防部高性能计算现代化计划的网络安全项目经理Rickey Gregg指出,当用户将高性能计算系统的管理权交给供应商时,后者优先考虑的是如何保证性能,而不是安全性。

“用户在安全上花的钱越多,在性能上花的钱就越少。我们正在努力确保二者能达成某种平衡。”Gregg说道。

一些高性能计算系统管理员对优先考虑系统性能并降低安全性优先级的供应商合同表示沮丧,因为实施自行开发的安全技术将意味着与供应商的违约,这导致很多高性能计算系统暴露在外。

一些管理员表示,合同条款可以调整为供应商在一段时间后将安全管理移交给现场工作人员。

值得推荐的用户安全实践

德克萨斯大学奥斯汀分校德克萨斯高级计算中心(TACC)拥有全球最快的超级计算机500强名单中的多台超级计算机,该中心的负责人透露,TACC超级计算机会定期接受扫描,该中心拥有防止入侵和双因素身份验证的工具,以授权合法用户。

美国国防部则采用了“围墙花园”方法,将用户、工作负载和超级计算资源划分为DMZ-stye边境区域,对所有通信进行严格保护和监控。

据麻省理工学院林肯实验室超级计算中心的高级工作人员Albert Reuther介绍,麻省理工学院(MIT)选择通过零信任方法来摆脱根访问权限,使用sudo的命令行为高性能计算工程师提供root权限。使用sudo命令的好处是能记录高性能计算工程师在系统上进行的活动。

“我们需要审计谁在用键盘,那个人是谁。”Reuther表示。

提高供应商级别的安全性

数十年来,高性能计算的很多安全措施几乎一成不变,例如严重依赖带有互连机架的大型现场安装。因为很多高性能计算用户对数据离开本地系统后的安全性表示担忧。这与商业计算市场形成鲜明对比,商业计算市场正在向异地和云端转移。

亚马逊AWS正试图通过将高性能计算引入云来实现高性能计算的现代化,按需扩展性能,同时保持更高级别的安全性。11月,该公司推出了HPC7g,这是一组用于在弹性计算云(EC2)上进行高性能计算的云实例。EC2采用一种称为Nitro V5的特殊控制器,该控制器提供机密计算层,以保护存储、处理或传输中的数据。

“我们使用各种硬件添加到典型平台来管理安全性、访问控制、网络封装和加密等内容,”AWS高性能计算首席专家解决方案架构师Lowell Wofford说道:“硬件技术在虚拟机中提供了安全性和裸机性能。”

英特尔正在将软件防护扩展(SGX)等机密计算功能构建到其最快的服务器芯片中,这是一个用于程序执行的锁定飞地。根据英特尔的McVeigh的说法,运营商过时的安全实践正促使芯片制造商在防护高性能系统方面先行一步。

前一篇中东版“清华大学”遭勒索攻击,被索要超千万元赎金
后一篇“万能恶意软件”开始快速流行