如何防止删库跑路?运维堡垒机高效安全运维设计与实践落地
在刚刚结束的 2020 全球新一代软件工程线上峰会上,有着近七年自动化运维平台研发经验的京东智联云产品架构师任龙涛,分享了 《运维堡垒机高效安全运维设计与实践落地》 议题。本篇文章将为大家回顾本次精彩分享,深入解析京东智联云高效安全运维过程中的问题,以及为解决这些问题所做的探索和落地实践。
一个程序员,凭一己之力,删除自家公司数据库,市值缩水近 24 亿元,直接经济损失达到 1.5 亿元。
这不是段子,是真实发生在我们身边的故事。该公司研发中心工作人员通过其个人 API 登录公司内网的跳板机后,对生产环境进行了恶意破坏,导致旗下用户小程序全线宕机,300 多万商户的线上业务全部停止,历时一周才最终恢复数据。这个案例反映出一些企业对于运维权限的管控存在巨大漏洞,如此危险的删库操作,竟然在没有二次确认的情况下由一个人就可完成全程操作。
这只是企业在运维过程中面临的安全困境之一,当前企业在运维安全中通常还会面对用户身份无法核实、系统账号共用、审计困难以及操作访问难以控制等各种挑战。
随着日常生产、生活对信息化系统依赖程度逐渐增加,近些年运维事故层出不穷。而由于运维过程中账号共用,范围难以控制,密码难以统一管理,人员权限分工不明确,导致事故发生后审计追查非常困难。
另一方面,我国针对数据安全逐步颁布了一系列法律法规,对企业提出了严格的安全合规要求。例如网络安全法要求日志留存不少于 6 个月,必须采取网络安全措施;《等保》2.0 要求企业必须对用户身份进行鉴权,如用户访问的权限控制,最小化的授权原则,运维操作完整审计,定期进行数据备份等;运营商需满足电信行业的规定;证券、金融行业需满足银监、证监相关要求;上市公司要满足企业内控要求。
面对运维过程中的重重挑战,京东智联云经过多年不断探索与实践,给出了自己的答案--运维堡垒机。运维堡垒机主要包含两方面功能: 运维管理和审计,它可以对运维人员的运维操作进行统一身份认证、统一资产管理、统一访问授权和全程运维审计。
运维堡垒机适用场景非常广泛,可应用于互联网、金融、政府、企事业单位等几乎所有需要安全运维的企业或机构。特别是今年初新冠肺炎疫情爆发后,很多企业要求员工在家远程办公,在这种情况下对于企业运维人员而言, VPN+运维堡垒机无疑是最佳选择。
提到运维堡垒机,我们有必要回顾一下它的几个重要发展阶段。最初运维堡垒机是以硬件形式出现的,优点是自成体系。但是缺点也很明显,产品比较固化,升级困难,拓展性较差。
直到 2000 年时,软件堡垒机出现了,它解决了硬件堡垒机的缺陷,但云时代的到来,又对软件堡垒机提出了一系列挑战:
第一个挑战是多云架构。 云时代中目标资产发生了很大变化,企业 IT 资产快速云化。尤其是在当前非监管行业、非金融行业中云化的进展很快。而随着业务快速拓展,用户总会面临一些安全合规要求。这时候用户会发现自己的资产越来越分散,管理起来越来越困难。混合云的持续推广也使得 IT 基础设施的管理复杂度越来越高,企业的基础设施包含传统的 KVM、私有云、公有云等不同类型。堡垒机需要适配、纳管不同的 IT 组件,并进行统一安全审计。
第二个挑战是资产管理方式发生改变。 传统堡垒机通常是手工输入,或者通过文本导入、扫描 IP 导入。而由于云时代网络复杂度高,传统堡垒机的网络部署方式面临巨大挑战。云时代的资产通常分布在不同的云、不同的 VPC、不同的子网下面,堡垒机如何才能更好的适配这种网络环境?
第三个挑战是需要具备成熟的高可用容灾部署架构。 高可用的分布式技术为支撑平台正常运行提供了关键技术支持,容灾系统在断电、通讯失败及软硬件错误时,依然要保证用户数据的安全,并提供不间断的应用服务。堡垒机需要提供持续的可用性,并快速进行容灾切换,保证企业内部统一的运维能力不间断,有效支撑企业业务正常开展。
第四个挑战是需要支持水平扩容。 目前企业虚拟资产是动态变化的,随着后续业务的增长,资产数量也将持续增长。庞大且快速增长的 IT 资产需要堡垒机在资产纳管方面更具可扩展性,以应对突发性业务需求。
面对云时代复杂的运维场景和需求,京东智联云在设计产品时制定了一条原则,即 "我们自己需要的堡垒机就是我们要做的堡垒机"。运维堡垒机的产品需求来自整个京东智联云数千个软件工程师,在日常软件开发、上线、运维过对于云计算的深入思考和未来发展趋势的判断。
基于这些考量,京东智联云堡垒机的设计需要包含以下 4 方面功能:
第一,支持主流云厂商和私有云框架。
第二,可靠的安全保障机制。 安全是企业的生命线,必须作为首要核心要素加以考虑和保障。
第三,极致用户体验。 京东是一家互联网公司,这要求产品时刻要以互联网产品的要求和体验进行定位。堡垒机最好的体验应该是用户在开发和运维过程中虽然在使用堡垒机产品,但却感受不到堡垒机的存在。
第四,支持一键部署。 京东智联云运维堡垒机可以支持分钟级部署,能够一键完成资产信息、用户信息、账户信息的导入,从部署到正常使用简单快捷。
结合这些要求和产品设计原则,京东智联云发现低耦合、分层、分布式架构成为运维堡垒机的最佳选择,也是最优选择。
首先来看分层架构,京东智联云存储层应用了云硬盘、etcd、es、oss;数据控制层使用了K8S的api server;核心层是京东智联云自研的API服务Bastion,用来进行核心的鉴权、资产管理、用户管理等一系列核心API管理。再上面是接入层,包含一个自研的用户友好的SSH交互界面 Relay,前端提供的用户管理操作界面,可通过浏览器进行运维界面操作的Web Teminar,这三个模块共同为用户提供了丰富的运维入口。
该架构中每一层都是解耦的,理论上都可以进行模块化的部署,根据业务需要每层可以做水平扩展。当前京东智联云是将所有模块集中到一个镜像里做容器化部署,根据需求还可以扩展部署的数量。例如可以 4 个容器、同一个镜像组成一个高可用版本的实例。这个高可用版本的实例就是分布式、分地域部署的,下层的 etcd 也会组成一个集群,保证了整体架构的高可用。整个架构都是从云原生角度考量的,更加贴合云时代对于堡垒机的要求。
同时,京东智联云运维堡垒机也完全符合堡垒机对安全4A原则的设计:
第一,统一身份认证。 用户的角色、权限要进行统一的管理,实现三权分立、各司其职;支持短信、Google 认证、LDAP、AD 域等多种认证方式,便于对接用户已有运维方式;支持双因子验证;支持批量用户管理,如通过 IAM 接口批量导入子用户,通过文件批量导入用户,或是通过用户组进行用户的分类管理。
第二,统一资产管理。 包含账号、模块化管理、支持密码、公私钥账号、用户无感知的 SSO 单点登陆,资产也支持批量导入和分组管理,可以根据主机组进行授权。资产的账号支持自动改密,用户通过设计改密计划,定期定时进行执行。密码改后用户无感知,可以自动登录,解决了账号管理困难的问题,减轻了运维管理工作量。
第三,统一访问授权。 用一句话解释就是谁在什么时间,从哪个地方访问了哪些机器,以及他在这台机器上做了什么,没做什么,做过什么。通过访问授权都可以确切地知道这个人是谁。
第四,权限管理。 堡垒机的访问策略主要包含 IP 限制、访问时间段限制、高位命令限制、二次授权等。通过这些规则限制可以保证整个运维过程中,用户必须在被分配的权限下进行操作,不会出现越权操作的情况,从而保证整体运维工作的安全性。
最后是运维全程审计。 运维审计是保证运维安全的最后一道防线,它通过全程的运维审计,可以快速定位问题,确定责任人。 这有助于快速解决问题,恢复正常服务。全程运维审计主要通过全程录像、指令全程记录和命令检索三种方案实现。全程录像的文件要可下载、可备份、可播放;指令全程记录主要针对字符型的操作;命令检索需要支持命令级别的全文检索,这样出现问题时就可以进行相关命令集的查询、检索,快速定位问题所在。
结合京东智联云堡垒机,京东智联云内部正在使用一套基于服务树授权的机器认证管理方案,一举解决了传统堡垒机角色权限管理的复杂性,以及堡垒机和运维系统的隔离问题。运维人员可以在统一的操作入口同步用户信息、决策信息以及资产信息,且全程录屏,可追溯,符合 4A 标准的专业审计系统,支撑京东智联云内部开发和运维工作安全可控。
对外,京东智联云为用户提供了公有云产品与私有化方案两种形式的方案。 京东智联云的公有云架构采用了第二代英特尔®至强®可扩展平台,可以获得性能强劲、简单易用的云化基础设施,降低上云复杂度,可用于构建云化的统一数据平台,为数据处理、分析和AI提供全面加速,还通过融合自动化和智能化管理特性,助力实现云的弹性扩展、稳定可靠和降本增效。直接使用京东智联云上的运维堡垒机可以帮助企业立即开启云上的高效运维。
通过京东智联云私有化运维堡垒机方案,香港某银行构建了完整、先进的运维审计管理体系。 借助堡垒机分布式部署方案,在本地 IDC 和多个公有云、私有云的分散资产实现了统一管理、统一授权和统一访问入口;同时,结合堡垒机分布式部署方案中自身的零插件访问能力,用户可以在任何地方仅使用主流浏览器就能够简单、高效地访问主机资产。
京东智联云运维堡垒机良好的运维服务赋予了该银行运维审计管理系统可持续的平台演进能力,该银行客户可以及时获得最新软件版本和软件补丁升级服务,并且在第一时间获得原厂的故障排查、紧急救助等专业服务,系统的稳定性和安全性得到有效保障。
银行在金融领域中除运维安全需要考量外,还需考虑风控、信贷、营销、技术基础设置等多种等因素。作为最具产业属性的技术服务商,京东智联云致力于打造安全、可信、智能的供应链金融体系生态。
在风控领域, 京东智联云以京东与外部大数据为依托,基于大数据、人工智能技术与算法为持牌消金、银行机构、小额分期信贷等企业机构提供一套完整的风控解决方案体系。并面向城商行、农商行为主题的中小银行客户,消费金融、信托等金融机构,提供一站式全流程线上信贷综合服务,快速提升线上信贷资产质量的同时,建立主动风控能力,该系统适用于零售信贷业务场景全生命周期的风控管理。
此外,京东智联云还源于京东体系多年的能力沉淀与最佳实践,面向金融行业提供一站式研发运营提效平台,帮忙客户构建研发运营一体化框架,覆盖研发测试运维全流程,实现研发资源高效整合、开发效率和交付质量提升,助力金融企业效能提升和业务创新。
点撃" 阅读原文 ",马上了解京东云堡垒机及相关运维产品!