如何交接复杂的遗留系统?

2023-10-10 23:30
文章标签 系统 遗留 复杂 交接

本文主要是介绍如何交接复杂的遗留系统?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本篇文章由黄亚铭,郑佳宁,王卫波,王玥,顾浩,高烁,孙萌阳共同完成。

一半以上的新项目,都始于交接。交接期有长有短,交接形式多种多样。不管怎样,从客户关系、团队工作方式等各方面,交接期都奠定了项目进入稳定交付或维护期的基调。

2020年10月,Thoughtworks的C团队从客户团队交接了一个有近20年历史的支付网关系统。这个支付网关主要向英语系地区的企业提供信用卡支付,储蓄卡支付等支付相关的功能,每个月的交易额过亿。

2021年1月起,C团队正式接手该项目的日常运维工作。不仅需要保证系统稳定运行,提供7×24小时On Call支持,还要响应日常业务的需求,同时保证整个支付网关符合支付卡行业数据安全标准(Payment Card Industry Data Security Standard,缩写为 PCI-DSS)。

在交接的过程中,团队面临很多的挑战,尝试了很多办法,同时沉淀了一些经验。我们将通过这篇文章将经验和实践分享出来,希望帮助到更多人。

挑战

作为一个历史悠久的“大龄”支付网关,在交接过程中我们遇到了一系列的挑战,大致可以分为下面两类:

1. 业务复杂度高

业务上,这个支付网关光是在卡支付的场景下就同时支持8种技术,还有信用卡相关的安全功能,数不清的报表和各种增值服务。

技术上,总共有100多个服务和300多个代码库,部署在超过200个EC2上;服务之间耦合严重;许多服务没有部署流水线、没有测试环境甚至没有源代码;经常需要手工操作生产环境数据库来解决问题;操作系统和软件包版本非常陈旧等。

项目管理上,没有总结和沉淀出完整而清晰的业务和技术文档。

2. 交接内容多、时间短、范围不明确

交接开始前,团队接受到的信息只有100多个服务的名字,内容非常有限;交接的时间周期比较紧张(初步计划只有30个工作日),没有足够的时间去了解到系统的所有功能。

实践

1. 分阶段制定目标、建立重点

我们一般如何衡量一个遗留项目维护的质量呢?

  • 短期:至少做到跟前团队一样。也就是说,在客户团队成员离开时,团队能具备足够的知识和技能来处理线上事故和日常业务工作。

  • 长期:体现Thoughtworks不一样的地方。对项目的业务、技术和发展历史有足够了解,足以给出一个改进计划,在未来一个比较长的时间里落地、给客户带来更大价值。

鉴于项目的复杂度,在有限的交接期内达到这个目标基本是不可能的。但是如果将时间轴拉长,分阶段来实施,就比较容易做出一个切实可行的计划;同时,也能最大化交接期的价值,让团队从第一天起就朝着一个方向努力。

基于此,团队从实际情况出发,将项目分为三阶段:

通过对项目不同阶段目标的一致认识,减少了一些团队在交接期的焦虑与慌乱,从而想出更多创造性的点子,并勇敢的尝试、反馈、迭代,达到各个阶段的目标。

2. 利用C4模型梳理系统架构

通常处理的问题都是业务问题,如果不能把一个个服务放在业务流程中去理解就没有意义。因此,我们在交接完一个独立服务或者若干个有关联的服务后,都会试图用C4模型画出他们的C1(System Context Diagram)和 C2(Container Diagram)两个高级别的图,以可视化的方式展示出系统输入、输出和各服务的依赖关系。

实践证明,画图的过程可以帮助大家更好地吸收碎片化知识,有利于整个团队将知识汇总和沉淀。同时,相比于反复的解释说明,图是一种更有效的语言。

有些比较独立的模块相对比较容易画,但是涉及到不同版本API的支付流程,就需要不断地获取更多的信息来完善,反复跟客户确认。有些环节甚至在交接结束后依旧没能打通或者没时间梳理,只能在交接后,作为深入理解期的目标继续完善。


支付系统C1简化图(简化版)

3. 通过结对在团队内部分享上下文

在第一阶段交接的过程中,我们和客户团队是“1+1”的模式进行知识交接,业务知识是像孤岛一样分散在各个成员那里。另外,我们团队又因为每个人加入项目的时间和技能背景的不同,对一些背景信息、业务上下文、技术实现的掌握有一些差距。

因此,在进入项目交接的第二阶段开始,对于大部分的工作内容,我们都通过结对的方式来进行。根据不同的业务和优先级,我们划分了几个重要的主题,比如:日常需求相关的任务,PCI 相关的任务和生产环境的变更等。我们会通过专长和对服务的熟悉程度分工结对,让这两个人可以成为团队内相应领域的专家。

这样的好处有主要有:保证对应的知识能在团队中传播开来,消除知识孤岛;避免某个成员因为请假导致重要的任务不能进行;重要的线上操作可以多一个人帮忙检查。

在安排 Primary On Call 和 Secondary On Call 的时候,采取“Dev + DevOps”的组合,保证有足够的技能应对线上事故。在线上事故发生的时候,两个人一起结对配合处理。

虽然结对在前期会影响效率,但能确保团队中至少两个人熟悉特定的业务,最终可以让整个团队拥有响应事故的能力。从现在的结果来看,正是这种结对的形式,保证了整个团队的“高可用”。

4. 通过线上事故演练提升团队On Call的信心

7 × 24 小时 On Call 对团队来说,无疑会是一个非常大的挑战。在正式接手系统之前,团队感受到了比较大的压力。这些压力一方面是因为大部分项目成员缺少 On Call 的实战经验,另外一方面因为在交接的第一阶段里,我们缺少对业务实现细节和系统的深入了解。

On Call工程师不仅要参照标准处理流程,还需要在短时间内评估线上问题造成的影响并精准地解决,那么用以前发生过的事故来演练就成了我们在深入理解期的最好的学习方式。

在正式承担On Call的职责前,我们每个迭代都会有一个模拟线上事故处理的活动,主要流程为:

  • 组织者会去从过去的线上故障里挑选一个有代表性的事故来模拟,比如是某一个与其他网关集成服务的事故;

  • 团队约定2个小时来模拟线上事故,组织者还原当时场景,其他成员在不知情的情况下按照自己的理解进行适当的追问;

  • 分成两个小组,根据现有的情况定位问题,并给出解决方案;

  • 组织者进行复盘,梳理相关知识点。

通过以上方式,我们得以快速适应On Call的节奏。到现在为止,我们团队的每个成员都有作为Primary On Call的经验了。

结语

在交接的三个月里,我们持续地改进交接方式,最终将项目成功地从客户团队手中接过。无论是交付主管,还是和我们合作的客户团队都对我们的工作提出了称赞。在摸索交接的过程中,
我们尝试了不同的方式让我们的交接平滑顺利,并将对交接有帮助的实践分享出来,希望对大家有所帮助。


文/Thoughtworks王玥
原文链接:https://insights.thoughtworks.cn/legacy-system-handover/
更多精彩洞见,请关注微信公众号Thoughtworks洞见。

这篇关于如何交接复杂的遗留系统?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/183886

相关文章

Mac系统下卸载JAVA和JDK的步骤

《Mac系统下卸载JAVA和JDK的步骤》JDK是Java语言的软件开发工具包,它提供了开发和运行Java应用程序所需的工具、库和资源,:本文主要介绍Mac系统下卸载JAVA和JDK的相关资料,需... 目录1. 卸载系统自带的 Java 版本检查当前 Java 版本通过命令卸载系统 Java2. 卸载自定

基于Python实现一个简单的题库与在线考试系统

《基于Python实现一个简单的题库与在线考试系统》在当今信息化教育时代,在线学习与考试系统已成为教育技术领域的重要组成部分,本文就来介绍一下如何使用Python和PyQt5框架开发一个名为白泽题库系... 目录概述功能特点界面展示系统架构设计类结构图Excel题库填写格式模板题库题目填写格式表核心数据结构

MySQL复杂SQL之多表联查/子查询详细介绍(最新整理)

《MySQL复杂SQL之多表联查/子查询详细介绍(最新整理)》掌握多表联查(INNERJOIN,LEFTJOIN,RIGHTJOIN,FULLJOIN)和子查询(标量、列、行、表子查询、相关/非相关、... 目录第一部分:多表联查 (JOIN Operations)1. 连接的类型 (JOIN Types)

Linux系统中的firewall-offline-cmd详解(收藏版)

《Linux系统中的firewall-offline-cmd详解(收藏版)》firewall-offline-cmd是firewalld的一个命令行工具,专门设计用于在没有运行firewalld服务的... 目录主要用途基本语法选项1. 状态管理2. 区域管理3. 服务管理4. 端口管理5. ICMP 阻断

Windows 系统下 Nginx 的配置步骤详解

《Windows系统下Nginx的配置步骤详解》Nginx是一款功能强大的软件,在互联网领域有广泛应用,简单来说,它就像一个聪明的交通指挥员,能让网站运行得更高效、更稳定,:本文主要介绍W... 目录一、为什么要用 Nginx二、Windows 系统下 Nginx 的配置步骤1. 下载 Nginx2. 解压

如何确定哪些软件是Mac系统自带的? Mac系统内置应用查看技巧

《如何确定哪些软件是Mac系统自带的?Mac系统内置应用查看技巧》如何确定哪些软件是Mac系统自带的?mac系统中有很多自带的应用,想要看看哪些是系统自带,该怎么查看呢?下面我们就来看看Mac系统内... 在MAC电脑上,可以使用以下方法来确定哪些软件是系统自带的:1.应用程序文件夹打开应用程序文件夹

windows系统上如何进行maven安装和配置方式

《windows系统上如何进行maven安装和配置方式》:本文主要介绍windows系统上如何进行maven安装和配置方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不... 目录1. Maven 简介2. maven的下载与安装2.1 下载 Maven2.2 Maven安装2.

使用Python实现Windows系统垃圾清理

《使用Python实现Windows系统垃圾清理》Windows自带的磁盘清理工具功能有限,无法深度清理各类垃圾文件,所以本文为大家介绍了如何使用Python+PyQt5开发一个Windows系统垃圾... 目录一、开发背景与工具概述1.1 为什么需要专业清理工具1.2 工具设计理念二、工具核心功能解析2.

Linux系统之stress-ng测压工具的使用

《Linux系统之stress-ng测压工具的使用》:本文主要介绍Linux系统之stress-ng测压工具的使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、理论1.stress工具简介与安装2.语法及参数3.具体安装二、实验1.运行8 cpu, 4 fo

ubuntu20.0.4系统中安装Anaconda的超详细图文教程

《ubuntu20.0.4系统中安装Anaconda的超详细图文教程》:本文主要介绍了在Ubuntu系统中如何下载和安装Anaconda,提供了两种方法,详细内容请阅读本文,希望能对你有所帮助... 本文介绍了在Ubuntu系统中如何下载和安装Anaconda。提供了两种方法,包括通过网页手动下载和使用wg