MSP服务为客户交出满意答卷

云掣YunChe11个月前 (08-23)客户案例567

运维背景

浙江创创鱼信息科技有限公司与我们MSP运维团队已合作了三年以上，随着创创鱼业务系统的稳步发展，业务规模和数据量持续增长，对IT运维体系和能力的要求也不断提高。

在MSP技术团队和创创鱼研发团队的紧密合作和共同努力下，我们在运维能力和流程管理上取得了显著进展，成功保障了创创鱼云上系统的平稳运行。

MSP服务目标

‍

整体的IT规划，实现自动化，实现云原生

我们致力于帮助客户制定并实施全面的IT规划，确保其IT战略与业务需求紧密结合。具体措施包括：

自动化：通过引入和实施自动化工具和流程，减少手动操作，提高效率和准确性，实现无缝运维。

‍‍
云原生：帮助客户实现向云原生架构的转型，充分利用云计算的弹性、可扩展性和高可用性，增强业务灵活性和创新能力。
‍

提供专业的IT技能，延伸企业的IT能力

我们的专业团队为客户提供全面的IT支持，扩展其内部IT能力，确保其在竞争激烈的市场中保持技术领先。具体服务包括：

专业技能支持：提供专家级的技术支持和咨询服务，覆盖网络管理、网络安全、数据库管理、应用开发等多个领域。
‍
技能培训：为客户的IT团队提供定期的技能培训和知识更新，提升其技术水平和问题解决能力，使其能够应对快速变化的技术环境。

‍

持续优化成本

通过精细化的成本管理和优化策略，我们帮助客户有效控制和降低IT支出，实现资源的最佳利用。具体措施包括：

资源优化：通过全面的资源审计和优化，确保IT资源的高效利用，避免资源浪费。
‍
成本管理：实施严谨的成本管理策略，优化IT采购和运营成本，确保每一笔IT支出都物有所值。
‍
云成本优化：运用云成本管理工具和优化策略，帮助客户降低云服务费用，同时提升使用效率和效果。
‍

MSP服务总结

在过去的一年中，我们的MSP运维团队为客户提供了卓越的服务，确保客户业务的稳定高效运行。以下是我们重点完成的事项总结：

专业团队配置

在整个运维服务周期内，我们为客户配备了3位专业的运维工程师，包括2名主力工程师和1名备份工程师，全天候为客户业务保驾护航。

服务领域覆盖

我们从多个关键方向展开工作，全面提升客户的IT环境：

服务性能优化：通过系统调优和资源管理，提升系统性能和响应速度。‍‍
‍
成本优化：优化资源使用和成本管理，帮助客户有效降低IT支出。
‍
运维效能提升：引入自动化运维工具和流程，显著提高运维效率和响应速度。
‍
数据迁移：成功实施多次数据迁移，确保数据安全和业务连续性。
‍
数据恢复：提供快速数据恢复服务，保障客户在数据丢失或损坏时的业务连续性。
‍
数据备份：实施并管理可靠的数据备份策略，确保数据安全和可恢复性。
‍
SQL优化：优化数据库查询和操作，提升数据库性能和稳定性。
‍‍

重点案例成果展示

在过去一年中，我们累计完成了超过400+次的运维事件，涵盖了上述各个方向的具体工作内容，显著提升了客户的IT运营水平。

云资源成本优化

去年运维周期内协助客户完成若干次费用优化，已完成云资源降本20w+，具体如下：

在过去的一年中，我们通过一系列优化措施，帮助客户实现了显著的成本节约和性能提升。以下是几个具体案例：

ECS节点替换降本

阿里云发布实例规格大幅降价公告后，我们对客户现有实例规格进行了评估，确认了ECS成本优化方案。由于旧的k8s节点在不支持新规格的可用区，我们采购了新的节点并逐步替换。

服务配置优化降本

通过优化Java类微服务和Kafka服务配置，k8s集群负载大幅下降，节约了大量CPU资源。在确保资源健康的前提下，新增了约40个前后端应用，相当于节省了2台8C 64G配置的ECS服务器，实现了将近 2万元的成本节约。

审计日志调整降本

针对RDS数据库费用进行分析，发现审计占用较多费用。与客户运维团队沟通后，关闭了部分非必要的实例审计，服务周期内节省了20w+。优化前后费用对比如下：

优化前

优化后

服务性能优化

最近的Kafka版本升级后，虽然ECS资源使用率有所下降，但是我们注意到仍然存在负载过高、服务启动时间过长以及系统响应较慢等问题。经过深入排查和分析，我们发现了以下关键问题，并通过运维优化措施取得了显著的成效：

1）资源调度优化

首先，我们发现order服务和share-stock服务占用了大量的CPU资源。为了有效分散负载，我们通过k8s的反亲和性调度功能，将这两个服务分别调度到不同的k8s节点上。这一步骤显著降低了资源的集中使用，有效提升了系统的稳定性和性能。

2）心跳探针配置修正

进一步分析中，我们发现Java类微服务与kafka服务之间的心跳探针配置存在异常。原本配置的心跳间隔为7秒，但由于参数命名转换失误，实际生效的却是7毫秒，这导致了不必要的CPU资源浪费。针对这一问题，我们及时修正了配置，将心跳间隔调整为正确的7秒。此举大幅度降低了k8s集群的负载，并显著减少了CPU资源的消耗。

本次优化效果对比图如下：

通过以上优化措施，我们不仅有效解决了系统性能问题，还提升了服务的响应效率。这些措施不仅改善了用户体验，也展示了我们在运维管理和系统优化方面的专业能力和价值。

系统稳定性优化

我们在协助客户上线小程序业务时，遇到了CI/CD流程中断退出频繁的问题，严重影响了开发效率和系统稳定性。以下是我们解决问题的过程和取得的成效：

1）问题诊断与定位

初始阶段，我们发现在小程序后端应用进行CI/CD流程发布时，经常出现流程中断退出的情况。通过详细的排查和分析，我们初步定位到并发执行ossutil cp操作导致的bug。这一操作不支持并发执行，导致了流程的不稳定性。

2）Bug修复过程

针对ossutil cp并发执行的问题，我们迅速编写了修复工具，确保操作在不同任务间串行执行，避免了并发导致的流程中断。

3）新问题发现与处理

尽管修复了ossutil cp问题，随后又出现了另一个bug，这次是由Helm在并发处理方面存在问题所致。经过进一步的排查和测试，我们成功解决了Helm的并发问题，确保了CI/CD流程的稳定性和可靠性。

经过以上优化措施的实施，我们的CI/CD发布系统已经稳定运行了约两个月。在此期间，我们不仅解决了流程中断退出的问题，还显著提升了开发发布的效率和可靠性。开发团队可以更专注地进行代码开发和发布，而不再受到频繁的系统问题干扰。

K8S监控系统优化

在为客户自建Kubernetes监控系统的过程中，我们不仅考虑了技术选型和部署实施，还注重了系统的可扩展性和应用的全面覆盖，以下是进一步的详细内容：

1）技术选型与系统部署

我们深入分析客户的需求和现有基础设施，选择了Prometheus作为监控系统的核心组件。通过Prometheus Operator的部署，我们实现了监控规则的自动化管理和资源的动态发现，大大简化了系统的运维管理流程。

2）数据集成与可视化展示

为了确保监控数据的全面性和实时性，我们将多个K8S集群的监控数据整合至VictoriaMetrics中心化存储，并通过Grafana进行统一的可视化展示。客户可以通过Grafana仪表盘轻松查看各个集群的资源利用情况、应用性能指标和系统健康状态。

3）完善监控覆盖和应用

除了基础资源监控外，我们还实施了针对JVM、数据库、网络流量等多个方面的深度监控。通过定制化的监控指标和警报策略，我们帮助客户及时发现和解决潜在的性能瓶颈和安全隐患，提高了系统的稳定性和可靠性。

经过系统的完善和优化，客户的监控能力得到了显著增强，监控系统不仅提升了运维效率，还大幅降低了故障处理的时间和成本。这种持续监控和优化实践，为客户的数字化转型和业务发展提供了可靠的技术支持和保障。

运维效能提升

针对客户小程序相关系统需要根据活动情况进行灵活扩容的需求，我们采取了以下措施，显著提升了运维效能和操作的便捷性：

1）手动计算扩容节点数优化

最初阶段，我们根据监控数据和活动需求，手动计算扩容所需的POD数量和节点数。这种方法虽然有效，但存在一定的人工计算误差和时间成本。

2）制作Excel模板自动化计算

为了优化这一过程，我们开发了一个Excel模板，根据输入的POD数量自动计算出需要扩容的节点数量。这一改进不仅减少了人工计算的错误率，还提高了操作的效率和准确性。

3）编写脚本实现自动化扩容

为了进一步简化操作，我们编写了脚本，实现了程序集群的自动化扩容。这个脚本能够根据Excel模板计算的结果，自动调整集群中的POD数量，确保系统在高负载期间能够快速响应和调整资源。

4）提供详细的操作步骤和文档

为了保证操作的持续性和可维护性，我们提供了详细的扩容操作步骤和文档，让其他团队成员能够轻松理解和执行扩容过程。这些文档涵盖了从Excel模板的使用到脚本的调用，确保了操作的标准化和规范化。

通过以上措施的实施，我们显著提升了客户系统的灵活性和响应能力，尤其是在高活动期间的资源管理效率。自动化计算和执行扩容操作不仅节省了人力成本，还大大缩短了响应时间，确保了系统稳定性和良好用户体验。

数据库恢复演练

我们对DRDS实例进行了恢复演练，这次演练不仅是为了验证数据的安全性，还强化了我们在数据恢复和业务连续性方面的应急响应能力。以下是详细步骤及主动性增强的内容：

1）确定恢复类型和时间点

我们首先确定了恢复的类型，包括全量恢复和部分恢复，以及具体的恢复时间点。这些决策基于我们对系统备份策略和业务需求的深入理解。

2）预演练和预检测

在正式演练之前，我们进行了预演练和预检测，评估并验证了备份数据的完整性和可用性。这些步骤帮助我们提前发现潜在的问题并进行修复，以确保演练的顺利进行。

3）新实例开通和恢复操作

我们启动了新的DRDS实例，模拟实际灾难恢复情境。这次演练强调了快速响应和决策的重要性，确保在紧急情况下能够迅速启动恢复流程。

4）模拟灾难场景

为了增强演练的主动性，我们在演练中模拟了不同的灾难场景和数据丢失情形，以检验我们的恢复策略和流程。这种主动性的练习帮助我们识别和解决潜在的问题，提升了团队在应急情况下的反应能力。

5）业务验证和总结

最后，我们进行了业务数据的验证，确认恢复后系统的正常运行和数据的完整性。同时，我们总结了演练中的经验教训，并调整了备份策略和恢复流程，以进一步优化我们的应急响应能力。

数据库异构迁移

针对客户的需求，我们成功完成了从SQL Server到MySQL的数据库异构迁移，具体步骤和优化如下：

1）需求分析与规划

我们深入了解客户的业务需求，确认了从SQL Server到MySQL的数据库迁移计划。根据客户的项目结构和数据量，制定了详细的迁移方案和时间表。

2）全量数据迁移

我们利用阿里云的DTS（数据传输服务）进行了全量数据迁移。通过DTS的高效传输能力，确保了数据在迁移过程中的完整性和准确性，避免了数据丢失和损坏。

3）自研开发脚本优化

为了进一步优化迁移效率和适应性，我们开发了自动化脚本。该脚本实现了以下功能：

对迁移的表名进行驼峰转换为下划线命名规范，提高了数据库结构的统一性和可读性。
修改表字段的默认值，将原先的NOT NULL修改为NULL，符合目标数据库的设计和业务需求。
‍

我们通过成功的数据库异构迁移案例，为客户的业务运作和数据管理提供了可靠的技术支持和保障，展示了我们在数据库迁移和自动化脚本开发方面的专业能力和创新优势。

来自客户的声音

返回列表

上一篇：MySQL 8.0 新特性深度解析，成为数据库高手的必备！

下一篇：CK集群迁云实施方案