gin框架连接mysql数据库连接池泄露

琉璃2年前技术文章2167

1、故障爆发


12月1号上午10点出头,我们收到阿里云监控告警:客户官网探测异常,如图所示:


image.png

然后我们DBA查看了后端数据库实例,发现数据库连接已经被用尽了,导致服务出现异常,如图所示:


image.png


当时我们和客户协商之后决定对数据库会话进行kill处理,如图所示:


image.png


经过临时处理之后,应用恢复正常,如图所示:


image.png


2、再次出现故障


在14:16分,客户再次联系我们,反馈成有部分接口超时,如图所示:


image.png


由于客户的服务底层代码为Go,我们之前建议过把代码里面加入pprof进行debug,否则出现问题我们没有办法看底层的线程池和堆栈信息。但是客户还没有把pprof加入到代码中,在这种情况下,我们尝试通过tcpdump抓取网络包,用来分析go应用到底在干什么。通过wireshark解包后,我们发现了异常情况:go应用和mysql数据库之间进行了大量的TCP Keep-Alive网络包交互,但是没有正常的SQL查询交互,如图所示:


image.png


我当时就判断:应该是go应用存在数据库连接池泄露,导致应用的数据库连接池用尽,最终出现如上图的情况,只有TCP Keep-Alive,没有正常的交互SQL。但是因为没有pprof,再加上是业务高峰期,我们无法定位到泄露代码。客户临时重启应用进行修复。


3、业务低谷问题复现


加入pprof之后,我们跟踪了goroutine,根据跟踪的图,我们还是没有办法定位到故障代码,如图所示:

image.png

这种情况下,问题似乎走入了死胡同。我想了一下:我们之前网络抓包的时候,应用已经处于假死状态了,导致我们无法看到到底是因为什么SQL导致的,如果我们把应用重启,在服务刚开始的时候就进行网络抓包,应该是能抓到问题SQL。我们再次进行抓包,这次发现了异常SQL:每个连接数据库的TCP连接,最终退出的时候,都执行了开启事务。如图所示:


image.png


最终定位到问题代码为以下代码,如图所示:


image.png


我们当时建议在判断if err的时候,添加回滚操作。但是客户还是想深入排查为什么会出现此bug。


4、彻底解决bug


我再次分析了网络包,发现出现问题的TCP线程池为101个。而我们在pprof跟踪的图上面刚刚好看到对应数量的goroutine: runtime goparkunlock,这个goroutine的最上级是 sql(*Tx)awaitDone。如图所示:

image.png

我们使用谷歌搜索了:sql(*Tx)awaitDone,发现很多人也遇到这种问题,而点赞最高的回答,如图所示:

image.png

func (s Service) DoSomething() (err error) {
    tx, err := s.db.Begin()
    if err != nil {
        return
    }
    defer func() {
        if err != nil {
            tx.Rollback()
            return
        }
        err = tx.Commit()
    }()
    if _, err = tx.Exec(...); err != nil {
        return
    }
    if _, err = tx.Exec(...); err != nil {
        return
    }
    // ...
    return
}

image.png

func Transact(db *sql.DB, txFunc func(*sql.Tx) error) (err error) {
    tx, err := db.Begin()
    if err != nil {
        return
    }
    defer func() {
        if p := recover(); p != nil {
            tx.Rollback()
            panic(p) // re-throw panic after Rollback
        } else if err != nil {
            tx.Rollback() // err is non-nil; don't change it
        } else {
            err = tx.Commit() // err is nil; if Commit returns error update err
        }
    }()
    err = txFunc(tx)
    return err
}

image.png

func (s Service) DoSomething() error {
    return Transact(s.db, func (tx *sql.Tx) error {
        if _, err := tx.Exec(...); err != nil {
            return err
        }
        if _, err := tx.Exec(...); err != nil {
            return err
        }
        return nil
    })
}

最终客户采用的解决方案也是stackoverflow.com高赞回答,如图所示:


image.png


客户解决bug后通过测试回复,如图所示


image.png


5、总结


其实问题的根源原因就是在线程中开启了事务,但是在线程出现panic的时候,未做事务回滚处理。由于gin框架会自动recover发生panic的线程,最终导致数据库线程池的泄露。


相关文章

docker日志切割

docker日志切割

如果在docker部署前期没有规划好,例如:没有提前配置容器日志切割,那么在后期容器日志就会越来越大,当想要通过日志查看相关报错等信息的时候就会比较麻烦。配置docker日志切割在/etc/docke...

Scheduler调度器

一、论 Pod 调度在 kubernetes 中,无论是 Deployment、Statefulset 等多种控制器,它最终都是创建 Pod,在 Pod 创建是需要被调度到 Kubernetes 集群...

MySQL运维实战(4.4) SQL_MODE之STRICT_TRANS_TABLES和STRICT_ALL_TABLES

如果设置STRICT模式,则如果数据写入时,如果数据不符合字段定义(字符串超出长度、数值类型数据超出范围、违反not null约束等),SQL会报错。如果不设置STRICT模式,会对异常数据进行截断处...

spark与mr的异同

1.MR:抽象层次低,需要使用手工代码来完成程序编写,使用上难以上手;Spark:Spark 采用RDD 计算模型,简单容易上手。2.MR:只提供map 和reduce 两个操作,表达能力欠缺;Spa...

Hadoop3.2.4纠删码实操(三)

Hadoop3.2.4纠删码实操(三)

1、纠删码实操1.在HDFS中建立以下三个目录,并都设置为XOR-2-1-1024k策略。[root@hd2 hadoop]# hadoop fs -mkdir /ec_xor_s SLF4J: C...

数据湖技术之iceberg(十)Structured Streaming实时写入Iceberg

数据湖技术之iceberg(十)Structured Streaming实时写入Iceberg

目前Spark中Structured Streaming只支持实时向Iceberg中写入数据,不支持实时从Iceberg中读取数据,下面案例我们将使用Structured Streaming从Kafk...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。