NAS文件被删除问题排查
一、问题现象
客户业务方反馈服务器上挂载的nas文件被删除,业务中许多文件丢失,业务受到严重影响。需要我方协助排查。
二、问题背景
该nas挂载到两台业务服务器上,后端应用为java应用,存储内容为jpg、png、xls等格式的文件
三、排查思路
1.查看服务器系统日志、用户日志都没有相关删除的记录
2.阿里云后台可以查看到相关文件删除的时间点以及执行删除操作的客户端IP,为nas挂载的两台后端服务器的ip,跟阿里云确认NAS本身不存在问题,文件确实是由这两台服务器异常删除的
3.尝试安装systemtap工具,由于系统gcc版本不支持,导致脚本无法运行
4.一番周折后,决定使用系统审计工具audit来记录删除操作的日志
安装步骤
yum install audit
auditctl -a always,exit -S 87 -S 263
systemctl start auditd
5.安装完成后,日志记录/var/log/audit/audit.log
6.问题复现后,查看日志,在每条删除操作前,会有对应的java进程的执行记录,确认是应用代码内做了删除逻辑。提供给开发进行代码排查