瑞_Java开发手册_(二)异常日志

发布时间:2024年01月14日

🙊前言:本文章为瑞_系列专栏之《Java开发手册》的异常日志篇,本篇章主要介绍异常日志的错误码、异常处理、日志规约。由于博主是从阿里的《Java开发手册》学习到Java的编程规约,所以本系列专栏主要以这本书进行讲解和拓展,有需要的小伙伴可以点击链接下载。本文仅供大家交流、学习及研究使用,禁止用于商业用途,违者必究!

本系列第一篇链接:(一)编程规约




异常日志的意义

??在Java开发中,异常日志是非常重要的。它记录了程序运行过程中的异常信息,可以帮助开发人员快速定位和解决代码中的问题,提高程序的性能和稳定性。当然了,异常日志也不是万能的。它只能告诉你程序出了什么问题,但没法告诉你为什么会出现这个问题,但有分析方向总比没有强呐。不要把异常日志当成是洪水猛兽,相反,应该把它当成是你的得力助手。当你遇到问题时,让它帮你找出问题的所在;当写完代码时,让它检查可能存在的问题。

??异常日志就是我们程序员的“救命稻草”,想象一下,你正在编写一个复杂的程序,突然出现了一个莫名其妙的错误。这时,优秀的异常日志就像是一根救命稻草,可以帮助我们找到问题的根源。没有异常日志,你可能要因为这个bug困扰几个小时甚至?通宵?。所以想要保住发际线,就需要我们遵守开发手册中的异常日志规约,养成良好的异常日志编写习惯。

在这里插入图片描述

(图源网络)



(一) 错误码

  1. 【强制】错误码的制定原则:快速溯源、简单易记、沟通标准化。
    说明: 错误码想得过于完美和复杂,就像康熙字典中的生僻字一样,用词似乎精准,但是字典不容易随身携带并且简单易懂。
    正例:错误码回答的问题是谁的错?错在哪?
    1)错误码必须能够快速知晓错误来源,可快速判断是谁的问题。
    2)错误码易于记忆和比对(代码中容易 equals)。
    3)错误码能够脱离文档和系统平台达到线下轻量化地自由沟通的目的。

瑞:注意错误码的后三位编号与 HTTP 状态码没有任何关系

  1. 【强制】错误码不体现版本号和错误等级信息。
    说明:错误码以不断追加的方式进行兼容。错误等级由日志和错误码本身的释义来决定。

瑞:文末有附错误码列表,可供参考

  1. 【强制】全部正常,但不得不填充错误码时返回五个零:00000。

瑞:这种约定属大家公认的约定,不要将其用作其它含义,防止误导他人

  1. 【强制】错误码为字符串类型,共 5 位,分成两个部分:错误产生来源+四位数字编号。
    说明:错误产生来源分为 A/B/C,A 表示错误来源于用户,比如参数错误,用户安装版本过低,用户支付超时等问题;B 表示错误来源于当前系统,往往是业务逻辑出错,或程序健壮性差等问题;C 表示错误来源于第三方服务,比如 CDN 服务出错,消息投递超时等问题;四位数字编号从 0001 到 9999,大类之间的步长间距预留 100,参考文末附表。

瑞:文末附表为阿里的《Java开发手册》泰山版《附表3:错误码列表》,仅供参考

  1. 【强制】编号不与公司业务架构,更不与组织架构挂钩,一切与平台先到先申请的原则进行,审批生效,编号即被永久固定。

  2. 【强制】错误码使用者避免随意定义新的错误码。
    说明:尽可能在原有错误码附表中找到语义相同或者相近的错误码在代码中使用即可。

瑞:CV(复制粘贴)大法好

  1. 【强制】错误码不能直接输出给用户作为提示信息使用。
    说明:堆栈(stack_trace)、错误信息(error_message)、错误码(error_code)、提示信息(user_tip)是一个有效关联并互相转义的和谐整体,但是请勿互相越俎代庖。

瑞:尤其是错误信息,经常遇到层层嵌套的情况,建议开发人员不要只测试正例,也要多进行异常值测试

  1. 【推荐】错误码之外的业务独特信息由 error_message 来承载,而不是让错误码本身涵盖过多具体业务属性。

  2. 【推荐】在获取第三方服务错误码时,向上抛出允许本系统转义,由 C 转为 B,并且在错误信息上带上原有的第三方错误码。

  3. 【参考】错误码分为一级宏观错误码、二级宏观错误码、三级宏观错误码。
    说明:在无法更加具体确定的错误场景中,可以直接使用一级宏观错误码,分别是:A0001(用户端错误)、B0001(系统执行出错)、C0001(调用第三方服务出错)。
    正例:调用第三方服务出错是一级,中间件错误是二级,消息服务出错是三级。

  4. 【参考】错误码的后三位编号与 HTTP 状态码没有任何关系。

瑞:常见的 HTTP 状态码可查看Spring框架中的类org.springframework.http.HttpStatus,包含 OK(200)、BAD_REQUEST(400)、NOT_FOUND(404)等

  1. 【参考】错误码尽量有利于不同文化背景的开发者进行交流与代码协作。
    说明:英文单词形式的错误码不利于非英语母语国家(如阿拉伯语、希伯来语、俄罗斯语等)之间的开发者互相协作。

  2. 【参考】错误码即人性,感性认知+口口相传,使用纯数字来进行错误码编排不利于感性记忆和分类。
    说明:数字是一个整体,每位数字的地位和含义是相同的。
    反例:一个五位数字 12345,第 1 位是错误等级,第 2 位是错误来源,345 是编号,人的大脑不会主动地分辨每位数字的不同含义




(二) 异常处理

  1. 【强制】Java 类库中定义的可以通过预检查方式规避的 RuntimeException 异常不应该通过catch 的方式来处理,比如:NullPointerException,IndexOutOfBoundsException 等等。
    说明:无法通过预检查的异常除外,比如,在解析字符串形式的数字时,可能存在数字格式错误,不得不通过 catch NumberFormatException 来实现。
    正例:if (obj != null) {…}
    反例:try { obj.method(); } catch (NullPointerException e) {…}

  2. 【强制】异常不要用来做流程控制,条件控制。
    说明:异常设计的初衷是解决程序运行中的各种意外情况,且异常的处理效率比条件判断方式要低很多。

瑞:应该使用条件语句(如if-else语句)来实现流程控制和条件控制。条件语句的执行效率比异常处理机制要高得多,因为它们不需要创建新的异常对象、抛出异常、捕获异常等操作。此外,条件语句也更加直观和易于理解,可以更好地表达程序的逻辑关系

  1. 【强制】catch 时请分清稳定代码和非稳定代码,稳定代码指的是无论如何不会出错的代码。对于非稳定代码的 catch 尽可能进行区分异常类型,再做对应的异常处理。
    说明:对大段代码进行 try-catch,使程序无法根据不同的异常做出正确的应激反应,也不利于定位问题,这是一种不负责任的表现。
    正例:用户注册的场景中,如果用户输入非法字符,或用户名称已存在,或用户输入密码过于简单,在程序上作出分门别类的判断,并提示给用户。

瑞:总有大聪明为了省事,直接大段catch然后丢Exception💢但是要注意别因为遵守本条而违反上一条

  1. 【强制】捕获异常是为了处理它,不要捕获了却什么都不处理而抛弃之,如果不想处理它,请将该异常抛给它的调用者。最外层的业务使用者,必须处理异常,将其转化为用户可以理解的内容。

瑞:最外层的业务使用者常见为Controller层,即在Controller层要对catch中的error_message进行转义

  1. 【强制】事务场景中,抛出异常被 catch 后,如果需要回滚,一定要注意手动回滚事务。

瑞:CRUD工程师最基本操作

  1. 【强制】finally 块必须对资源对象、流对象进行关闭,有异常也要做 try-catch。
    说明:如果 JDK7 及以上,可以使用 try-with-resources 方式。

瑞:在JDK7 及以上的版本中,推荐使用 try-with-resources 语句来自动关闭资源对象和流对象。这种方式可以简化代码并确保资源被正确关闭,即使在处理异常时也是如此。如下代码所示:

try (FileInputStream fis = new FileInputStream("input.txt")) {
    // 在这里使用 fis 进行文件读取操作
    // ...
} catch (IOException e) {
    // 处理异常
    // ...
}

  1. 【强制】不要在 finally 块中使用 return。
    说明:try 块中的 return 语句执行成功后,并不马上返回,而是继续执行 finally 块中的语句,如果此处存在 return 语句,则在此直接返回,无情丢弃掉 try 块中的返回点。
    反例
    ??private int x = 0;

    ??public int checkReturn() {
    ????try {
    ?????? // x 等于 1,此处不返回
    ?????? return ++x;
    ???? } finally {
    ??????// 返回的结果是 2
    ??????return ++x;
    ???? }
    ?? }

瑞:?? 务必记住本条,巨坑之一??

  1. 【强制】捕获异常与抛异常,必须是完全匹配,或者捕获异常是抛异常的父类。
    说明:如果预期对方抛的是绣球,实际接到的是铅球,就会产生意外情况。

瑞:尽量是完全匹配,无脑抛Exception快乐是快乐,但如果出错,异常问题类型无法精准定位

  1. 【强制】在调用 RPC、二方包、或动态生成类的相关方法时,捕捉异常必须使用 Throwable类来进行拦截。
    说明:通过反射机制来调用方法,如果找不到方法,抛出 NoSuchMethodException。什么情况会抛出NoSuchMethodError 呢?二方包在类冲突时,仲裁机制可能导致引入非预期的版本使类的方法签名不匹配,或者在字节码修改框架(比如:ASM)动态创建或修改类时,修改了相应的方法签名。这些情况,即使代码编译期是正确的,但在代码运行期时,会抛出 NoSuchMethodError。

  2. 【推荐】方法的返回值可以为 null,不强制返回空集合,或者空对象等,必须添加注释充分说明什么情况下会返回 null 值。
    说明:本手册明确防止 NPE 是调用者的责任。即使被调用方法返回空集合或者空对象,对调用者来说,也并非高枕无忧,必须考虑到远程调用失败、序列化失败、运行时异常等场景返回 null 的情况。

瑞:NPE(java.lang.NullPointerException): 空指针异常。

  1. 【推荐】防止 NPE,是程序员的基本修养,注意 NPE 产生的场景:
    1) 返回类型为基本数据类型,return 包装数据类型的对象时,自动拆箱有可能产生 NPE。
    反例:public int f() { return Integer 对象}, 如果为 null,自动解箱抛 NPE。
    2) 数据库的查询结果可能为 null。
    3) 集合里的元素即使 isNotEmpty,取出的数据元素也可能为 null。
    4) 远程调用返回对象时,一律要求进行空指针判断,防止 NPE。
    5) 对于 Session 中获取的数据,建议进行 NPE 检查,避免空指针。
    6) 级联调用 obj.getA().getB().getC();一连串调用,易产生 NPE。
    正例:使用 JDK8 的 Optional 类来防止 NPE 问题。

瑞:真的防止NPE,猿猿有责。不过个人觉得 Optional 类设计有点繁琐,博主一般都是使用条件语句进行判断

  1. 【推荐】定义时区分 unchecked / checked 异常,避免直接抛出 new RuntimeException(),更不允许抛出 Exception 或者 Throwable,应使用有业务含义的自定义异常。推荐业界已定义过的自定义异常,如:DAOException / ServiceException 等。

  2. 【参考】对于公司外的 http/api 开放接口必须使用“错误码”;而应用内部推荐异常抛出;跨应用间 RPC 调用优先考虑使用 Result 方式,封装 isSuccess()方法、“错误码”、“错误简短信息”;而应用内部推荐异常抛出。
    说明:关于 RPC 方法返回方式使用 Result 方式的理由:
    1)使用抛异常返回方式,调用方如果没有捕获到就会产生运行时错误。
    2)如果不加栈信息,只是 new 自定义异常,加入自己的理解的 error message,对于调用端解决问题
    的帮助不会太多。如果加了栈信息,在频繁调用出错的情况下,数据序列化和传输的性能损耗也是问题。

  3. 【参考】避免出现重复的代码(Don’t Repeat Yourself),即 DRY 原则。
    说明:随意复制和粘贴代码,必然会导致代码的重复,在以后需要修改时,需要修改所有的副本,容易遗漏。必要时抽取共性方法,或者抽象公共类,甚至是组件化。
    正例:一个类中有多个 public 方法,都需要进行数行相同的参数校验操作,这个时候请抽取:private boolean checkParam(DTO dto) {…}




(三) 日志规约

  1. 【强制】应用中不可直接使用日志系统(Log4j、Logback)中的 API,而应依赖使用日志框架(SLF4J、JCL–Jakarta Commons Logging)中的 API,使用门面模式的日志框架,有利于维护和
    各个类的日志处理方式统一。
    说明:日志框架(SLF4J、JCL–Jakarta Commons Logging)的使用方式(推荐使用 SLF4J)

    使用 SLF4J:
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
private static final Logger logger = LoggerFactory.getLogger(Test.class);

??使用 JCL:

import org.apache.commons.logging.Log;
import org.apache.commons.logging.LogFactory;
private static final Log log = LogFactory.getLog(Test.class);

瑞:吹爆SLF4J,以下为 logback.xml 配置示例

<?xml version="1.0" encoding="UTF-8"?>
<configuration
        xmlns="http://ch.qos.logback/xml/ns/logback"
        xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
        xsi:schemaLocation="http://ch.qos.logback/xml/ns/logback logback.xsd">
    <appender name="STDOUT" class="ch.qos.logback.core.ConsoleAppender">
        <encoder>
            <pattern>%date{HH:mm:ss.SSS} [%t] %logger - %m%n</pattern>
        </encoder>
    </appender>
    <logger name="com.ray.yourpackage" level="debug" additivity="false">
        <appender-ref ref="STDOUT"/>
    </logger>
    <root level="ERROR">
        <appender-ref ref="STDOUT"/>
    </root>
</configuration>

  1. 【强制】所有日志文件至少保存 15 天,因为有些异常具备以“周”为频次发生的特点。对于当天日志,以“应用名.log”来保存,保存在/home/admin/应用名/logs/目录下,过往日志格式为: {logname}.log.{保存日期},日期格式:yyyy-MM-dd
    说明:以 mppserver 应用为例,日志保存在/home/admin/mppserver/logs/mppserver.log,历史日志名称为 mppserver.log.2016-08-01

瑞:其实15天都不够,空间条件允许的情况下,建议增加天数,毕竟不怕一万就怕万一

  1. 【强制】应用中的扩展日志(如打点、临时监控、访问日志等)命名方式:appName_logType_logName.log。logType:日志类型,如 stats/monitor/access 等;logName:日志描述。这种命名的好处:通过文件名就可知道日志文件属于什么应用,什么类型,什么目的,也有利于归类查找。
    说明:推荐对日志进行分类,如将错误日志和业务日志分开存放,便于开发人员查看,也便于通过日志对系统进行及时监控。
    正例:mppserver 应用中单独监控时区转换异常,如:mppserver_monitor_timeZoneConvert.log

  2. 【强制】在日志输出时,字符串变量之间的拼接使用占位符的方式。
    说明:因为 String 字符串的拼接会使用 StringBuilder 的 append()方式,有一定的性能损耗。使用占位符仅是替换动作,可以有效提升性能。
    正例:logger.debug(“Processing trade with id: {} and symbol: {}”, id, symbol);

  3. 【强制】对于 trace/debug/info 级别的日志输出,必须进行日志级别的开关判断。
    说明:虽然在 debug(参数)的方法体内第一行代码 isDisabled(Level.DEBUG_INT)为真时(Slf4j 的常见实现Log4j 和 Logback),就直接 return,但是参数可能会进行字符串拼接运算。此外,如果 debug(getName())这种参数内有 getName()方法调用,无谓浪费方法调用的开销。
    正例

        // 如果判断为真,那么可以输出 trace 和 debug 级别的日志
        if (logger.isDebugEnabled()) {
            logger.debug("Current ID is: {} and name is: {}", id, getName());
        }
  1. 【强制】避免重复打印日志,浪费磁盘空间,务必在 log4j.xml 中设置 additivity=false。
    正例:<logger name=“com.taobao.dubbo.config” additivity=“false”>

瑞:可参考本小节第一条,土豪请随意

  1. 【强制】生产环境禁止直接使用 System.out 或 System.err 输出日志或使用 e.printStackTrace() 打印异常堆栈。
    说明:标准日志输出与标准错误输出文件每次 Jboss 重启时才滚动,如果大量输出送往这两个文件,容易造成文件大小超过操作系统大小限制。

瑞:不仅仅是在生产环境,开发环境也建议少用这两条输出指令,很多时候出问题就是由于某个死循环中存在这两条语句

  1. 【强制】异常信息应该包括两类信息:案发现场信息和异常堆栈信息。如果不处理,那么通过关键字 throws 往上抛出。
    正例:logger.error(各类参数或者对象 toString() + “_” + e.getMessage(), e);

  2. 【强制】日志打印时禁止直接用 JSON 工具将对象转换成 String。
    说明:如果对象里某些 get 方法被重写,存在抛出异常的情况,则可能会因为打印日志而影响正常业务流程的执行。
    正例:打印日志时仅打印出业务相关属性值或者调用其对象的 toString()方法。

  3. 【推荐】谨慎地记录日志。生产环境禁止输出 debug 日志;有选择地输出 info 日志;如果使用warn 来记录刚上线时的业务行为信息,一定要注意日志输出量的问题,避免把服务器磁盘撑爆,并记得及时删除这些观察日志。
    说明:大量地输出无效日志,不利于系统性能提升,也不利于快速定位错误点。记录日志时请思考:这些日志真的有人看吗?看到这条日志你能做什么?能不能给问题排查带来好处?

  4. 【推荐】可以使用 warn 日志级别来记录用户输入参数错误的情况,避免用户投诉时,无所适从。如非必要,请不要在此场景打出 error 级别,避免频繁报警。
    说明:注意日志输出的级别,error 级别只记录系统逻辑出错、异常或者重要的错误信息。

  5. 【推荐】尽量用英文来描述日志错误信息,如果日志中的错误信息用英文描述不清楚的话使用中文描述即可,否则容易产生歧义。
    说明:国际化团队或海外部署的服务器由于字符集问题,使用全英文来注释和描述日志错误信息。




附:错误码列表

??以下为阿里的《Java开发手册》泰山版《附表3:错误码列表》

错误码中文描述说明
00000一切 ok正确执行后的返回
A0001用户端错误一级宏观错误码
A0100用户注册错误二级宏观错误码
A0101用户未同意隐私协议
A0102注册国家或地区受限
A0110用户名校验失败
A0111用户名已存在
A0112用户名包含敏感词
A0113用户名包含特殊字符
A0120密码校验失败
A0121密码长度不够
A0122密码强度不够
A0130校验码输入错误
A0131短信校验码输入错误
A0132邮件校验码输入错误
A0133语音校验码输入错误
A0140用户证件异常
A0141用户证件类型未选择
A0142大陆身份证编号校验非法
A0143护照编号校验非法
A0144军官证编号校验非法
A0150用户基本信息校验失败
A0151手机格式校验失败
A0152地址格式校验失败
A0153邮箱格式校验失败
A0200用户登陆异常二级宏观错误码
A0201用户账户不存在
A0202用户账户被冻结
A0203用户账户已作废
A0210用户密码错误
A0211用户输入密码次数超限
A0220用户身份校验失败
A0221用户指纹识别失败
A0222用户面容识别失败
A0223用户未获得第三方登陆授权
A0230用户登陆已过期
A0240用户验证码错误
A0241用户验证码尝试次数超限
A0300访问权限异常二级宏观错误码
A0301访问未授权
A0302正在授权中
A0303用户授权申请被拒绝
A0310因访问对象隐私设置被拦截
A0311授权已过期
A0312无权限使用 API
A0320用户访问被拦截
A0321黑名单用户
A0322账号被冻结
A0323非法 IP 地址
A0324网关访问受限
A0325地域黑名单
A0330服务已欠费
A0340用户签名异常
A0341RSA 签名错误
A0400用户请求参数错误二级宏观错误码
A0401包含非法恶意跳转链接
A0402无效的用户输入
A0410请求必填参数为空
A0411用户订单号为空
A0412订购数量为空
A0413缺少时间戳参数
A0414非法的时间戳参数
A0420请求参数值超出允许的范围
A0421参数格式不匹配
A0422地址不在服务范围
A0423时间不在服务范围
A0424金额超出限制
A0425数量超出限制
A0426请求批量处理总个数超出限制
A0427请求 JSON 解析失败
A0430用户输入内容非法
A0431包含违禁敏感词
A0432图片包含违禁信息
A0433文件侵犯版权
A0440用户操作异常
A0441用户支付超时
A0442确认订单超时
A0443订单已关闭
A0500用户请求服务异常二级宏观错误码
A0501请求次数超出限制
A0502请求并发数超出限制
A0503用户操作请等待
A0504WebSocket 连接异常
A0505WebSocket 连接断开
A0506用户重复请求
A0600用户资源异常二级宏观错误码
A0601账户余额不足
A0602用户磁盘空间不足
A0603用户内存空间不足
A0604用户 OSS 容量不足
A0605用户配额已用光蚂蚁森林浇水数或每天抽奖数
A0700用户上传文件异常二级宏观错误码
A0701用户上传文件类型不匹配
A0702用户上传文件太大
A0703用户上传图片太大
A0704用户上传视频太大
A0705用户上传压缩文件太大
A0800用户当前版本异常二级宏观错误码
A0801用户安装版本与系统不匹配
A0802用户安装版本过低
A0803用户安装版本过高
A0804用户安装版本已过期
A0805用户 API 请求版本不匹配
A0806用户 API 请求版本过高
A0807用户 API 请求版本过低
A0900用户隐私未授权二级宏观错误码
A0901用户隐私未签署
A0902用户摄像头未授权
A0903用户相机未授权
A0904用户图片库未授权
A0905用户文件未授权
A0906用户位置信息未授权
A0907用户通讯录未授权
A1000用户设备异常二级宏观错误码
A1001用户相机异常
A1002用户麦克风异常
A1003用户听筒异常
A1004用户扬声器异常
A1005用户 GPS 定位异常
B0001系统执行出错一级宏观错误码
B0100系统执行超时二级宏观错误码
B0101系统订单处理超时
B0200系统容灾功能被触发二级宏观错误码
B0210系统限流
B0220系统功能降级
B0300系统资源异常二级宏观错误码
B0310系统资源耗尽
B0311系统磁盘空间耗尽
B0312系统内存耗尽
B0313文件句柄耗尽
B0314系统连接池耗尽
B0315系统线程池耗尽
B0320系统资源访问异常
B0321系统读取磁盘文件失败
C0001调用第三方服务出错一级宏观错误码
C0100中间件服务出错二级宏观错误码
C0110RPC 服务出错
C0111RPC 服务未找到
C0112RPC 服务未注册
C0113接口不存在
C0120消息服务出错
C0121消息投递出错
C0122消息消费出错
C0123消息订阅出错
C0124消息分组未
C0130缓存服务出错
C0131key 长度超过限制
C0132value 长度超过限制
C0133存储容量已满
C0134不支持的数据格式
C0140配置服务出错
C0150网络资源服务出错
C0151VPN 服务出错
C0152CDN 服务出错
C0153域名解析服务出错
C0154网关服务出错
C0200第三方系统执行超时二级宏观错误码
C0210RPC 执行超时
C0220消息投递超时
C0230缓存服务超时
C0240配置服务超时
C0250数据库服务超时
C0300数据库服务出错二级宏观错误码
C0311表不存在
C0312列不存在
C0321多表关联中存在多个相同名称的列
C0331数据库死锁
C0341主键冲突
C0400第三方容灾系统被触发二级宏观错误码
C0401第三方系统限流
C0402第三方功能降级
C0500通知服务出错二级宏观错误码
C0501短信提醒服务失败
C0502语音提醒服务失败
C0503邮件提醒服务失败



本文是博主的粗浅理解,可能存在一些错误或不完善之处,如有遗漏或错误欢迎各位补充,谢谢

??如果觉得这篇文章对您有所帮助的话,请动动小手点波关注💗,你的点赞👍收藏??转发🔗评论📝都是对博主最好的支持~


文章来源:https://blog.csdn.net/weixin_45988482/article/details/135547389
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。