https://github.com/alibaba/arthas
http://arthas.gitee.io/
Arthas 是Alibaba开源的Java诊断工具,深受开发者喜爱。
当你遇到以下类似问题而束手无策时, Arthas 可以帮助你解决:
1、这个类从哪个 jar 包加载的?为什么会报各种类相关的 Exception?
2、我改的代码为什么没有执行到?难道是我没 commit?分支搞错了?
3、遇到问题无法在线上 debug,难道只能通过加日志再重新发布吗?
4、线上遇到某个用户的数据处理有问题,但线上同样无法 debug,线下无法重现!
5、是否有一个全局视角来查看系统的运行状况?
6、有什么办法可以监控到JVM的实时运行状态?
7、怎么快速定位应用的热点,生成火焰图?
Arthas 支持JDK 6+,支持Linux/Mac/Winodws,采用命令行交互模式,同时提供丰富的 Tab 自动补
全功能,进一步方便进行问题的定位和诊断。
wget https://arthas.aliyun.com/arthas-boot.jar;
java -jar arthas-boot.jar
因为文件是绿色版本,直接删除安装目录既可
rm -rf ./arthas # 隐藏目录
rm -rf logs/ # 日志目录
监控指定类中方法的执行情况
用来监视一个时间段中指定方法的执行次数,成功次数,失败次数,耗时等这些信息
参数说明
方法拥有一个命名参数 [c:],意思是统计周期(cycle of output),拥有一个整型的参数值
监控demo.MathGame类,并且每5S更新一次状态。
monitor demo.MathGame primeFactors -c 5
监控的维度说明
方法执行数据观测,让你能方便的观察到指定方法的调用情况。
能观察到的范围为:返回值、抛出异常、入参,通过编写OGNL 表达式进行对应变量的查看。
参数说明:
watch 的参数比较多,主要是因为它能在 4 个不同的场景观察对象
这里重点要说明的是观察表达式,观察表达式的构成主要由ognl 表达式组成,所以你可以这样写"{params,returnObj}",只要是一个合法的 ognl 表达式,都能被正常支持。
特别说明:
watch 命令定义了4个观察事件点,即 -b 方法调用前,-e 方法异常后,-s 方法返回后,-f 方法结束后
4个观察事件点 -b、-e、-s 默认关闭,-f 默认打开,当指定观察点被打开后,在相应事件点会对观察表达式进行求值并输出
这里要注意方法入参和方法出参的区别,有可能在中间被修改导致前后不一致,除了 -b 事件点 params 代表方法入参外,其余事件都代表方法出参
当使用 -b 时,由于观察事件点是在方法调用前,此时返回值或异常均不存在
通过watch命令可以查看函数的参数/返回值/异常信息。?
案例:
# 查看方法执行的返回值
watch demo.MathGame primeFactors returnObj
# 观察demo.MathGame类中primeFactors方法出参和返回值,结果属性遍历深度为2。
# params:表示所有参数数组(因为不确定是几个参数)。
# returnObject:表示返回值
watch demo.MathGame primeFactors "{params,returnObj}" -x 2
查看执行前参数:
# -b 方法执行前的参数
watch demo.MathGame primeFactors "{params,returnObj}" -x 2 -b
# 查看方法中的属性
watch demo.MathGame primeFactors "{target}" -x 2 -b
查看某一属性的值
watch demo.MathGame primeFactors "{target.illegalArgumentCount}" -x 2 -b
检测方法在执行前-b、执行后-s的入参params、属性target和返回值returnObj
watch demo.MathGame primeFactors "{params,target,returnObj}" -x 2 -b -s -n 2
输入参数小于0的情况:
watch demo.MathGame primeFactors "{params[0],target}" "params[0]<0"
对方法内部调用路径进行追踪,并输出方法路径上的每个节点上耗时。
简介:
trace 命令能主动搜索 class-pattern/method-pattern 对应的方法调用路径,渲染和统计整个调用链路上的所有性能开销和追踪调用链路。
观察表达式的构成主要由ognl 表达式组成,所以你可以这样写"{params,returnObj}",只要是一个合法的 ognl 表达式,都能被正常支持。
很多时候我们只想看到某个方法的rt大于某个时间之后的trace结果,现在Arthas可以按照方法执行的耗时来进行过滤了,例如trace *StringUtils isBlank '#cost>100'表示当执行时间超过100ms的时候,才会输出trace的结果。
watch/stack/trace这个三个命令都支持#cost耗时条件过滤
参数说明:
案例:
# trace函数指定类的指定方法
trace demo.MathGame run
# 执行1次后退出
trace demo.MathGame run -n 1
# 默认情况下,trace不会包含jdk里的函数调用,如果希望trace jdk里的函数。
# 需要显式设置--skipJDKMethod false。
trace --skipJDKMethod false demo.MathGame run
# 据调用耗时过滤,trace大于0.5ms的调用路径
trace demo.MathGame run '#cost > .5'
# 可以用正则表匹配路径上的多个类和函数,一定程度上达到多层trace的效果。
trace -E com.test.ClassA|org.test.ClassB method1|method2|method3
输出当前方法被调用的调用路径
很多时候我们都知道一个方法被执行,但这个方法被执行的路径非常多,或者你根本就不知道这个方法是从那里被执行了,此时你需要的是 stack 命令。
参数说明
案例:
# 获取primeFactors的调用路径
stack demo.MathGame primeFactors
# 条件表达式来过滤,第0个参数的值小于0,-n表示获取2次
stack demo.MathGame primeFactors 'params[0]<0' -n 2
# 据执行时间来过滤,耗时大于0.5毫秒
stack demo.MathGame primeFactors '#cost>0.5'
time-tunnel 时间隧道。
记录下指定方法每次调用的入参和返回信息,并能对这些不同时间下调用的信息进行观测
简介:
watch 虽然很方便和灵活,但需要提前想清楚观察表达式的拼写,这对排查问题而言要求太高,因为很多时候我们并不清楚问题出自于何方,只能靠蛛丝马迹进行猜测。
这个时候如果能记录下当时方法调用的所有入参和返回值、抛出的异常会对整个问题的思考与判断非常有帮助。
于是乎,TimeTunnel 命令就诞生了。
作用:记录指定方法每次调用的入参和返回值,并后期还可以对这些信息进行观测
参数解析:
-t
tt 命令有很多个主参数,-t 就是其中之一。这个参数表明希望记录下类 *Test 的 print 方法的每次执行情况。
-n 3
当你执行一个调用量不高的方法时可能你还能有足够的时间用 CTRL+C 中断 tt 命令记录的过程,但如果遇到调用量非常大的方法,瞬间就能将你的 JVM 内存撑爆。
此时你可以通过 -n 参数指定你需要记录的次数,当达到记录次数时 Arthas 会主动中断tt命令的记录过程,避免人工操作无法停止的情况。
案例:
# 最基本的使用来说,就是记录下当前方法的每次调用环境现场。
tt -t demo.MathGame primeFactors
字段说明:
# 对现有记录进行检索
tt -l
# 需要筛选出 `primeFactors` 方法的调用信息
tt -s 'method.name=="primeFactors"'
# 查看某条记录详细信息
tt -i 1002
不知道大家是否有在使用过程中遇到以下困惑
Arthas 似乎很难区分出重载的方法
我只需要观察特定参数,但是 tt 却全部都给我记录了下来
条件表达式也是用 OGNL 来编写,核心的判断对象依然是 Advice 对象。除了 tt 命令之外,watch、trace、stack 命令也都支持条件表达式。
解决方法重载
# 指定入参的长度=1
tt -t *Test print params.length==1`
# 指定入参的类型
tt -t *Test print 'params[1] instanceof Integer
# 指定固定的入参值
tt -t *Test print params[0].mobile=="13989838402
tt 命令由于保存了当时调用的所有现场信息,所以我们可以自己主动对一个 INDEX 编号的时间片自主发起一次调用,从而解放你的沟通成本。此时你需要 -p 参数。通过 --replay-times 指定 调用次数,通过 --replay-interval 指定多次调用间隔(单位ms, 默认1000ms)。
tt -i 1002 -p
# 再重新调用3次
tt -i 1002 -p --replay-interval 3
# 再重新调用3次,并且间隔2S
tt -i 1008 -p --replay-times 3 --replay-interval 2000
# 在浏览器上进行登录操作,检查最耗时的方法
trace *.DispatcherServlet *
# 可以分步trace,请求最终是被DispatcherServlet#doDispatch()处理了
trace *.FrameworkServlet doService
# trace结果里把调用的行号打印出来了,我们可以直接在IDE里查看代码(也可以用jad命令反编译)
jad 类的全路径,即可查看生产环境的class文件是否是最新的文件
jad cn.tpson.module.service.doDispatch
watch com.itheima.controller.* * {params,returnObj} -x 2
结论
通过trace, jad, watch最后得到这个操作由2个控制器来处理,分别是:
com.itheima.controller.UserController.login()
com.itheima.controller.StudentController.findAll()