继续分享Q系列文章,今天分享Q-BENCH。
简单来说,作者对MLLMs在lowlevel领域中的评价提出了一个测试基准,主要分三点进行讲述。
有点类似于综述,显然作者团队在MLLM的lowlevel领域属于开山之作了。
第一个基准叫感知Perception
简单来说,Perception就是模型对语言文本评价的回答,yes or no。high or low。等等二分类或者多分类的回答。
第二个基准叫做Description
Description就是对图像内容的评价,后面作者在Q-instruct中提出了这种回答的基准,更加规范了模型的回答。
第三个基准叫做Assessment
Assessment就是模型直接对图片的打分评价,0-100分。
这三个基准如上图abc还是比较好理解的。