百度搜索Query-图片 质量评估标准

官方文档 思享 3953浏览

介绍

什么是相关性分档

相关性分档是评价一个Query与一张图片所表达的内容是否一致或在多大程度上一致。

图片Query相关性分档的任务综述

标注需要关注哪些问题?

  • 多义Query:如“苹果”,存在若干个属性:手机品牌、一种水果、电影的名字;在标注时,图片与任何一个意思的“苹果”相关,即为相关,不需要考虑需求主次;
  • 图片质量:分档标注时, 对于最高档, 需要是清晰高质量大图, 其它档不考虑图片质量(主要是指图片的尺寸大小、图片的清晰程度、图片是否有水印,通俗的说法就是 图片好看不好看,清不清楚),只考虑文字上是否相关;
  • 页面内容中的图文不符或者作弊等情况:如果网页文本对图片的描述和图片真实内容不符,需要按照图片内容本身来判断。 例如用户搜杨幂, 该网页文本描述某图片为杨幂, 但是该图片其实不是杨幂, 则判断该图片内容与搜索目的无关
  • 当Query是有错别字:就按照用户输入的错别字来判断,不去考虑用户搜索意图和原来正确的字,就按照用户错别字来评;如错别字无法理解,可以抛弃Query;
  • 色情Query: 当做普通Query来标注, 无需特殊处理

一些专有名词解释

  • Query:也可称查询词、关键词、搜索词,指用户输入到搜索框想要查找的字、词、符号等。
  • 作弊:用户或者网站人员出于不同目的,故意将图片的描述写错,如用户在自己的相册中,将一批不是杨幂的图都写上“杨幂”这样的字样描述,此类行为会叫做作弊。

相关性分档4档的判断标准

分档总体说明

小结:2、3档为相关档; 1档为模糊关联档(同属于人物, 建筑等大类, 但与Query特指的内容无关), 0档为完全不相关档,需要牢记相关和不相关的界限:

2、3和0、1档的判断的大原则:图片中未出现Query所表达的内容,则列入0、1档;图片中出现Query所表达的内容,列入2、3档;

分档 含义 举例
3档 最相关,图片与Query完全相关,图片=Query,没有明显的干扰信息 刘欢

Query:刘欢

2档 较为相关,图片能部分解释Query,或者说图片出现了Query所描述的内容,但是图片上存在另外一些Query未提及的不相关因素的干扰

刘欢Query:刘欢

1档 较为不相关,图片与Query存在联系,通过这个图片能联想到Query,但是图片与Query的相互解释的能力较弱;如果搜的是人物, 显示的是其它人物, 则为此档。

刘欢女儿Query:刘欢

0档 完全不相关, 搜人物, 出水果这种情况

苹果Query:刘欢

各分档的标注细则说明

下面对各档的典型情况进行分别解释。

3档说明

  • Query与obj完全相关,且无其他不相关元素的干扰, 高质量非小图;主观上判断的一个方法是:看到这个图片能否直接联想到这个Query

3档典型case举例:

Query 图片 说明
凯利莱酒店 ?凯利莱大酒店 图片是该Query下典型的图片,从图片得到的信息与Query一致,判为3分;
如果是小图, 则降为2分。
恶搞关羽 ?恶搞关羽 图片完全符合Query,有恶搞,也有关羽,判为3分。
张宇 ?张宇 图片中的美女叫张宇,符合Query,判为3分;虽然大多数人搜张宇这个Query是为了看明星张宇的图片,但是基础相关性不考虑用户目的
?马 不区别对待艺术形式,内容主体就是马,判为3分;类似的,如果是出现马的手工玩具,也是判为3分。
秘密花园 ?秘密花园 该图是《秘密花园》的经典场面图,判为3分。
影视剧,动漫等Query的海报,经典画面截图都可以判为3分。

2档说明

  • 图片描述的是Query代表内容的非典型内容;如查询酒店,提供该酒店的内部装修,而不是酒店门面;
  • 图片描述的是Query代表内容的一部分,如搜“北京大学”,图是北京大学一个体育场,一个教室,一个草坪,这类的情况;
  • 图片中有其他信息的干扰,即图片中有一部分内容,Query中未提及;例如搜人物出现合影

2档典型case举例:

Query 图片 说明
2ne1 ?2ne1 Query找的是一个组合的名字,图片出来的其中一个成员,部分满足判为2分;
如果出现的是组合+其他人,也是判为2分;如果出现的是组合中的某个成员跟其他不相关的人的合影,也判为2分。
广州证券有限责任公司 ?广州证券有限责任公司 图片是该公司的前台,非该公司典型图片,判为2分。
仿制建筑物 ?仿制建筑物 图片中有明显的游人干扰,判为2分。
宋祖英的豪宅 ?宋祖英的豪宅 图片虽然没有拍清楚,但是宋祖英的豪宅在一片房子中间,出现在图片中,判为2分。
收费站 ?收费站 漫画的形式的收费站在图片中有体现,图片还有其他信息Query未提及,如汽车;判为2分。

1档说明

图片的内容与Query特指内容无关, 但与该特指内容属于一大类事物;

  • 图片表达的信息,只与Query中存在类别上的一致性, 但并不包含Query的信息,判为1档;
  • Query描述较泛泛,没有精确到具体的事物,是一个范围,则同属于这个范围的obj起码都认为有略微相关;

如,媒体漫画,如果出的是水彩画,判为1;

如,纽维手机游戏,对于xbox, psp游戏,判为1;

  • Query描述了具体的需求,如“坦克世界登陆界面”,出飞机着陆图,可以判为1;

1档典型case举例:

Query 图片 说明
小破孩离家出走 ?小破孩离家出走 Query是指离家出走的表情,且是小破孩系列的,最为相关。这张图不是离家出走,但是是小破孩系列的,判为1。
高字 ?高字 图上是一个塔,和“高字”是2个不同是事物,归入1、0档;但是由于塔形似高字,因此存在一定联系,判为1。
机器猫 纹身 ?机器猫 纹身机器猫 机器猫图案的纹身最为相关,图片不满足 纹身,但是出现了机器猫的图案,因此判为1。
杨幂 ?杨幂 非本人,但显示的是人像,判为1分。
华为p1 ?华为p1 同为手机,1分, 但是如果出来一盆花, 则为0分

0档说明

图片中未出现与Query相关的或者可联想的内容,则判为0档;

0档典型case举例:

Query 图片 说明
上海厨卫展门票 ?上海厨卫展门票 图片既不是门票,也没有体现出厨卫展相关信息,完全无关,判为0分。
团校队徽 ?团校队徽 图片与 队徽类、团校都不相关,完全无关,判为0分。
校车

 

校车 完全无关,判为0分。

 

  • 容易有疑问的几类Query分档说明
  • 地名类分档规则说明

对于“中国”、“日本”这类Query,很少有某张图片能直接联想到对应的Query,此类Query下的打分规则如下:

  • 该地的地图、国旗、景点(就像北京的故宫,日本的富士山)、建筑、国家领导人、等典型事物,图片上有明显国家语言文字的东西(如汉字书法,日文),判为3分;
  • 国家的文化产物(书、电影、电视剧、动漫等)、小的景点、日本的人物、新闻图片等,可以判为2分;Query是图片表达内容的一个形容词,判为2;
  • 完全无关的,判为0分。
Query 图片 说明
日本 ?日本 图片是富士山,是日本的典型景点,判为3;
日本 ?日本 图片是个“日本料理”,主要说的是食物,日本是这张图片的一个形容词,看到图片不会直接联想到日本,北欧, 中国也有生鱼片,判为2;

 

  • 具体的场所、机构的Query打分规则

类似于“广州证券有限责任公司”、“永昌六中照片”、“玉渊潭公园”这类Query

  • 对于典型的、显著的标志性图片,如logo、大门、建筑外观,判为3;
  • 场所中的一部分照片,无典型特征,如校园中的一棵树,判为2;
  • 公司出产的产品,学校的学生,这些不是直接表现Query,但是有一定联想关系的,判为1分;
  • 无关的,判为0分。
Query 图片 说明
湖北开放职业学院

?湖北开放职业学院学校的校徽学校的校徽

学校的全景,校徽、logo等判为3
湖北开放职业学院 湖北开放职业学院 校园一角,能看到校园的一些建筑、教室等信息,但是不典型,判为2
青光中学 ?青光中学 图片是青光中学的一个学生,有一定联系,判为2;

关于人物的打分

类似于“杨幂”“苍井空”的单个人物的Query

  • 对于典型单人照,符合Query要求的,如海报、写真、活动照片,或者Q版形象等,均可判为3分;
  • 从图片中看不出来,但是从网页文字部分可判断的,判为2分;
  • 对于她跟别人的合影,则形成干扰,也判为2分;
  • 对于显示的是人物,判为1分;
  • 无关, 出水果, 建筑,判为0分;

类似于S.H.E”“少女时代”这类组合或者多人的Query

  • 对于典型合照,符合Query要求的,如海报、写真、活动照片,或者Q版形象等,均可判为3分;
  • 图片的组合人员都在,但是掺杂了其他无关人员的图片,判为2分;
  • 图片只有部分成员的,不含无关人员,部分满足Query,判为2分;
  • 图片只有部分成员,不齐全,还掺杂了其他无关人员的,判为2分;
  • 非演艺或明星人物,判为0分;
Query 图片 说明
徐静蕾 ?徐静蕾 图中除了徐静蕾,还有其他人,未在Query中体现,判为2;
阿sa ?阿sa 图片是阿娇,不是阿sa,判为1;
杨幂 ?杨幂 图为刘恺威,是绯闻男友,,判为1;

关于楼盘地段的打分

类似“东海闲湖城”“四季花城”这类楼盘街区的Query

  • 整体图,规划效果图,均可以判为3分;
  • 楼内或者街区内的房子室内图,户型图,可以判为2分;
  • 这个楼盘地段上发生的事件图片,判为1分;
  • 其他不能从图片看出的,无关的,判为0分。
Query 图片 说明
东海闲湖城 ?东海闲湖城 典型的小区效果图,判为3
东海闲湖城 东海闲湖城东海闲湖城 室内图,属于这个楼盘的一部分,只能判为2;
户型图,也只能反映这个楼盘的部分信息,只能判为2;
但是如果不是这个楼盘的, 则为1分
东海闲湖城 从来源页更多的信息可以看到,这是一个这个楼盘的售楼场景,图中未体现这个楼盘的相关信息,判为1

关于实物的的打分

类似“汽车”“电脑”这类Query

  • 整体的汽车或者能看到绝大部分的外部整体图片,可以打3分;
  • 局部图,如车内装饰,座位,底部等,可以打2分;
  • 零部件,相关的服务,可以打2分;
  • 如果是这些实物是别的物品的点缀,不是主体本身,如衣服上印着一辆汽车的图案,或者品牌不同,判为1分
  • 无关的打0分
Query 图片 说明
宝马 ?宝马 源网页在介绍宝马一款车,这张图是一张内饰图,不够典型,判为2;
n880s主板 ?n880s主板 Query是指n880这个手机的主板,图片是这款手机,从图上未看到主板的信息,相关度较低,判为1;

关于影视动漫的的打分

类似“步步惊心”“海贼王”这类Query

  • 海报,经典画面截图,剧照等,能直观反映Query表达内容的,判为3分;
  • 普通截图,没有明显标识的,拍摄花絮照、宣传活动照等,相关联但不是最匹配的,判为2分;
  • 相关主演的非剧中照,可以判为1分,
  • 无关的打0分。
Query 图片 说明
屋塔房王世子 ?屋塔房王世子 相关演员的照片,非剧照,与电视剧相关度低,判为1;
屋塔房王世子 ?屋塔房王世子 是剧照,但是经过ps,且剧照本身也不典型,判为2
金太郎的幸福生活 ?金太郎的幸福生活 不是剧照,是电视剧的宣传活动照片,判为2;

关于网站类型Query的打分

  • 类似“淘宝”“新蓝网”这类Query
  • Logo,主页截图,判为3分;
  • 网站物品,相关内容等,是组成Query内容的部分的,判为2分;
  • 其它明显网站信息,判为1分;
  • 非网站信息,0分
Query 图片 说明
淘宝 ?淘宝 淘宝网相关界面,判为3分
淘宝 ?淘宝 淘宝网商品,与淘宝相关,却又不是最直接体现的,判为2分
新蓝网 ?新蓝网 图片为新蓝网内容图片,判为3分

其他说明

并不是所有的图片都有明确的4档之分,对于一些特殊Query,可能只有相关和不相关之分,结果只存在于两个档里面。

标注过程中的注意点强调

图片的信息中含有与Query中同样的文字不一定相关

Query 图片 说明
两个猪头 ?两个猪头两个猪头 不是真实的两个猪头,即不包含Query信息(非4分3分),但是是两个被比喻成猪头的人, 有关联, 标1分

需要打开源网页去了解图片信息

分档标注的时对图片内容的了解不能依赖于图片下方的文字描述,因为这部分信息可能提取有误,对本人不了解信息的图片,需要打开源网页了解图片信息。

当Query表达的含义有多义时,与任意一个意思相关,即为相关

分档标注的时候会遇到一词多义的现象,例如人名,不管是明星,还是普通人,只要符合Query的都统一打分。

Query 图片 说明
小葡萄 ?小葡萄 不知名的叫“小葡萄”的小朋友,判为3
?小葡萄 知名的“小葡萄”小朋友,判为3;

小葡萄植物的小葡萄

植物的“小葡萄”,判为3;

不理解Query意思的情况下下,可以通过多个搜索引擎去看下Query的意思,同时,不要刻意曲解Query表达的原本意义。例如鞋子卡通图片,正常的理解就是“鞋子的卡通画形式的图片”,但是通过某些简单词的补充可能会理解为“鞋子上的卡通图片”,这就产生了偏差。后一种的理解是刻意去扭曲原来的意思的。

这与“小葡萄”这种情况不属于一类,不认为存在多义;仅从“鞋子的卡通画形式的图片”这个方面进行评估。

关于干扰信息的说明

一般图片中会出现其他除了Query所描述内容外的其他内容,需要看图片中的不相关的那部分是否对相关的那部分造成了干扰;

有些Query是需要借助其他东西辅助展示的,有助于Query内容表达,例如衣服,这时候,衣服模特就不成为干扰了。

Query 图片 说明
公交车 ?公交车 图片中的行人信息,对图片描述主体“”造成了干扰,判为2;
外套 ?外套 服装搭配类Query中,obj中的模特,是帮助表达的,不算干扰,判为3.

 

推荐阅读

图片的hoverimg和outimg属性对优化有什么影响?

hoverimg和outimg主要影响的是用户的浏览体验,对提图没有什么影响。 相关SEO术语解释: 信息图: 一种以视觉方式呈现信息的方法,旨在轻松快速地阅读。它们比传统文章更具吸引力,因为它们以简单的方式传达复杂的数据。这种类型的内容传达的信息更......

怎么把图片转换成base64字符串

我们看到有些图片的地址是data:image/png开头的一串字符串,这其实是图片转换成base64字符串了。这种方式的好处是不用再去请求图片,节省时间,提交效率。那么我们怎么样图片转换成base64字符串呢?很简单,我们日常用的浏览器就可以轻松帮我......

怎么获取网站全屏的截图

老蒋遇到一个网友在修改网上找到的目录网站源码,但是缩略图好像有点问题,原先的程序中的缩略图调用已经失效,需要更换新的提供网站缩略图的接口。其实这类网站,如果能直接将网站缩略图缓存到服务器中就更加精准,以后也不用担心找不到接口的问题。不过图片缓存到本地......