RE数据标注规范与样例
大家好,欢迎大家参与re数据标注。
RE(referring expression)指称表达,指的是一个用来唯一标识图片中某一具体物体的短语。标注时,我会给出3-4个可能合理的re选项供你选择,你可以以多选题的形式进行标注,只要描述的大致合理,就选中。不过也存在一些情况,给出的所有选项都不合理,此时需要你来给出一句针对特定物体的re。具体的描述你可以参考上方的选项以及你标注过的选项。
针对数据标注的细节,我大概列出了以下几点,这非常重要:
- 连上校园网后,登录系统:http://sky77.deepfashion.net:6067/
- 仔细阅读系统提示(如果你用的是webvpn那么可能会显示不出图片)
- 你可以把它当成一道多选题来做
- 为了提供便利,我在每个句子的末尾给出了一个0-1的数字,表示机器对这个短语的理解度,如果机器理解的很好则会趋近于1,反之则会趋近于0,你可以参考(只是参考!)机器给出的分数,优先选择分数高的语句
- 可能存在没有正确答案的情况,此时需要你手动的写出一条(全英文小写)
- 第一次登陆你需要用户名来登录,你可以联系我来给你开通一个账号权限,开通以后输入你名字的英文全称就可以了。
- 第一次登陆后,前十题,请每一题都截图发在群里(或私发给我),做完十题一次性的发给我,我帮你检查一下是否有问题
- 请尽量避免刷新页面的操作
- 我们会在标注任务结束后,按照一题0.15元的费用发放给你作为你的劳务费用
- 为了保证标注质量,我们会在标注完成后检查同学的标注情况,如果存在明显的质量问题导致你所标的题目需要重新标注,我们会在你的劳务中进行扣除(请不用担心,只要你是认真标注的,肯定是不会有问题的!)
- 刚开始做可能会比较慢,做熟练以后,正常的速度应该平均在每分钟4-8题的样子
下面给出一些范例供你参考,在目前的系统中还增加了机器提供的置信度帮助你更快的判断有效的句子
![image-20230103132349310](https://img-1300769438.cos.ap-beijing.myqcloud.com/images/202301031323340.png)
有时候所有选项都描述的不够准确,此时你应该在文本框中补充一条准确描述,如下所示:![image-20230103133522549](https://img-1300769438.cos.ap-beijing.myqcloud.com/images/202301031335591.png)
有时候你会觉得你可以比选项中描述的更好,此时你可以在选择选项的同时,再补充一条你认为更准确的描述,这也是可以的。如下所示
![image-20230103132614304](https://img-1300769438.cos.ap-beijing.myqcloud.com/images/202301031326337.png)
确实无法给出描述的:如下图所示,这种确实无法给出精准的描述,此时可以在文本框中输入:none;表示无法标注
![image-20230103132059061](https://img-1300769438.cos.ap-beijing.myqcloud.com/images/202301031320190.png)
![image-20230103132956917](https://img-1300769438.cos.ap-beijing.myqcloud.com/images/202301031329956.png)
![image-20230108123800335](https://img-1300769438.cos.ap-beijing.myqcloud.com/images/202301081238376.png)
一些tips
- 从统计的角度,标注为“none”的样本比例大约在10%左右
- 如果一个样例,所有选项的置信度都是0.0,那么你需要更关注一些。如果其中有正确的句子那么你可以选;如果没有正确的句子,且你觉得这确实很难描述,那么你可以大胆的标成none
- 如果需要自己写一句RE,请尽量参照选项中的语句,写一句类似的短语,尽量避免文字太长