主题
按件计费 VS 按小时计费有什么不同?
打造一套驱动高质量AI数据的激励体系很难,需要同时平衡三个要素:
1、数据质量
2、交付速度
3、成本控制
通过我们大量的实践,发现优化其中任何一个要素必定影响其他2个要素。但对于很多早期项目,采用时薪制而非按件计酬制可能是一种更好的选择。虽然时薪制看似成本不可控,但在优化数据质量和迭代速度方面却好很多。与我们合作的许多顶级大厂都采用时薪制合作。
当然,在时薪制下设定绩效,也可以结合混合激励模式。对模型训练而言,数据质量是最重要的,数据获取时效只能是次要优化目标。LLM在RLHF训练环节对低质量数据输入特别敏感,其敏感度远高于传统的CV或NLP模型。而因数据质量低劣而需重新训练模型所产生的时间和算力成本,远远高于生产高质量数据所付出的成本,完全不是一个数量级。
按件计费
在“按件计酬”模式下,数据供应商按完成的数据量收取固定费用,例如,按提交的每条数据收取X元
优点:
- 甲方比价容易 - 甲方只需要在招标的时候比较供应商的价格,前期不用花费很多时间去校准每条数据最合理的单价是多少。
缺点:
- 标注员追求速度最大化 - 标注员被激励尽可能多地完成任务以最大化其实际收入。通常表现为不认真阅读标注指南、快速提交和仅完成避免处罚所需的最低工作量。
- 提交的任务分布不均 - 标注员总是倾向于选择更简单、更短的任务,最终会导致任务复杂度的分布失衡。即使根据复杂度设定不同费率,标注员也会“跳过”某些任务,选择那些看似更简单的任务。
- 管理成本更高 - 任务规则和工作标准随着模型训练的反馈经常变化,直接影响单件任务的耗时。按件计酬的价格也需要随之调整。价格若不进行实时校准,标注员会缺乏动力参与调整后变难的工作。长期失衡最终会导致数据标注项目交付失败。
- 定价谈判缓慢 - 在按件计酬的框架下,供应商为确定单条数据价格,需要预估任务耗时、任务所需审核次数以及不同场景下的利润率,需要花费数周时间,进行多轮试标才能获得准确报价,这大大降低模型训练的迭代速度。最糟糕的是,AI模型训练领域数据需求标准几乎每个月都会发生变化,届时单条数据成本又需要重新定价,又涉及重新谈判。
- 成本透明度缺失 - 供应商有动力以最低成本的方式生产数据,可能倾向于寻找最便宜的劳动力、进行最低限度的审核,并隐瞒对标注员的管理方式和沟通内容。
总结: 按件计酬模式减少了甲方在招标过程中的思考成本,但牺牲了数据质量和交付效率。
按小时付费
为标注员定义时薪(通常基于其领域和经验),按实际工作小时数支付报酬。通常会使用工具追踪工时和产出效率。
优点:
- 工作灵活,迭代迅速 - 在任务的内容和难度变更时无需重新计算单件价格;并行多个标注任务,或将标注员分组进行略有差异的工作,均可无缝进行。
- 透明度高 - 供应商有动力在设计审核流程和覆盖率方面保持透明,以最配合客户的方式运作。
- 数据分布均匀 - 标注员不会只选择简单快速的任务,而是专注于特定类型的任务,无需担心因该类任务耗时较长而收入减少。当然,根据标注员的绩效考核方式,可能仍会有轻微压力。
- 吸引人才 - 在“按能力定价”模型下,供应商和甲方共同决定人才合适的薪酬水平,供应商从中抽取固定比例。如果需要高技能、高薪酬的标注员,则不存在因走捷径或偷工减料而降低技能门槛的动机。
缺点:
- 标注员可能会偷懒 - 最明显的缺点是标注员缺乏高效利用时间的动力。但我们认为有几种实用的管理方法:
- 与高质量、口碑好的标注团队合作,其领域的专家不太可能为多赚一点钱而弄虚作假。
- 确保标注员对工作感到兴奋和满足。如果标注员感到快乐并认为其工作有意义,更可能保持高效。好的团队文化和氛围能让标注员有更高效的产出。
- 监控每位标注员的时间效率,发现明显异常值立即单点处理。
- 可能杀鸡用牛刀 - 供应商可能倾向于推荐Over Qualified或薪资水平超出市场标准的人才来赚取更高额的抽佣
混合模式
可以采用混合方法来减轻上述两种模式的缺点,但这可能会带来更高的管理成本:
- (时薪制下)设置效率奖金:
- 优点:激励标注员提高产量,并间接抑制拖延任务的动机;
- 缺点:可能因此带来随意快速提交的风险,因此奖励兑现可以附加质量约束。
- (时薪制下)设定单件任务最大付费时间:
- 优点:减少时薪制下延迟提交数据造成的薪资浪费
- 缺点:可能使标注员不愿意承接耗时超过上限的复杂任务,影响数据分布
- (计件制下)基于质量调整标注员的计件工资:
- 优点: 激励标注员产出更高质量的数据;
- 缺点:需要花精力定义客观和划算的质量评级,可能导致标注员投诉变多和管理开销增加。
- (计件制下)基于复杂度调整按件计酬:
- 优点: 若复杂度定义准确,可提高单件成本效益。
- 缺点:但确定复杂度本身很难,对标注员透明度较低,易引发争议。
- 基于工时目标的奖金:
- 优点:激励标注员投入更多时间
- 缺点:可能付出额外成本(有些人本来就会做很长时间)
标注专家类型
对于大多数人类数据项目,我们建议与标注员的合作采用独立承包商的方式。全职员工与独立承包商的主要区别:
- 全职员工:
- 其工作作息受公司更多控制。
- 通常享有员工福利,如医疗保险和带薪休假。
- 根据劳动法享有特定保护,包括最低工资和加班费。
- 独立承包商:
- 在完成任务方式上拥有更大自主权。他们行提供办公器材,自定时间表,并可服务于多个客户的数据需求。
- 不享受与正式员工相同的福利。
由于项目周期可能难以预测,标注员的需求波动很大,从成本的角度考虑与标注员合作采用独立承包商的模式更合理。我们需要尊重独立承包商工作时间和方式的自主权、其个人时间安排等方面的要求。
同时不同的激励模式,可能面临不同程度的劳务风险 。我们会代为处理相关事宜,让您无需应对错综复杂的劳务风险,包括经济处罚和法律诉讼。