Skip to content

为什么大模型持续需要人类标注?

2025年,我们已经见证了AI在诸多领域的飞跃:

GPT Agent可以自己花好几个小时做出一个有理有据的PPT,Claude能自主完成的编程工作越来越多,Gemini可以看懂长达一个小时的视频。

但即便如此,我们依然看到OpenAI、Anthropic、Google DeepMind在大规模招聘数据标注员、研究数据质量,以及构建高质量标注体系。这背后反映一个事实——AI模型现在依然,未来也持续需要人类提供高质量数据,来完成进化

技术越进步,世界越复杂,问题只会更多

一个常见的误解是:AI越强,人类能够对AI的进化做出的影响越少。但现实是恰恰相反。

AI越强,被它“解决”的领域越多,边界越广,人类社会的问题也变得更加复杂。

我们不再满足于让AI写一篇八百字作文,或者是让AI刷新数学竞赛的分数,而是希望它能辅助医生进行诊断、给个人提供法律建议、协助公司制定发展战略。

这些任务背后承载的期待,并不止是写出一篇格式正确“作文”,而是在对现实世界复杂语境进行理解、思考和取舍后得到一个符合当事人动机和成本约束的解决方案。

例如,近来很多企业开始使用AI辅助进行简历筛选与人才匹配。一开始,模型只需要识别“是否具备某个技能”“是否符合学历要求”,这些都可以通过关键词匹配实现。

随着这些基础问题得到解决,HR们开始对模型提出更加切中他们需求的问题:“这个人跳槽频繁但是否在快速成长?”、“这个人履历很漂亮,但他的工作经历对我们公司的岗位是否真正相关?”、“这个人是否符合企业文化,有没有潜在的合作问题风险?”

这些判断依赖企业内部的经验、人力资源团队的偏好、行业对候选人的看法等复杂因素,需要新的一波人类专家教会模型这些判断标准,甚至每个企业都需要依据自己的价值观对模型差异化调教。可以预见的是,随着模型学会这些问题的解法,会有新的问题产生,再次等待人类专家去引导模型解决。

蒸馏SOTA解决不了应用问题

只要蒸馏参数最多,能力最强的模型,大概率就能提升模型在公开评估集的分数。

但即使是最先进的SOTA模型,也从未真正学会过不同国家的现实语境,更谈不上在蒸馏后能保留这部分能力。

一个主要基于英文医学文献训练的模型,哪怕知道很多医学原理,也很难理解中国基层医生如何记录症状、如何根据医保政策判断是否开药、以及在中国的语境下如何正确的处理医患关系。

这类语境的断层不是因为技术不够先进,而是数据本身缺失或不成体系。语言、文化、行业惯例、最新政策,这些在追求数学和编程表现的模型训练过程中几乎没有被系统性地覆盖。

另一个例子,你是一位在中国准备融资的创业者,让模型判断一份股权投资协议中是否存在不平等条款。

模型可能用西方惯例给出一套“全面”的建议,却无法正确分辨哪些条款是惯例对于国内VC来说,哪些条款可以认真争取,最终误导你走向一场注定失败的谈判。

这时候,只有一群真正了解国情和文化上下文的专业人士,才能构建出一组更真实、复杂、模糊却接近现实的“问题集”。

AGI的目标,就是突破这个边界,让AI具备足够的能力自主学习、吸纳和判断这些潜在的规则和价值观。但在达到那一天之前,我们依然需要大量人类告诉模型:“这个回答虽然逻辑上通顺,但实际上在中国的医院和法律体系里是无用的”。

新问题和关键知识不会自动更新在互联网上

互联网是过去的集合,而不是未来的预言,也不包含社会正在酝酿、尚未见报的新问题。

互联网上的信息不仅滞后,而且高度偏向那些“更吸引眼球”的事件与话题。当下正在发生的结构性变化、复杂但不具话题性的趋势,往往被忽略,没有得到记录。

更重要的是,现实中还有大量关键知识根本不在互联网上。

商业一线的实操经验、科研机构的内部实验数据、企业制定的规则、医生根据临床长期积累的判断标准,这些搜索引擎找到不的内容,分散在无数人的脑海、笔记、会议与封闭系统之中。

你无法指望模型仅凭网上关于80、90后的成长故事,就理解20后在升学和职场中的困境; 也无法让AI通过爬虫理解最新一代药物研发的技术细节,因为那些关键突破从未公开发表。

出色的工作无法被沙盘模拟

还有些人主张应该让AI脱离人类反馈,自主进化(Era of Experience)。

只要把人类的工作环境装进一个结果可被验证的沙盘,并开发AI能够自主运用的软件工具,AI就能在“自我尝试—反馈优化”中不断提升,自行学会更好的工作(Sweat Shop Data Is Over)。

这种想法严重低估了现实工作场景的复杂性以及出色工作的本质。

现实中,人能否完成工作目标,从来不只是“有工具、有目标、有反馈”这么简单。

很多关键成果,并非来自按部就班地执行流程,而是依赖于那些系统之外的因素:从同事那里打听到的一手消息、对团队潜规则的敏感判断、在关键节点上扭转上级对“什么是好”的预期。

或者干脆另辟蹊径,走一条最初没人设想过的路。

这类行为既无法在沙盘中复现,其衡量指标也往往灵活多变。但恰恰是这些“不受环境限制的突破”,构成了现实工作中最有价值的部分。而这正是AI最难自主学习,也最需要人类指导的能力。

Key Lesson is all you need

要让AI真正具备解决现实问题的能力,并不意味着必须海量堆砌数据(更直白的说,买很多条数据)。

真正起决定性作用的,是能提出关键问题、并判断问题是否真正被解决的专家。

一小批深刻、真实、经过精细评估的问题,比上千万条脱离实际的合成数据更有价值。

围绕一些对于现实生活无关痛痒的任务(比如“用代码写个弹球游戏”、“判断一个ASIIC风格的图片里藏的是什么汉字”)合成再多数据,也无法让AI更懂医学、更懂社会,也不能让它多治愈一个病人、优化一条供应链、或者减少一次误判。

我们相信,AI能力的突破,取决于我们是否敢于直面现实世界中真正难、真正重要的问题。

我们期待与全球最顶尖的AI实验室一起定义好,解决好这些问题。