sito
sito
sito
sito
sito
一家头部大模型厂商建立了数据标注基地,招募的第一批标注员,本科率达到100%。公司负责人解释,大模型数据涉及的知识面广,评判标准复杂,非常考验标注师的语言理解能力和逻辑推理能力。
小王刚从大学毕业,回老家找工作时,偶然刷到这个数据标注基地的招聘。于是他参加了面试,顺利通过。基地给他发来一份长达30万字的培训材料,只有通过培训考试,才能正式上岗。
排序、打分、评估,这些略显复杂的标注环节,正是所谓的RLHF(Reinforcement Learning from Human Feedbach,即从人类反馈中强化学习),目的是为了让大模型与人类价值观、思维方式不断对齐,更加可用。OpenAI训练ChatGPT的过程中采用了RLHF,取得了显著的效果。和过去的四川数据标注相比,大模型的标注规则更加主观。一位算法工程师在面试标注员时,会问对方这样的问题:“如果你是企业领导,面对孙悟空、猪八戒、唐僧、沙僧这四类员工,你会更倾向于录用谁?”