sito
sito
sito
sito
sito
在机器学习领域中,从有监督学习向无监督学习,甚至强化学习转变的过程。从一开始,机器学习就像是个勤奋的学生,需要大量的四川标注数据来进行学习。但随着模型变得越来越大,数据标注的时间和成本也变得难以承受,于是就有了无监督学习和强化学习,它们就像是那些自主发现问题并纠正的孩子,不再需要大量的标注数据。
然后,OpenAI的GPT系列模型就像是一个巨星学生,一路从有监督学习升级到无监督学习。这时,许多人开始怀疑数据标注在大模型时代是否还有存在的价值。不过,当ChatGPT出现后,这个问题就变得没那么紧迫了。因为ChatGPT并不满足于无监督学习,它采用了强化学习和人类反馈,就像是请来了专门的家教一样,更好地跟人类的指令保持一致。这个过程中,就涉及到大量的数据标注工作。
但这次的数据标注和之前那种使用低成本劳动力的简单数据标注不同,就像是从初中升级到大学,需要一群专业人士来写词条,给出符合人类逻辑和表达的高质量答案。据说OpenAI和Scale为了这项工作,都特地招聘了几十名博士来做这项工作。这些专家就像是一群被请来的家教,专门为ChatGPT进行个性化辅导。
就这样,数据标注在大模型时代又找到了新的价值。即便有了更先进的学习方式,老师们的工作仍然很重要。数据标注也是如此,它始终是机器学习的重要一环。所以,对于数据标注的价值,我们只能说:它从未走远,只是换了种形式,更具有挑战性而已。