在大模型和RLHF机遇面前,新建“产品线”的成本投入十分必要。本文3902字,约5.6分钟
(资料图片仅供参考)
作者| 潘程、真梓 编辑|真梓
来源|数字时氪
01
一个月来,与ChatGPT有关的故事还在持续上演,甚至已经蔓延到了数据标注领域。 这期间,数据标注平台估值高涨、文本公司需求激增、AI大厂开始分拆数据标注团队……那个被“选择性无视”、被“认为没有讨论价值”的数据标注行业,再一次支棱起来了。 这种全行业认可首先反映到资本层面,国内一二级市场的相关公司应声实现了新一轮估值高涨。春节后A股的第一个交易日,上市公司海天瑞声就结结实实走出了第一个涨停板,此后连续12天其股价一路高歌,从81.6元飙升到244.8元,市值超过百亿,比此前翻了3倍还多。 尽管海天瑞声在公告中已经作出风险提示:“自然语言业务对公司整体贡献大约在10%左右”“公司尚未与OpenAI开展合作,其ChatGPT的产品和服务尚未给公司带来业务收入”……但资本的热情不减,截止发稿海天瑞声的股价仍处于214.20元高位。 而在一级市场,B轮及以前的十余家早期项目集体迎来了接近100%增幅的高估值,其中不少人已趁机敲定新一轮融资。有业内知情人士透露,“目前,即便是刚成立1-2年的新公司,其价格已经很贵了。”但数据标注公司每天迎来送往的早期投资人仍络绎不绝,甚至有创业者为了见投资人只能将招聘时间安排在夜里23:30之后。 随后,国内不少正在布局ChatGPT的文本公司,对数据的需求激增。对标海外各家大厂的大模型与数据标注平台的合作, Google 的 LaMDA 选择与美国供应商合作,预训练语料库大小为2.81T;Meta 的 BlenderBot3 与亚马逊MTurk合作,预训练语料库大小为180B;OpenAI的 ChatGPT / InstructGPT 与 upwork 和 Scale AI 合作,虽然没有公布详细数据,但预计预训练语料库不会太小。 不难看出,每个大模型的背后依然有数据标注平台的服务支撑。而此时,国内不少追随者已经开始对ChatGPT背后的文本数据构建产生兴趣。 “这段时间,我们能非常明显的感受到来咨询合作的文本公司暴增,他们普遍都在关心文本怎么构建、数据集如何制作等问题。”某数据标注公司CEO表示,“一周时间,找过来的公司已经有大几十家。” Forrester分析师卢冠男此前曾表示,“ChatGPT对训练数据的标注方式提出了新的思路,所以在训练数据的工程准备上,企业也需要摸索和改进。” 据知情人士透露,“目前,已经有不少AI大厂开始着手把自己AI标注的部分工作独立出来了。” 数字标注在这种价值认可中,也试着摘掉“堆人力”“血汗工厂”的标签,逐步走向自我升级。在旷视研究院看来,“近年来随着大模型、自动驾驶等data hungry型应用的不断规模化,驱使数据标注行业不断向低成本、高质量、高效率进发,开发高效的采标一体化平台,采用AI辅助标注、human-in-the-loop、模拟仿真等技术手段提高标注质量和效率、降低标注成本,已成为数据标注行业的前沿阵地。” 02
超乎寻常逻辑,ChatGPT能带火数据标注行业,并不是因为数据量激增。 纵使OpenAI积累了包括维基百科、专业论坛、论文、图书在内的众多高质量英文文本数据,纵使GPT-3拥有1750亿参数,训练语料超45TB, 但本质上,大模型对低层次的数据标注需求很低。这与其背后无监督(含自监督)、半监督的机器学习方式有关。 早前,实现人工智能的主流方法是监督学习。这种训练方式中,训练集中的各项数据特征和目标都是人为标注的。也就是说,这种模式需要进行大量基础数据标注工作,且高质量的数据被“淹没”其中,很难从中摘出来。 图灵奖得主、CNN之父Yann LeCun曾将无/自监督训练比作“人工智能蛋糕上的樱桃”。 因为无监督学习不需要前期大规模的数据标注,在训练数据中,只需要给定输入,没有人工给出正确的输出,目的是让模型开放式地、自己学习数据之间的关系。 半监督学习则处于两者之间。在这种学习方式中,模型会尝试从未标记的数据中提取信息来改进它的预测能力,同时也会使用部分已经标注过的数据进行结果验证。 换句话说,在如今火爆的大模型训练浪潮中,传统的数据标注需求,很可能是下降的。 但与此同时,让ChatGPT更具有“人味”的关键——强人工反馈 RLHF,却带来另一种更高要求的数据标注需求。相关分析显示,“在RLHF环节,模型首先在大数据集上进行预训练,再与专业的人工智能训练师进行交互,专业的标注人员会对ChatGPT生成的回答进行标注、评估和反馈,给出一个针对回答的分数或者标签。这些标注数据可以作为强化学习过程中的“奖励函数”来指导ChatGPT的参数调整,最终帮助模型进行强化学习和不断优化。” 也就是说,让ChatGPT"更具人味儿"的精妙之处很可能就在于——它可以利用人工标注的反馈结果不断优化自身模型,实现更合乎人类思维逻辑的表达。 紧跟趋势的国内公司已意识到这件事。在观察中,最近围绕大模型、ChatGPT的一个必谈话题就包括RLHF。而在实践层面,一家重注大模型的大厂专家表示,"现在公司已有上百人都在做强人工反馈相关的事情。"在他的眼中,不少同行同样对RLHF深度布局。 按照常理,RLHF应该完全属于数据标注公司的业务范畴。但如今 一些有财力也看重这一需求的AI公司,也就是数据标注公司的客户,很可能在自己搭建、重组团队。原因或许出乎意料——RLHF,可能是传统数据标注模式难以满足的需求。前文提到,在开展RLHF之前,大模型的训练需要海量无标注数据以获得"基本的感知能力"。 这对数据标注公司提出了第一个创新需求——利用已按各类场景被标注、被清洗完善的数据集进行训练,成为刚需。而在过去,数据标注公司的主流商业模式以销售工具系统和标注服务为主,由于缺少自有数据很少有出售精准数据集的服务。 在王可泽的观察中,数据质量不高,会影响到无监督学习的效果,最终也影响大模型的精准性。 “ChatGPT价值最大的一部分就在于其拥有一部分精细的、被标注的指令数据。”王可泽说,“通过与ChatGTP的交互,就能感受到其技术团队在数据量和数据种类方面花了很多心思。” 一些投资人也看到这一趋势。商汤科技投资总监王暘表示:“现在已经看到大家在研发和训练大模型时,都较倾向选用已经标注好的开源或公共数据集。同时,为了提升训练质量,对购买已经标注好的数据集也有需求。” 而在完成这一步后,RLHF训练还涉及到不少事实判断和价值判断。其中,价值判断涉及到公认的"公序良俗",理论上是更容易拉齐AI认知的部分,事实判断则涉及各行业Know-How,往往需要行业专业人士出手——这些不是传统数据标注员,简单针对词性、图片细节进行标注就能实现的。 也就是说,要跟上新一代AI浪潮,数据标注公司不仅需要在数据层面进行升级,人才的更新换代同样重要。 “得先训练好标注同学,才能训练好模型。”这句来自AI从业者的网络调侃,并不是一句虚言。 03
ChatGPT所代表的大模型,并不全盘需要传统的数据标注业务——为了精准性,它们看重数据集和RLHF所代表的人工反馈需求。于是,一系列灵魂拷问出现在数据标注公司面前:如何才能快速提供可靠的数据集?又该如何升级人才架构?首先针对数据集,目前国内多数传统数据标注公司并不提供这项业务。明确将“数据集”产品在官网提及的海天瑞声,产品集中在语音识别、语音合成、自然语言处理、计算机视觉数据集,垂直领域、热门场景下的高质量数据集仍相对稀缺。 另一方面,人才升级作为一个系统工程,对数据标注公司的考验更高。 了解到,目前的确已有标注公司开始在内部撰写《人员提升教程》。他们将在接下来重点培训标注人员对“升级后”的标注需求理解,以及回答方式的合规性等。 但是,在专业壁垒非常高的医疗等领域,数据标注仍面临着人才困境。某数据标注公司运营负责人曾表示,“特别是医疗,有些是普通人经过培训可以标的,有的必须要医疗从业者,这背后的人才招聘难度可想而知。” 王可泽进一步拆解,如今的人工反馈还处于"初级状态"。在更精细化的场景中,AI需要很可能是一系列的深度专业意见。"比如在学术场景中,我们往往需要详细的指导,而不是简单的打分或者排序。"他打了个比方。 显然,这部分非常专业化的工作,远超数据标注公司的能力范畴。但即便困难重重,也不意味着数据标注公司会立马进行一波洗牌——至少,在大模型训练的几个阶段内,初始阶段的半监督学习同样对传统数据标注存在需求。 比如,《时代周刊》报道显示,OpenAI在2021年底与Sama签署了三份总价值约20万美元的合同,雇佣普通数据标注员为数据库中有害的内容进行标记。再加上,虽然大模型的机会往往属于财大气粗的少数大厂,但却可能长出不计其数的新型AI应用。这部分应用的AI训练,也需要传统数据标注。 也就是说,新一波AI浪潮留给数据标注公司的机会并不少。就算是无法直接吃到大模型红利的传统业务,也可以依靠AI应用的增多分到一杯羹。 这意味着,一段时间内传统数据标注的总需求大概率不会减少。而这种阶段,或许也是"时间窗口期"——数据标注公司能一边依靠传统业务积累营收,一边依托收入投入新业务建设。 这种经营模式对数据标注行业而言并不陌生。只不过,过去它们的自我迭代方向是利用自动化手段撕下"堆叠人力"标签。 一家成立近15年的数据标注公司表示,行业内平均每家众包平台上都有上万人,人员流失率却多在30%以上。为提升标注精准性和人员工作效率,这家公司会对AI辅助标注的研发投入重金。现在,AI辅助标注工具的研发已成为全行业都认可的投入方向。 而面对大模型和RLHF的机遇,重现大规模投入似乎在所难免。 王暘认为,如果数据标注公司期望在垂直领域做更高层级的数据服务,可能要成立一个全新的产品线。"虽然人才可能通用,但具体做的事情和阶段差异还挺大的,而且RLHF对垂直领域的应用关联度非常强。"他补充。 "数据标注公司需要升级自己的人才梯队。甚至,具备AI研发背景的创始人会是更合适的数据标注创业者。"一位长期参与AI建设的专家如此预判,原因是,这样的创业者更可能合理地传递各行业客户的RLHF需求。 面对新一代AI浪潮,没有人可以躺着挣钱——这是每一次技术迭代冲击背后,暗中标注好的"价格"。 媒 体 合 作 : 0 1 0 - 8 4 4 6 4 8 8 1
推荐内容
-
今日关注:投资人竞相追逐的数据标注公司,能撑起国产ChatGPT野心吗?
-
再来四个故事,告诉你直播电商的机遇在哪儿? 当前滚动
-
“加密”的财务报告,ESG投资理念下的金融绿色之路
-
中科院大连化物所实现高效生物合成抗肿瘤药物β-榄香烯-天天新资讯
-
赵海兴委员:建议设教师理想信念教育基地 环球热资讯
-
北京楼市回暖,二手房挂牌量激增164.3%,网签量增84.3%,专家:需求释放完需政策更大支持
-
工信部部长答新京报贝壳财经:扩大5G应用,组建6G推进组_全球新动态
-
突破性进展!科学家完成南极磷虾基因组图谱破译
-
【全球快播报】这个春天,在永兴打卡成都“最美公路”
-
天天时讯:A股:大科技!数字基建来了,2023“数字经济”龙头股名单出炉!
-
当前关注:每日一股——亿纬锂能(300014)
-
女护士下班摆摊卖“无菌烤肠”,网友:神女子精力充沛啊
-
焦点资讯:中科院云南天文台在太阳暗条重构研究方面获进展
-
ChatGPT对教育意味着什么?|当前速看
-
#两会科教新观察# | 与女科学家面对面——成为你自己!
-
最大动物基因组图谱——南极磷虾基因组图谱破译
-
工信部部长:我国5G用户超过5.75亿
-
政府工作报告解读 | 邮储银行研究员娄飞鹏:推动建立多主体供给、多渠道保障、租购并举的住房制度
-
浙江省内唯一一所军校,毕业包分配福利待遇好,关键录取分数不高
-
门诊统筹加速,超1.7万家药店已纳入
-
首个算力互联互通验证平台亮相,曙光受邀请参与发布!
-
这类投资要火!收益占比重回“三分天下”?|焦点速读
-
毕马威看好中国消费和投资复苏——中国经济增长预期显著改善
-
范国强:涉农大学毕业生从事农业工作,建议给予较高待遇
-
通用汽车裁减 500 名高管和白领?老巨头通用怎么了?
-
普渡获亿元融资,张涛危机解除了?
-
梅酒,重新在中国生长
-
2023年厨电行业三大关键词:混战、分化与反转|世界快消息
-
当前短讯!盈利了的爱奇艺,喜忧参半的投资人
-
“波罗诞”回归,便民办税助非遗民俗再展活力
-
美女科学家谈保鲜秘诀:要干点让自己不舒服的事-环球新视野
-
朱松纯委员:像“两弹一星”一样发展通用人工智能
-
张克勤代表:30年走遍云南,建成防治线虫的微生物资源库_世界热文
-
全球即时:岑松任辽宁工程技术大学党委书记,马修泉任校长
-
国寿集团董事长白涛:加快推进个人养老金制度扩展至全国范围丨两会·最关注 世界热头条
-
瑞幸咖啡的“万店”目标不远了
-
百事通!走啊,去巴西,赚大钱!
-
国产宠物品牌,走向黎明前夜_全球微头条
-
好评率超高的7个公众号,你关注了吗?-每日速递
-
可转债投资(二十一):有哪些值得投资的可转债主动基金|速看
-
天天新动态:吴德代表:加快推进《粮食安全保障法》的立法工作
-
许鸿飞委员:建议出台鼓励艺术家对外交流的政策_全球速递
-
广东2023届普通高校毕业生系列供需见面开启
-
快播:张莉代表:尽快启动植物保护立法的议案
-
世界头条:赵皖平代表:加强养殖废弃物减控提质与增效利用
-
全球资讯:两会| 全国人大代表昝圣达:建议推动长三角地区高质量协同融合发展
-
王珏委员:尽早出台未成年人文化产品内容管理的标准或范围及程序
-
SOS!这 4 个男的太会玩,越不正经大家越喜欢_天天时快讯
-
为什么有的股民总是在股票下跌时候买入?字字精华,不懂就别炒股
-
如何将老广州茶楼引入到上海滩,让大上海的食客感受到老广州文化?看看这家店的设计吧!
-
世界看热讯:破局2023 | 浙江引春机械:抓住转型关键期
-
观热点:全国人大代表、中国船舶集团第七一八研究所副所长郭建增:加快推动海洋氢能建设 打通全产业链条
-
2022年全球及中国高温尼龙行业现状、市场竞争格局及未来发展趋势
-
“以国内大循环为主体”来制定各项宏观经济政策
-
今日酒价-茅台生肖涨 各大名酒批发参考价 3月4日|当前热门
-
铁岭市召开志愿服务项目展示交流会
-
Meta将组建AI团队;流行时尚品牌Alo Yoga进入元宇宙 | 每日资讯-全球球精选
-
每日讯息!深化产学研如何练好“四手联弹”
-
超高层建筑的利与弊
-
全球热议:新品上架期,如何在视频号里打爆?|电商1小时视频号系列课第1讲
-
【国海食饮 | 行业周报:震荡调整,消化预期 20230228】
-
世界热点评!瑞幸的战火烧向上游
-
神舟十四号飞行期间,刘洋在执行任务时,为何偷偷哭了?
-
全国人大代表、隆基绿能董事长钟宝申:推动农村地区普及绿色建筑 环球快看点
-
校园招聘聚人才优势,习酒高质量发展又添新动力 环球实时
-
蔚来回应实习生员工自称遭性侵犯:第一时间成立调查小组,对相关事件已经开始进行全面调查
-
天天消息!Coupang四季度保持盈利,考验接连不断
-
东北十大城市:沈阳第一,鞍山超大庆,抚顺、锦州上榜
-
世界快播:代表建议:实行城乡无差别化养老待遇,能实现吗?需投入多少钱?
-
快看点丨全球首艘油电混动客滚船在广州南沙口岸出口
-
焦点资讯:新奇!马术走进番禺幼儿园
-
“一劳大”旧址面向社会征集文物藏品
-
手牵手、种春天,大钟楼迎来一场融合共创
-
全球要闻:国医大师周岱翰开学寄语学子:“做‘铁杆中医’!”
-
两会|全国政协委员南存辉:优化风光基地项目商业模式 激活市场活力|当前热闻
-
环球聚焦:怡和嘉业股东户数下降5.21%,户均持股43.77万元
-
消息!“延迟退休”背景下,年轻人想要体面养老需存多少钱?专家解读
-
跨境招聘|3月第1周优质岗位在此,总有一个“职”属于你!
-
尽管支付了自2009年以来最高利率 但美国公司还是开始了创纪录借贷潮 世界通讯
-
与美丽相伴 携幸福同行 —淇滨区怡乐园社区开展花艺三八节活动 当前热文
-
今日看点:“广州红 幸福城”2023盛典6日上演,将首发广州红色城市品牌主题曲
-
“波罗诞”视频特辑⑤|四乡会景 五子朝王
-
世界信息:“波罗诞”视频特辑⑥|扶胥古埗 龙船朝王
-
沈忠芳:我国航天武器事业的建设者
-
潘碧灵:加大对中西部地方高校财政等方面支持力度|短讯
-
《三体》人物原型是中科院研究员?当事人回应
-
国际HPV知晓日丨尽早接种疫苗降低宫颈癌发病几率 热点
-
一封漂洋过海而来的感谢信
-
京东与拼多多的价格狂飙,胜负难分 世界新资讯
-
过完年,新冠病毒凭空消失了?原因找到了
-
"5日均线+10日均线"的极致运用:"两线避险法",看懂就偷偷干吧! 热消息
-
6个问题全面解答岩板行业痛点!这些岩板精英有话说
-
每日讯息!葛均波委员:建议优化专科医院建设 提高综合诊疗能力
-
葛均波委员:建议加强反式脂肪管控 提升全民健康水平|环球新要闻
-
云南农大专家揭示葡萄为最早驯化的水果
-
下游需求尚待验证,废钢价格上行苗头渐显
-
活动推荐 | 2023天猫快消行业趋势发布&新品牌招募
-
【天天报资讯】直播电商全球化元年开启丨2022年度TikTok生态发展白皮书
-
每日热文:从丰林集团2022年财报,看人造板行业的现状
-
观速讯丨医械人如何快速涨薪?这篇文章讲透了!