AI论文助手
“贫困山村里,没上过大学的女人们在喂养AI。” “富士康工人流向AI标注厂。” “跟AI打工,贫困县也能月薪7000。” 在“有多少智能,就有多少人工”的AI时代,有一批人通过采集现实世界的图像、视频、文字等信息,清洗标注后将数据转化为代码输送给机器,从事这份工作的人叫做数据标注员。 打开关于AI数据标注行业的新闻,我们随处可见上述标题。低门槛、劳动密集、高度程式化、标准操作流水线,成为了数据标注工人身上最大的标签特征。而在国际上,因为有大量的非洲肯尼亚人在做相关工作,他们又有一个灰色昵称,“肯尼亚人”。 而这,也与数据公司的甲方——百度、阿里等,致力于要用技术改变世界的大公司们形成了鲜明的对比。大洋彼岸,数据标注服务公司Scale AI市值73亿美元,彰显了数据公司的资本潜力,也让我们看到了数据公司走向百亿美金估值的可能性。 随着AIGC时代的到来,数据标注员的工作有何改变?上述新闻标签是否是他们的行业常态?数据标注行业现在存在哪些问题?未来又有哪些发展前景?更重要的是,他们展现了AI行业背后的什么样的困难? 带着这些问题,娱乐资本论走进了四家数据标注公司,发现了如下的行业现状: VOL.1.标注行业对员工的素质要求越来越高,本科生占比高 VOL.2.兼职的标注人员中宝妈较稳定,更受欢迎 VOL.3.垂类行业的数据标注订单增多,对垂类标注人才的需求量增多 VOL.4.底层数据标注员的工资与最低工资标准类似 VOL.5.AI只带来了短期的订单增加,小型数据标注公司很卷 VOL.6.多数数据标注公司没有构建自己的数据壁垒 VOL.7.数据公司的发展趋势:①、利用AI技术降本增效 ②、专注于某一垂类的数据 ③、往产业链上游走,做数据采集、合成等 “我们不是富士康的流水线模式。” 当被问及公司的员工现状时,几家数据公司都给出了类似的回答。 龙猫数据成立于2014年,累计服务了60余家主机厂和自动驾驶公司,为客户提供整体的数据解决方案。 今年AIGC爆火后,龙猫接到了很多图文标注、视频标注需求的订单,会有很多多模态应用场景,比如车内座舱的文娱软件等。龙猫副总裁胡邱飞向娱乐资本论指出“这要求标注人员能理解大模型的应用,而大模型会考察几乎所有领域的通识类知识。此外,标注内容要和客户的模型价值尽量贴近。所以这也要求我们找的标注人员绝大多数学历在本科以上。” 龙猫公司一角 针对垂直领域,龙猫则会配备专业领域人员,比如为数学相关大模型招聘会高等数学的人,“如果不是这专业的人,你根本看不出细节上的区别。” 成都的汇众天智总经理骆靖元也在AIGC浪潮后提高了对员工的素质要求,“三四年前对员工的素质要求还不高,但是现在甲方对质量和效率的要求提高了。公司之前90%是大专,现在本科占到了一半,甚至有研究生。” 2018年,做软件的丁一峻,在朋友的引荐下接到了阿里数据标注的订单,2019年创立了飞火大数据公司。之后,出于成本考虑丁一峻回到家乡创业做数据标注公司,“那时的数据标注行业确实能提供大量就业,洛阳数据局2019年的时候也牵头想做数据处理公司,招人好招,但交付难。” 2019年做百度某数据标注业务项目截图 “数据标注本质是高级搬砖。”丁一峻向娱乐资本论指出,“有标注需求的多是大公司,现在很多标注公司会外放做不过来的订单,这就让市面上很多没跟甲方深度捆绑的公司,接的订单都特零碎。这种订单一是边缘化业务,比如小语种。二是时间周期短的业务,很考验外部公司的交付能力。” 这两类订单,也倒逼着丁一峻要提高对员工素质的要求。这期间,丁一峻尝试过和学校监狱合作,相继作罢,“学校要考虑领导、辅导员各种利益分配,监狱对网络要求高,不如找全职。” 飞火大数据公司一角 综合原因下,大部分的数据公司更倾向于招聘兼职人员。沈阳正午数据公司人事小苏接受河豚君采访的前一天,刚在Boss直聘上发了招聘兼职的通知,“行业本身利润有限,全职成本太高了,根本就不能实现。” “我们招人基本要求大专以上,发了以后有上百人联系我,但是很多人没经验。”小苏招聘时,会和兼职强调对数据保密性的要求,“不知道是不是受网络的影响,很多人戒备心很重,听到要保密就不做了。但我们公司有良心,必须强调保密。” 杭州景联文是一家从事数据采集标注、数据融合挖掘的公司,现有1000多位全职标注人员,其CEO刘云涛向河豚君透露,“标注项目难度越来越高,要求标注员的学历和专业知识水平越来越高,比如语言标注团队,要求会各种小语种。医疗标注,需要医学院毕业的学生。” 龙猫则是全职兼职两手抓。胡邱飞透露,“我们现在线上注册用户400多万,活跃全职的1万人左右。”线上之外,龙猫在西南地区做了线下标注基地,“那边高校多,学生素质也更高,员工500人左右。” 龙猫的全职运营会了解兼职的情况,“我们更喜欢用没有全职工作的群体,比如宝妈,她们时间充沛,更好管理,也更稳定。” 整体来说,如今数据行业的标注人员发展如同美团般发展成了全职、服务站、众包等阶梯式的人力模式。胡邱飞透露,“我们线上众包是强管控,最终交付结果都是计件的。” 小苏介绍,目前公司兼职的员工大概两三千,常驻人员1000左右,流失率一半。丁一峻透露,“基础的标注员往往都是属于地方上的最低工资标准,三线城市两三千左右,质检员和项目经理,能到七千左右。” “太卷了。” 这几乎是数据公司们共同的心声。 “我们现在就像河南的食品代加工厂一样,品牌是别人的,工作相当于帮别人养孩子。”丁一峻的公司高峰时有两三百人,现在公司只有40多位员工,“老客户的需求还在,能维持正常运营,但这种单子很鸡肋,一个月几百几千跟办公室采购差不多,利润太低,项目体量也不稳定。数据行业缺乏像苹果、特斯拉一样需求稳定的工厂。不然我也不想裁人,有活还需要找外包。” 骆靖元指出,AIGC爆火后自己招人和以前相比省去了科普人工智能的环节,但在接活上更卷了,“大公司有定期筛选的机制,比如说这批我需要10家公司。那我就从100个里面筛选,其中哪两三个不合适,我再动态替换。这使得一些公司不断报低价,恶性循环。” 为了接到订单,丁一峻一直在努力降本增效,“为了提高效率,我们开发了AI工具,之前2D拉框要8分一个,现在降到了5、6分,操作更便捷。质量上,如果客户不想要目标物低于某像素值的,工具直接调数值,标注员就不用标了。” 但是这种工具标注公司基本只能自用,“同行有能力买的,自己有开发的实力。没开发实力的,出不起这个钱。”说着,丁一峻给我发来了网上开源的标注工具,“每家平台都差不多,都是基于labelme的底层逻辑。早几年能打个信息差,卖平台赚点钱,现在不行了,大家都知道套路,直接上源码加个UI就成产品了。” 某标注工具图 “今年2月GPT刚火的时候订单多了一些,那时大公司的目的更多是为了割韭菜炒股价。后来这些AI大公司发现变现难,七八月份就很少在数据标注上投入了。”保定的数据标注老板周三体说,标注公司遇到的困难,仿佛也印证了AI潮冷去的某种现实,“AI公司的客户很多还是G端,根本不在乎AI能力,更在意能不能喝酒、能不能垫资”。 为了接活,周三体努力降低成本,“2D拉框最早是1毛5一个,现在降到了8、9分一个框。”...