行业高质量AI数据如何炼成 揭秘云测数据的取胜之法
类似的还有智能驾驶场景。智能驾驶的车外环境感知需要大量真实场景数据用于算法训练,为了确保行驶安全,需要覆盖非常多的长尾场景数据,例如举伞的行人、突然出现的宠物等,疫情发生后,带口罩的行人也是另一种车外环境感知所需要的“场景AI数据”。 从细节上满足更复杂深度的AI数据需求,提供独特的、无法替代的AI数据获取能力,将帮助数据标注持续获得更高的产业地位。 人力建设:应对高精细化的“数据工艺”,出现专业的“人工智能训练师” “流水线”的生产基础加上更高的生产工艺之后,“精益制造”考验的还有产业工人是否能将工艺实现的能力,在产业升级的浪潮下,产业工人的素质成为“精益制造”的关键因素之一。 映射到数据标注,为了应对高精细化的“数据工艺”,专业的“人工智能训练师”开始出现,这表现在三个方面。 一是体系化的人才培训,整体技能专业性、领域知识专业性、人员素养等都在提升。 以云测数据为例,云测数据不仅提供岗前培训,还带有员工技能培训、职能培训、行业领域知识、责任培训、标注内容的培训,以及一对一的持续交流来提升员工的能力;与此同时,配备在线化、体系化的打分系统来评估员工的能力。 过去,数据标注那种随便在街上、学校里拉一些人,只要认得图片、懂基本的语法拼写就开始干活的做法,已经不再具备任何竞争力了。 二是匹配不同需求的“人才梯队”开始出现。 这一点,如同“精益制造”里更复杂产品配以技艺手段更高的工人一样,在数据标注领域,出现了一些数据需求上的分化,倒逼企业培养某种意义上的“人才梯队”。 典型的如医疗、法律、金融、家居等高度专业化的领域中,不论是CV还是NLP,人工智能训练师需要非常专业,才能进行正确的数据标注与解读,这甚至不是光有培训就能解决的。云测数据在NLP领域就吸纳了一些金融及家居行业的专才来提升对应领域的数据标注能力,这也意味着数据标注产业开始对人才来源口径有了一些要求,不再是泛化的人群。 三是大量的操作细节和专业性不断叠加。 产业工人变成“老师傅”,一方面来源于苛刻的工作要求,另一方面来自不断的专业经验积累。在数据标注这里也是如此。 粗放式管理下,传统数据标注行业有一种“混乱”的旗气质,草台班子稀里糊涂完成了大量的数据标注工作。但现在,高精准度的大旗下,数据服务团队的专业化能力被严格要求,在云测数据,智能客服单个场景的意图标注就分为10-20个大类、上百个子类(表达同一个意图,算法面临的用户可能有不同的表达方式,故越细分越好),根据业务需求可能还会有进一步的标注细分。 这倒逼数据标注员提升对话意图的判断能力,需要对句子进行泛化、以不同的描述方式重组或扩充句式、标签(比如,用户只是单纯口误了,或者夹杂了方言,数据都需要标注清晰,供AI算法去学习)。 在整体素质不断提升的基础上,人工智能训练师呈现出更多样化的梯度,更多优质的标注人才将脱颖而出。 需求交互:应对纵深的项目需求,出现深度交互的专业化服务模式 最后,“精益制造”阶段的制造业,往往伴随订单方与生产方的深度沟通,需求方深度介入生产制造,才能生产出更符合初衷的产品。 这其实是支撑“精益制造”的专业化服务模式,在数据标注领域也是如此。为了明确AI数据标准,云测数据这种追求高精准度的企业早已要求项目经理与AI项目方在项目开展前反复沟通需求,配合行业培训师对标注员们进行前期培训,并在标注作业过程中保持实时的沟通和反馈。 这种反复沟通中,涉及到大量影响最终数据结果精准度的细节,例如,CV项目中,什么样的光线要标注和定义为“强光线”?不同需求方的理解可能并不一样。 除了明确数据标准的沟通,在作业方式上,数据标注现在也更为灵活。 典型的是金融场景中,由于行业的特殊性,尤其是对数据安全的极高要求,数据标注企业除了要提供了一套针对金融行业深度结合企业自身业务流程的AI数据服务方案,一些时候还必须改变部署与作业的物理方式,例如云测数据提供的私有化部署和驻场作业服务,在这种服务方式下,数据标注“企业服务”的本质也更明显了一些。 值得强调的是,在数据隐私安全方面,云测数据设置了一系列严格措施。其中一条核心原则就是数据绝不复用,当数据合格交付后从不留底,会清毁相关数据;其二,所有和云测数据进行数据采集的用户都会签订数据授权协议,从来源上确保企业用于训练的数据合法合规;同时,云测数据内部还设定了数据隔离、质量保障等一系列数据安全流程和技术。 总而言之,AI加速落地催生出更为复杂的AI数据需求,使得本来与制造业在过程上有些类似的AI数据标注也走入属于产业自身的“精益制造”过程,在生产环境、作业标准、人才建设以及服务模式上都有了很大的转变。而云测数据带来的这种转变,不只是带来了更高的精准度、更高质量的AI数据,也使得数据标注产业在AI时代的产业链条中作用愈加突出。数据标注就像是信息世界的新基建,只有基石的建设稳妥了,AI产业的高楼才能拔地而起,才能加速人工智能更好的到来。 此内容为【智能相对论】原创, 仅代表个人观点,未经授权,任何人不得以任何方式使用,包括转载、摘编、复制或建立镜像。 部分图片来自网络,且未核实版权归属,不作为商业用途,如有侵犯,请作者与我们联系。 智能相对论(微信ID:aixdlun): •AI产业新媒体; •今日头条青云计划获奖者TOP10; •澎湃新闻科技榜单月度top5; •文章长期“霸占”钛媒体热门文章排行榜TOP10; •著有《人工智能 十万个为什么》 •【重点关注领域】智能家电(含白电、黑电、智能手机、无人机等AIoT设备)、智能驾驶、AI+医疗、机器人、物联网、AI+金融、AI+教育、AR/VR、云计算、开发者以及背后的芯片、算法等。 (编辑:济南站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |