产品展示
云测数据:离落地越近AI 对数据就越挑剔
「这个不能细说,很多签了保密协议。不过……」Testin 云测 CMO 张鹏飞停顿了下,手指下意识地敲了敲桌面:「我们的客户覆盖智能驾驶、智慧城市、新零售、金融等领域。」他继续补充道:「还有越来越多的智能化转型的传统行业客户,选择采用我们的数据标注服务」。
创建于 2011 年的 Testin 云测在移动互联网时代从应用测试业务出发,顺势而起并成为企业服务明星企业。经过行业前瞻判断,积极布局定制化数据标注业务领域,成立了云测数据品牌。在数据标注领域,云测数据已然是国内的第一梯队。
人工智能正迅速向应用人工智能发展,拥抱产业的人工智能对数据标注的门槛在不断提高。「比如在自动驾驶领域,现在主流的是多传感器融合方案,从摄像头增加到激光雷达,从二维图像数据发展到三维图像数据,多模态的数据帮助算法模型更好的训练,只是由于激光雷达的价格比较高,所以很少会有人去使用和标注。」但未来硬件成本的下降是必然的,而在 Waymo、Uber 等较早做自动驾驶的企业中,也已经可以看到三维图像增加的趋势。
数据采集和标注都不是新鲜的事情,伴随着 AI 兴起,约在 2011 年相应的商业生态也随之而生,2015 年行业进入快速增长期,但许多问题也同时爆发——「鱼龙混杂」,可以这样形容早期采集和标注的数据。
「2015 年时,数据的标注需求很简单,可能客户就说,我这有批图片,人脸拉框,尽量贴合,这个需求文档就已经描述完了,而今年,我们发现同样是做人脸标记的企业需求,一张 A4 纸都没办法把所有的要求写完。」对于这样复杂的标记任务,云测数据在做之前首先要小范围实验,然后需要开会由专人讲解,并在标注过程中随时做抽查,看标注员的理解是否正确:「精度会有多高呢?一张人脸需要你准确地在内眼角上标注人脸关键点,在图片上,内眼角也就不到 100 像素,而任务还会精确到标注到具体哪个像素上。」
具体到 AI 数据服务中,以 AI 企业数据增强需求为例。在云测数据的数据场景实验室中,绿色的幕布前,一位群众演员站在中央摆出不同的表情,正对着摄像机拍摄,演员的周围布满了光源,让其面部没有任何死角。对 AI 企业来说,拍摄这样的一张「纯净数据「,可以拓展更多的数据价值。当然,搭建这样的采集环境,对 AI 数据服务商有着光线,被采样本等条件的严格要求。
「我们在前两年做人脸的采集时,对背景、光线还没有什么要求。」贾宇航说,在过去两年,AI 企业对数据的采集和标注都变得更具有策略性:「比如说自动驾驶,以前恨不得天天都在采集,把数据都标上,现在就要是在雨天、雪天去采集,要去人流密集、或者是很多卡车、三轮车的特定场景,非常细化。」
而这也是 AI 真实落地的必由之路,以往粗放式采集、大批量标记的模式逐渐被定制化采集、高精度标记模式取代,要到趋近 AI 产品落地前的水平,高质精准数据对 AI 企业来说,就像蛋白粉对于职业运动员一样必不可少。
数据标注行业发展早期,由于门槛较低,让这个行业鱼龙混杂,同质化竞争严重,甚至出现了以往传统行业常见的多道贩子。,而供过于求的市场和过去数年 AI 企业对数据质量的相对不重视,以及数据标注员被称为 AI 从业人员的底层,让这个行业进一步陷入了低价低质的怪圈。
大量劳动密集型的数据标注工厂在 AI 产业爆发初期,为中国人工智能企业的崛起做出了巨大的贡献。随着人工智能产业的发展与进化,数据标注行业开始朝着专业化、精细化、定制化方向发展。AI 企业在逐步落地过程中发现,所需要的数据维度和复杂度正变得越来越高,数据服务的众包模式以及通用数据集已经难以满足 AI 企业的数据需求。「精准优质」、「安全独立」的数据被认为是 AI 企业落地前的刚需。
2018 年初,甲子光年曾报道称,BAT 和 AI 企业占到了数据标注任务来源的约 7 成,但随着 AI 落地到传统行业,这个比例正发生变化。「比如银行、保险、汽车这些行业,在引入人工智能时有很大的势能。」贾宇航用车内的疲劳检测来举例,虽然市面上有不少开源或付费的数据集,企业也可以比较容易地获取算法然后进行训练,但作为整车厂,关心的并不是模拟器上的准确度,而是具体在自己某一型号的汽车上,在后视镜或是中控台上摆放的摄像头的具体效果,如果数据不是真实地在这个环境下采集,很难实际论证。
一开始就定位定制化采集和高精度标准的云测数据,采取的是自建基地模式,全职雇佣数据服务人员。从商业模式上来看,比起欧美逐渐成熟的如 Scale AI 的众包模式,云测数据想的会更远一些,自建基地模式要更稳定高效,另一方面,也能更规范性地保护数据隐私。
Testin 云测 CMO 张鹏飞补充道「从整体看来,AI 数据行业关于安全、隐私等方面并没有统一的标准和强调重视。但从我们长远角度出发,一直在隐私和安全防护角度下大力气服务行业、树立数据质量标杆,只有以这种负责的态度来服务客户,我们的行业才能『良币驱除劣币』,真正让人工智能成为新一轮技术革命,改变整个社会和人类进程」。
「安全」和「独立」显然密不可分。据了解,云测数据坚持独立第三方的立场,与所有数据采集的用户都签订数据授权协议(包括支持欧盟 GDPR 协议),对客户定制的数据交付后不留底全部删除,并建立了从防火墙到内部信息系统管护、各终端不联网、USB 接口封死等数据保障机制来保证数据安全。
为了尽量提升效率和保证数据质量和数据安全,云测数据在华北、华东、华南建立数据标注基地。一般 AI 产品在发布前一个月就需要拿到标注好的数据进行训练,而数据训练前一个月就应该完成数据的采集,对追求速度的 AI 企业来说是分秒必争的。「我们现在千人规模的全职的数据人员,但还是远远不够。」
不久前 IDC 联合量子位发布的《AI 落地白皮书》中称,中国在全球人工智能市场占比 12%,位居第二,但增速 64% 位居全球第一,云测数据在数据采集和标准的市场还有庞大的增长空间,贾宇航认为,未来他们会更加深入 AI 细分领域和场景,并会考虑在未来进一步开拓国际市场。返回搜狐,查看更多