百度数据众包一门AI新基建的“基建”生意

 

  AI成了新基建的C位,不论是原本就以AI立身的百度,还是纷纷在技术上加大投入以拥抱新基建的阿里、腾讯等巨头,最近都显出强化AI地位的态势。

  在AI新基建浪潮下,其背后的动力和“灵魂”AI数据行业正在快速增长。按照艾瑞咨询《2019年中国人工智能基础数据服务行业研究报告》,预计2025年市场规模将突破113亿元,其中,原本就在AI技术和应用上领先的企业在数据业务上也更为积极。

  有人曾称5G是“新基建”的“基建”,是很多新基建项目的前置技术。事实上,以数据众包为代表的AI数据行业,也可以看作AI新基建的“基建”型业务,为各行各业智能化转型提供动能,加速智能经济到来。反过来,当AI新基建蓬勃兴起时,它背后的数据众包产业也面临急速膨胀的市场,这是一片门槛不算高的蓝海,但并非人人都能做得好。

  AI从行业架构上分为基础层、技术层、平台层以及应用层。无论是算力、算法、数据都只是在基础层,海量的数据获取和加工是AI发展的基石。

  我们通常看到的那些AI智能化应用,在后端首先都需要足够多、足够好的数据对计算机进行训练。

  推动基础层AI数据需求进一步增长,肯定来自于更上层的“倒逼”。总体看来,新基建的大背景下,整体AI行业的高速发展驱动了AI数据需求的增长“提速”,而具体来看,又有三重因素:

  以人脸识别为例,一般的FaceID已经为人所熟知,其原理,是通过大量数据训练,让算法可以精准为整张脸标记特征,眼睛、鼻子、嘴、颧骨从而识别不同的人物、确定身份。

  例如,疫情期间戴上了口罩,就没办法为鼻子以下的部位做特征标记进行比对。这时候,AI数据的价值就体现出来了,更复杂、更大量的数据训练,让系统在鼻子以上部位能标记出更多、更细致的特征,半边脸就能完全区别出一个人来,甚至有科技公司开发出凭借眼部复杂特征的识别方式。

  只有更高质量、更具有丰富度的数据,训练出更细致的特征标注能力,系统识别的能力才会越强。在人脸识别之外,很多AI落地应用也有类似的逻辑。

  例如,在自动驾驶领域,决定自动驾驶平稳性和安全性的,是系统对路况各种要素的识别,而它们都依赖于前期大量数据训练,给机器标注各要素、教会它识别。

  标注得越精细,机器的理解能力就会越强,发生意外的可能性就越低,就像学生学习知识一样,“不知道”的东西越来越少。

  国内处在自动驾驶领先位置的百度,首先领先的就是数据,其ApolloScape数据集比Cityscapes、Kitty等同类的自动驾驶数据集大10倍以上,涵盖更复杂的环境、天气和交通状况。

  可以说,在那些深耕的场景里,AI的竞逐首先甚至主要就是数据的竞逐,AI新基建的深度落地,离不开对数据的索求。

  与多数人想象不同的是,同为AI基础层,看起来十分高深的算法,其门槛已经不算高,公开渠道上,论文、开源深度学习框架、各种各样AutoML框架算法,可供获取的很多。

  除了百度这样的AI巨头还需要在算法上做一些突破和引领,对多数AI参与者来说,算法已经不是遥不可及。

  而正如原南开大学校长龚克所言,中国在核心算法上的优势不算明显,但中国的数据和应用场景可以领先世界。

  这方面,AI数据需要的应用采集源(例如人相、交通道路图像等)、劳动力人口、需求市场,中国原本也十分有优势。在这样的“AI国情”下,AI新基建除了保证自有算法能力不被卡脖子,在已有大量落地场景的优势下,大力发展AI数据就顺利成章。

  AI数据的需求方,主要包括AI公司、科技公司、科研机构以及传统意义上的行业企业(手机、汽车、安防等),这个群体越来越庞大。

  AI数据的市场供给,主要由企业自建或直接获取外包团队的形式以及供应商组成,而按照艾瑞咨询的报告,供应商模式占比高达79%。

  问题在于,为什么需求方们都热衷于选择数据众包这类供应商模式来获得数据,在数据需求庞大的情况下,为什么不自建团队采集和标注数据?这主要基于三个痛点:

  如果自建团队,很多AI需求方将产生与此类似的“潮汐现象”:受自身产品迭代周期的影响,在AI迭代期涌入大量数据需求,团队难以承受;在日常维护期数据需求不是很旺盛,团队又在闲置。

  于是,数据供应商就成为弹性投入、增强企业适应力的必然,市场供给的主力军变成各类AI基础数据的服务提供者。

  自建团队往往面临较为严重的数据资源池匮乏问题。举例来说,如果你是一家做与人体有关的图像识别的专业公司,或者需要这样的技术来配合主业,你可能需要寻找不同肤色、不同外形特征的人物做AI数据采集,以提升AI的“认知”能力,而对很多企业而言,除了依赖那些有限的开源数据,没有太多办法。

  这方面,专门做数据业务的平台就有明显的资源聚集优势。例如,单就人物图像来说,百度数据众包的数据资源池在国内覆盖30个省份,具备汉族、少数民族采集能力;在国外覆盖22个国家,具备白人、黑人、印第安人等多人种采集能力。

  数据众包平台集中大量地熟悉数据采标业务,已经得到了充足的锻炼,一些平台,例如百度数据众包还对内提供大量数据服务,自2011年起全面支持百度自动驾驶、小度助手等AI业务,它们对于外部需求,在能力上更容易应对。

  这本质上体现在通用的“标准化”和专项的“定制化”区别上。AI数据有时候只需要一些标准化的泛化数据,例如道路要素标记,车、路灯、行人、斑马线、双黄线等,有些时候则需要定制化数据,例如专门针对乡村小道的识别,其中可能有野狗、野猫等更复杂的要素。

  但这种标准化和定制化只是相对的,对发展往往不够充分的自建平台而言是“定制化”(意味着需要花费大量精力),到了数据众包平台那里,可能只是“标准化”的一部分,像百度数据众包的标注能力已经可以覆盖市95%以上的主要标注场景。

  有庞大而快速增长的市场,也有供应商模式相对自建团队的优势,在AI新基建浪潮下,数据众包成为了一门“更好的生意”,这些年也有不断大量的玩家加入。

  总体而言,最早的玩家大都已经取得较明显的市场优势,例如百度数据众包已经成为在世界范围内采标能力、流程标准化/工具智能化、数据安全等方面都处于领先位置的一站式AI数据服务平台(这与中国AI领先、百度以AI为主战略也有关系),覆盖了智能驾驶、手机、互联网、AI开发者等头部客户;

  而新进入者亦有冲劲,像云测数据从云测试转身到AI数据行业,对京东众智、腾讯云数据、龙猫数据等都可能形成冲击。

  不过,从需求方的角度看,不论是谁,“一门更好的生意”要坐实,这三大基础要求必须满足。

  AI数据不但是AI新基建的重要驱动力,它也是企业的重要资产,它的泄露和核心算法的泄露都是知识产权的重大损失,没有根本区别。

  只不过,算法可以自己蒙头在家管死,而在数据众包市场上,涉及到甲乙方原始数据交接、生产过程及成果交付,这其中存在着许多数据安全的口子。

  一旦上升到新基建的高度,对很多赖以生存的需求方来说,说数据是命根子可能不为过,对数据的处理保证安全是第一位的,甚至需要“银行级合规”避免出现任何纰漏。

  对巨头而言,出现安全问题就更加不能容忍,例如,百度数据众包为此在数据确权、数据加密、实名认证、生产监控等方面进行全流程管控确保数据安全

  如果我们翻开各大平台的官网主页,即便最新进入的玩家云测数据,都能发现它们用了很大的篇幅先讲安全。

  不过,安全最终还是靠“不出事故”来检验,如同云计算稳定性说得再好,不宕机才是最好的证明。

  虽然AI是顶尖的前沿技术,但AI数据确实一个不折不扣的劳动力密集行业。AI新基建首先驱动的是对数据产量的需求,这直接反应到劳动力规模是否足够大上,毕竟,一张一张的图、一句一句的话、一段一段的语音,都需要人力一个个标记好。

  这是一个直观的要求,它的实现又分自有团队和代理全职团队两个部分,例如百度数据众包宣称自有2000人团队、遍布全球22个国家的超过5万名采标人员的代理商资源池基本上,各平台都在着力凸显自己的团队规模,庞大的劳动力群体是AI新基建的获取足够多数据的重要保障。

  但是,正如工厂流水线有最优生产流程,有帮助工人更快、更好完成工作的辅助工具一样,要提高产量、提升效率,流程和工具也必不可少,标准化、工业化的生产流程、高效易用的标注工具,也是百度等数据巨头提升自我的重要着力点。只不过,这些只是起到“乘数作用”,底子还是看劳动力规模。

  在安全、产量之外,质量是数据众包成为一门可持续生意的根本,也是AI新基建真正落地的根本,质量不达标的数据不但不能推进系统识别能力的提升,甚至可能产生误导,如同学生学习了低劣的习题集再去考试一样。

  而说白了,数据众包可以看作一门以数据为产品的“制造业”,要提升质量,对应地,就要配以“精益制造”级别的复杂管理体系。

  这个体系,通常包括严苛的审核体系(例如标注、审核、抽检的层层把关)、人尽其用(不能混用CV、NLP等数据人员)、固定的例会总结问题提醒改进等,此外,还有一些工业化生产流程的浓重痕迹,例如百度数据众包平台的三阶段“生产加工流程”小流量测试跑通生产流程、正式生产不断调优、交付时最终验收审核。

  可以说,AI数据对质量的要求,和精细化制造业实现更好的良品率,别无二致。

  由于“劳动力需求”的特殊性,数据众包在特殊的时代背景下还超出了AI新基建的价值范围。

  脱离行业角度,从稳就业来看,百度山西数据标注基地人员规模已近3000人,这些都是实实在在的就业人口容纳能力,是应届毕业生、其他行业分流人员(例如在山西的某传统产业)甚至包括残障人士的一份生计。加上其他工作人员,后疫情时期,一个数据众包平台已经帮助当地实现就业。百度方面表示未来要通过山西基地的示范作用,聚拢更多数据企业,为山西本地创造超过5万个就业岗位。

  甚至于,百度数据众包还打算打通数据生产,数据交易和数据应用的三个环节,做一个开放的平台,如果这个构想成功,在AI数据领域建立一个资源对接的市场,不仅是AI新基建背后的数据生态闭环问题,或还将汇聚起大量的就业机会和新的经济增长点。

  我们否定AI将摧毁就业机会时,理由常常是新的技术一定会带来新的工作岗位,而AI数据产业毫无疑问就是正在发生的例证。数据众包不仅将是一门更好的生意,也是下一个时代许多人的职业去处。

  仅代表个人观点,未经授权,任何人不得以任何方式使用,包括转载、摘编、复制或建立镜像。

  部分图片来自网络,且未核实版权归属,不作为商业用途,如有侵犯,请作者与我们联系。

  【重点关注领域】智能家电(含白电、黑电、智能手机、无人机等AIoT设备)、智能驾驶、AI+医疗、机器人、物联网、AI+金融、AI+教育、AR/VR、云计算、开发者以及背后的芯片、算法等。

  2023年7月6日,第六届世界人工智能大会(WAIC2023)在上海开幕,“人工智能大模型”是本届大会的备受瞩目的话题,据悉,在昇腾AI大模型的创新研发中,华为联手26家行业领军企业,组建了一支协同创新的“AI明星队”,云天励飞作为中国人工智能企业的杰出代表,和互联网大厂、运营商、科研院所等优秀团队

  这几个月来,以ChatGPT为代表的生成式AI展现出的能力令世界惊叹。自从2016年AlphaGo战胜李世石掀起了一波AI浪潮后,AI仿佛已经沉寂了很久,ChatGPT的横空出世就如同一束耀眼的光芒,让AI这个名词重回C位。过去在AI1.0时代,主要通过训练模型来实现图像识别、声音识别、语言处理等特

  文:互联网江湖作者:志刚2023年的IoT需要一个新故事。6月29日,涂鸦智能在开发者大会上,发布了企业级战略PaaS2.0,希望通过一个平台+四大开发服务,建立起IoT生态。对于这场发布会,市场的态度是积极的。美东时间6月29日收盘,涂鸦智能美股股价上涨5.6%,来到1.87美元/股。近日股价稳定

  美团曾经的二号人物王慧文对标OpenAI的创业项目光年之外,以20亿卖给美团,再度引发市场对大模型的热议。

  2020年底,王慧文在朋友圈写下这句话时,外界本以为这位伴随中国互联网发展而持续创业20年的人物即将告别创业舞台。但是,一个曾经多次创业,正值壮年的互联网老将心中的创业热情是难以熄灭的。

  通义灵码AI编程能力再进化,说几句线杭州云栖大会上,随着通义大模型能力的全面提升,阿里云通义灵码迎来重磅升级,从一年前只能完成基础的辅助编程任务,进化到几句话就能完成需求理解、任务拆解、代码编写、修改BUG、测试等开发任务,最快几分钟可从0到1完成应用开发,提升数十倍开发效率。自去年首次亮相以来,通义灵码已入职中

  9月19日,小鹏汽车董事长CEO何小鹏驾驶“全球首款AI汽车”P7+亮相2024云栖大会,这款车搭载了业内领先的端到端大模型。过去2年,小鹏汽车与阿里云共建的AI算力规模提升超4倍。何小鹏表示,将继续深化与阿里云的AI算力合作,加速推动端到端大模型拓展自动驾驶上限,提升下限。端到端是当下最受业界关注

  9月19日,阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭在2024云栖大会上发表主题演讲。他认为,过去22个月,AI发展的速度超过任何历史时期,但我们依然还处于AGI变革的早期。生成式AI最大的想象力,绝不是在手机屏幕上做一两个新的超级app,而是接管数字世界,改变物理世界。阿里巴巴集团C

  “人工智能的商业模式,是要创造一个市场,而非一个算法”。这是世界AI泰斗MichaelI.Jordan的观点。而当前的全球AI市场,占据主导地位的中美双方,却也走出了两条截然不同的技术路径,前者执着于前沿技术的探索,后者则发力应用优化和商业化落地。南辕北辙的两个方向,或许已经无法直接进行排位先后、优

  智能体进化发展了一年,现在的RPAAgent迭代到什么程度了?从实在智能最新发布的实在Agent7.0,看RPAAgent的迭代升级抓取豆瓣信息、自己制作PPT,这款AIAgent真的实现了流程全自动化AIAgent构建到执行全自动化,持续进化RPAAgent再次降低智能体应用门槛实在智能重磅发布实

  崔大宝|节点财经创始人进入2024年,大模型似乎有熄火之势:资本市场,与之关联的概念炒不动了,英伟达股价动辄暴跌重挫,引发“泡沫戳破”的担忧;消费市场,BATH们的推新活动少了,产品更新迭代的速度慢了,民众的关注度降了……热闹的大概只剩下两场酣仗:自5月15日字节跳动宣布“以厘计费”,打响国内大模型

  文智能相对论作者陈泊丞好消息!你心心念念的事业单位发录取公告了!坏消息!他们没录你,录了个数字人。图片来源网络随着数字人技术的突破,越来越多的传统企业和机构开始用上了“数字员工”。甚至很多中国人心心念念的“铁饭碗”,也被这些数字人给捧上了。数字人捧上了“铁饭碗”简单翻看一下全国各地事业单位的“录

  黑芝麻智能敲钟后,港交所门口又有一些智驾芯片企业引发关注。据悉,近日地平线已通过中国证监会IPO备案,拟发行不超过11.5亿股境外上市普通股并在香港联合交易所上市,预计筹集约5亿美元资金。从天眼查可以了解到,该公司成立于2015年,是一家乘用车高级辅助驾驶(ADAS)和高阶自动驾驶(AD)解决方案供

  8月21日,万众瞩目的2024世界机器人大会暨博览会在北京亦创国际会展中心盛大开幕。这场为期5天,集“展览”“论坛”“赛事”于一体的机器人盛会,反映了当下机器人领域的繁荣生态。据官方统计数据,今年现场逛展观众高达25万人次,比去年增加25%。机器人行业有多火?看看2024世界机器人大会火爆程度便可知

搜索