• QQ空间
  • 回复
  • 收藏

Testin有数贾宇航:AI发展遇瓶颈,高质安全数据将化解危机

东方头条 2019-10-16 16:27:35 科技

文丨张继文

孩子成长过程中营养至关重要,不同的成长阶段有着不同的需求。人工智能的发展也是如此,依靠海量数据喂养的它们已经逐渐成长。AI企业在落地过程中发现,所需要的数据维度和复杂度也越来越高,高质量的数据市场火热起来。

Testin有数(原云测数据)总经理贾宇航告诉亿欧科技:“之前的数据采标是为AI企业提供‘奶粉’,而Testin有数的业务更倾向于运动员的蛋白粉,定制化的数据采集和标注可以帮助企业加速产业化进程。”

作为AI数据标注行业内的头部品牌,Testin有数致力于采用自建数据标注基地和定制化搭建的数据采集服务,为 AI 企业提供全流程一体化的高精、高质数据服务解决方案。

贾宇航补充道:“当我们看到数据服务的众包模式以及通用数据集难以满足所有数据的需求时,我们便提出了定制化的服务。”截至目前,Testin有数在华东、华北、华南设有数据交付中心和数据采集基地,已成功为数百家企业提供AI数据服务。

数据算法息息相关

定制化服务让AI更聪明

第四次工业革命即将来袭,人工智能被视为第四次工业革命的核心,无论从国家层面还是社会层面,人工智能的热度持续高涨。中国作为世界第二大经济体,人工智能的产业落地速度远远快于美国,人工智能企业发展迅猛。截至2018年上半年,中国人工智能企业已经达到了1011家。

人工智能如火如荼发展的同时,AI企业的竞争压力与日俱增。深入到各行各业的AI企业,渐渐发现现有算法模型依然无法满足真实场景的需求。贾宇航告诉亿欧科技:“算法的精度与数据的质量有着直接关系,数据的数量和质量会成为产品落地的瓶颈。”

一般来说,人工智能企业往往通过开源数据、数据集等方式进行前期理论认证,因此众包的数据服务模式逐渐兴起。随着算法推向市场,企业需要根据自身场景不断解决新的问题,高精度、定制化的数据采标市场不断发展起来。

小数据的搜集和标注已经成为AI企业发展的桎梏,为了解决这样的问题,Testin有数便提出坚持为AI企业提供自建数据标注基地和定制化搭建的数据采集服务。“与此前的众包模式不同的是,Testin有数搭建的场景实验室可以根据客户的需求,进行数据采集。”贾宇航向亿欧科技解释道。

为了从源头保证数据的高质量输出,Testin有数通过自建数据基地体系实现所有标注员的统一管理、规范生产。数据标注看似是简单的重复性劳动,其实对标注员的专业知识有一定要求。

为了保证数据的准确率,Testin有数在流程上做了大量工作。贾宇航介绍到:“所有工作人员都要接受60天职前培训,在数据审核环节,采用专人专岗的审核团队,与此同时,我们还会将附有标准答案的作业项目无感知地安插在标注人员的正式标注作业中,精准把握标注人员的对标注规则的理解程度。如果,我们发现某人在某一领域标注时总出现问题,项目经理便会对其进行重点培训。”

采标市场进入争霸期

“独立”成为竞争优势

从数据采集到标注再到审核,整个流程需要大量人工投入。人工智能光鲜亮丽的背后,少不了每位标注员在电脑上一个个框线的标记。人工智能提出之后,“机器替人”的社会焦虑便不断涌现,作为人工智能背后支撑的产业,数据采标行业还处于轻技术、重人工阶段。

就目前而言,诸如亚马逊等互联网巨头通过众包模式进入数据服务市场,以Testin有数为首的第三方数据服务提供商也已经在行业积累了广泛的品牌影响力和行业资源。随着人工智能落地步伐加快,数据采标行业的前景将更加广阔,强者愈强,行业格局已初显。

不仅如此,由于采标行业技术壁垒偏低,企业进入难度不大,使得整个行业出现了同质化甚至陷入价格战的漩涡中。对于这样的现状,贾宇航的观点是:“竞争是不可避免的,我们一直认为Testin有数优势在于它是一家独立的第三方服务品牌,持续为企业提供精准高质且高效的数据服务。”

贾宇航的想法不难理解,数据对于每个公司的重要程度已经不言而喻。从行业竞争环境来看,AI公司或AI部门将独自拥有数据视为构建自身的核心竞争壁垒之一。因此,“精准高质”“独立”“数据安全”成为了Testin有数在未来竞争最大的优势。

在坚持“独立”方面,Testin有数很执着。数据标注的产业链由标注员、工具和算法组成,Testin有数坚决用人员+工具的模式,不进行建模。首先,辅助标记的效果并不好,标记的准确率不高;其次,建模需要用客户的数据进行训练,贾宇航告诉亿欧:“我们是AI数据领域的服务公司,对客户数据标注的定义只是帮助客户将数据变得更有价值,不会用客户数据进行训练。我们完成企业的数据采标需求后会彻底清除客户数据,帮助客户数据安全。”

据了解,通用性的数据标注算法的精度普遍不高。贾宇航向亿欧科技分享到:“如果企业有降低成本的需求,我们支持客户将预标注的结果交给我们,我们在此基础上进行修改。”

数据标注帮助AI模型更加精准,人工智能在一定程度上释放了现实环境中不同行业的生产劳动力,但是AI的发展依然少不了人工的支持。

人工智能时代的富士康

专业性人才与AI共进退

随着AI的发展以及普及,数据标注行业渐渐兴起。数据标注行业一直被视为劳动密集型产业,深入这个行业才发现,标注这一产业也正在随着AI的发展逐渐从劳动密集型转变为专业密集型。

贾宇航十分认同这个观点:“我们认为数据标注属于专业密集型,数据标注需要人员学习各个行业的知识,与此同时,他们对于工具操作的熟练程度也有一定要求。最重要的是需要这些人员能够协同工作。”Testin有数自建数据基地的方式,所有标注员统一管理、规范生产,在保证数据准确率的同时,有效保证标注作业的信息流转,提升标注效率。

目前,Testin有数已经为智能驾驶、智能家居、智能安防、智慧城市、智慧金融等领域提供定制化服务,可以对文本、语音、图像、视频等各类型数据进行处理。例如,在智慧金融行业,语音数据和OCR数据更多,这对于标注员的技能要求也会更高。

随着业务的不断深入,Testin有数也看到了AI公司在商业落地的过程中正在向细分行业发展。“为此,Testin有数会更加注重培养和积累在细分行业的专业人才。以确保企业在提出高精度、高难度的业务需求,我们能够保质保量完成。”贾宇航告诉亿欧科技。

人工智能的发展需要数据,AI行业的进步更需要人工的推动。而随着AI的进步,算法的要求逐渐升高,有越来越多的数据需要进行标注,标注的难度也在上升。技术的发展会变革现有的劳动方式,也会催生新的劳动形态。在2017年发布的《新一代人工智能发展规划》显示,到2020年,我国人工智能核心产业规模超过1500亿元,带动相关产业规模超过1万亿元。

作为AI带动的相关产业,数据标注的市场规模究竟有多大?贾宇航分享了他的估算方法:“一般来说,一个500万的项目会有10%的资金用于数据的采集和标记。”由此可以粗略推算出,到了2020年,数据采标行业的市场规模能够达到150亿。

人工智能行业不断进化,数据采标行业也要不断完善。对于未来,贾宇航表示:“我们期待更多的公司加入数据标注行业,与Testin有数共同推进数据标注走向成熟。希望,未来AI公司可以按照自己的需求来找相应的数据服务公司。”