您的位置  娱乐资讯

数据标签是中国在人工智能大战中的秘密武器

  • 来源:互联网
  • |
  • 2020-01-13
  • |
  • 0 条评论
  • |
  • |
  • T小字 T大字

这是一场真正的军备竞赛。

"您现在所看到的-所有这些AI的壮举,例如无人驾驶汽车,解释医学图像,击败围棋的世界冠军等等,这些都是非常狭窄的智能,它们确实针对特定目的进行了训练。 在这种情况下,我们可以收集很多数据。"

这据说是Facebook的AI研究负责人Yann LeCun所说的。

这些话凸显了一个事实,即在最近闪亮的AI产品泛滥之后,隐藏着更为平淡的人类现实。

世界各地的科技巨头通常依靠大批人工来标记将用于训练他们的机器学习算法的数据。

"标签数据"仅意味着获取一组未标记的数据(例如电话成绩单或街道图像),并在单词或汽车等单个元素上添加内容丰富的描述性标签。

为了帮助训练自然语言处理系统,数据标签厂商可能会添加标签,以显示某个单词在不同上下文中的含义。

尽管此类估算将始终是通用且可简化的,但数据科学类型已按如下方式帮助分解了机器学习项目中的时间分配:

如果向机器学习算法提供大量准确标记的训练数据,则可以在"现实世界"中将其用于包括无人驾驶汽车在内的计算机视觉任务。

数据标记需要花费很多时间,这是一项重要的任务,尤其是当数据将用于训练自动驾驶汽车时。 可以接受的误差幅度很小,我相信我们都会同意。

尽管AI取得了所有进步,但仍然像其绰号所暗示的那样是人造的。

机器学习算法的学习方式与人不同。 一些科学家正在尝试教AI像孩子一样学习,但是这些努力仍处于婴儿阶段。

我们偶尔会通过这样的特技收到有关此事实的强烈提醒,这些改动包括完全模糊了计算机视觉系统的较小路牌,如下所示:

很明显,当我们看到这个破坏性的STOP符号时会看到什么,但是神经网络分类器认为在几乎100%的测试中它都是" Speed Limit 100"符号。

因此,就目前而言,机器学习需要良好的数据,而实现这一目标的最可靠方法是让人们整天坐在那里图像添加注释。

您拥有的人越多,您可以标记的数据就越多。

这是一场军备竞赛,但不是我们所熟悉的那种。

在中国,他们谈到前店后街的经济模式-字面意思是"前店后厂"。 通常,这用于协助供应链中的劳动,资本和资源分配。

过去(特别是在1980年代和1990年代),中国使人民币贬值,以使其对外国的出口价格更低,并刺激了对生产大众消费品的工厂的投资。 这也使进口商品对中国公司而言更加昂贵,从而刺激了他们在本地购买设备。

基本上,在这种情况下,中国是工厂的后方,而西方是工厂的前部。

现在,自那时以来(也是由于这一时期),中国的野心有所增强,以至于中国公司希望"升至"价值链的顶部,并拥有客户关系以及产品创造。

为什么要提这个? 好吧,"前店后厂"的模型仍然占据主导地位。 现代中国的不同之处在于,机器人在前面,而人们在后面。

人们正在努力工作,以使中国的汽车,数字助理和店内机器人得以蓬勃发展。 在理想的世界中,中国将向世界其他地区出口优质产品。

这有点让人联想起18世纪的"机械土耳其人",下棋的自动机令赌徒们大吃一惊,结果却法相木偶由下面的一个小个子在一个隐藏隔间所控制。

我提到这个特定示例是有原因的,信不信由你。 亚马逊做出了一个颇具说服力的决定,将其众包的工作平台命名为" Amazon Mechanical Turk",这是对曾经风光无限的前任的提倡。

在17世纪,"计算机"是可以执行算术运算的人。 在20世纪中叶,计算机仍然是处理公司内部数字转换的人(主要是女性)。 直到后来计算机才被编程并数字化,而我们今天仍在对其进行培训。

每天,我们都是这一动态的一部分。 我们使用这些验证码表格来"证明"我们是人类,并且这些数据用于使机器更智能。

尽管我们确实偶尔会瞥见一幕,但对于今天仍然有很多AI培训仍然是手动的,人们会感到惊讶。

去年,苹果,谷歌,亚马逊和Facebook在导出用户数据并将其与第三方共享时被迫道歉。

这些技术巨头向数据注释公司提供信息,例如与数字助理的用户对话,以提高其AI系统的准确性。

在发布之时,还没有人找到一种准确,经济高效的方法来代替人类标记物。

这样,回到中国。

中国的农村地区(如贵州)现在是海绵状的数据注释工厂的所在地。

对于当地人来说,这是一个诱人的职业。 每月3,000元人民币(425美元)的平均工资是该地区平均工资的三倍。 去年,贵州的经济产出增长了10.2%,是该省增长最快的省。

当然,科技公司之间的"军备竞赛"不只是让更多的人来执行流程中的标签工作。

尽管如此,这是一个好的开始。

正如贵州一家数据标签公司的所有者在接受《纽约时报》采访时所说,

"我们是数字世界中的建筑工人。 我们的工作是一砖一瓦地铺设。 但是我们在人工智能中发挥着重要作用。 没有我们,他们将无法建造摩天大楼。"

淘宝的视觉搜索等知名产品(最近在时事通讯中进行了讨论)都经过训练,这些信息是根据阿里巴巴在这些农村地区的仓库中标记的数据进行的。

就其本身而言,腾讯正在研究这个巨大的掩体,以存储,处理和分析来自其广受欢迎的微信应用程序中的用户数据:

当然,中国通常比其他国家拥有更多的劳动力。

它在许多关键技术领域也落后于美国,并且陷入了与特朗普政府的持续斗争中。

美国出于多种原因将这种体力劳动外包。 一方面,建立这些设施,培训劳动力然后向他们支付讨厌的最低工资是很昂贵的。 将工作转到更便宜的地方要容易得多,尤其是在成品(大量带标签的数据)看起来相同的情况下。

中国也许能够将过去的劣势变成强项。 贵州等农村地区仍不发达。 数据标签公司带来了急需的工作和相对健康的薪水。 与北京这样的主要城市相比,这些薪水相形见拙,这也为科技公司带来了更多好处。

中国完全跳过了几代人的技术发展,从而在接下来的重大事情上处于领先地位。 非接触式信用卡从来没有真正起飞过,它们已经直接转移到智能手机支付。 在西方国家,从非接触式卡转移到智能手机支付的动机远没有吸引力。

自动驾驶汽车也是如此。 由于未能在全球以人为本的汽车市场上大打折扣,中国公司已将重点转移到制造无人驾驶机器上。

如果中国科学家学会在此过程中开发更先进的微处理器,那么中国发展的最新阶段只会真正威胁到美国科技巨头。

正如《经济学人》本周报道的那样,中国仍在追赶这一至关重要的行业,到2022年,这一行业的产值将达到5750亿美元。

尽管数据标记看起来像是一项仅用于一个有用目的的繁琐,单调的任务,但它也可以在此宏级别上发挥巨大的作用。

通过自始至终获得机器学习供应链的所有权,中国的AI科学家仍然与这些复杂的,有时是不透明的系统的内部运作保持紧密联系。

中国庞大的劳动力将对开发宝贵的知识产权商品发挥至关重要的作用。

(本文翻译自Clark Boyd的文章《Data Labeling is China's Secret Weapon in the Connected Car Battle》,参考:https://towardsdatascience.com/data-labeling-is-chinas-secret-weapon-in-the-connected-car-battle-e8e395965380)

免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186
友荐云推荐
热网推荐更多>>