小乐乎资讯

为什么算法工程师每天都在搞数据,AWS全球机器学习副总裁Swami

  • 日期:2021-01-08 13:11:55
  • 来源:互联网
  • 编辑:小优
  • 阅读人数:228

这是一个数据大的时代。

根据IDC 发布的《数据时代2025》白皮书,全球数据量大约每两年就将翻一倍。到2025年,全球数据总量将攀升至163ZB。而且自动驾驶、物联网等新技术正在不断推动数据量的。每辆自动驾驶汽车每秒就会产生 6-8GB 的数据,现在国内一线城市的摄像头数量都在百万级别,每时每刻产生大量的数据。

好在,机器学习可以成为处理大规模数据的利器。数据是人工智能的燃料,机器学习的发展,就是伴随着数据处理难度和复杂性的升级而不断升级。如何更好的帮机器学习者打通数据屏障,已经成为领先的人工智能企业的重要课题。

为什么算法工程师每天都在搞数据,AWS全球机器学习副总裁Swami(图1)

为什么算法工程师每天都在搞数据?

很多人眼中,机器学习算法工程师的日常是这样的:选择并优化算法、训练与调优模型、部署模型与验证模型。实际上,算法工程师大约有70%的时间是花在数据上的,花在模型和调参上的只有不到20%,这种现状引发了不少者的共鸣。

此前,AWS发布的Amazon SageMaker Ground Truth 这个功能可以通过主动学习自动为输入的数据添加标签。主动学习是一种机器学习方法,它会识别需要人工添加标签的数据以及可以由机器添加标签的数据。与人工为整个数据集添加标签相比,Ground Truth最高可减少 70%的成本,并缩短添加标签的时间。

为了进一步简化机器学习过程中数据处理方面的复杂性,今年re:Invent大会,Amazon SageMaker推出了两个全新的功能,分别帮助算法工程师简化数据处理和进行特征。

Amazon SageMaker Data Wrangler 提供了更易用的数据预处理,大大简化了数据准备和特征工程的工作。Data Wrangler支持从各种数据存储中一键导入所需数据,其包含超过 300 个内置的数据转换器,可以帮助客户在无需编写任何代码的情况下,对特征进行规范化、转换和组合。

Amazon SageMaker Feature Store是用来存储、更新、检索和共享机器学习特征的工具。目前,这项特征可以被保存到Amazon S3中。

Feature Store解决的痛点是,大多数特征并不是只用于一个模型,而是被多个人员和数据科学家重复用于多个模型中。此前,工程师只能自行应用程序来跟踪特征,但工作量很大而且容易出错。有了Feature Store,用于训练的大批量特征,以及用于推理的小批量特征子集,都可以保持特征的一致性和更新的及时性。

数据偏见不可避免吗?

人类通常是非理性的,有很多认知偏差,不能准确地认知自身及外部环境的真实状态。在人们信息收集、信息加工、信息输出和信息反馈的各个阶段,都会产生认知偏差。机器学习也会产生偏见,这些偏见广泛存在于机器学习的各个环节,包括数据偏见、算法偏见等等。

数据偏见是指人们在工作中,由于各种原因不经意把并非完整客观的数据进行收集并处理,而使得结果产出发生“偏见”数据偏见是机器学习中一种普遍的难题,通常会导致数据集的某些元素比其他元素具有更大的权重或表示。常见的数据偏见有样本偏差、排除偏差、测量偏差等等。

有偏见的数据导致分析模型的结果偏斜,准确性低甚至分析错误。比如一个主要用白种人人脸数据库训练出来的面部识别,对不同种族的人的识别准确度要低得多。

为什么算法工程师每天都在搞数据,AWS全球机器学习副总裁Swami(图2)

Amazon SageMaker Clarify的另一大价值在于提供了数据模型的可解释性。“它能帮助你去分析哪些特征对模型的预测更重要,特征和模型之间的关系不再像原来是黑盒子,而是有更强的透明度。” AWS大中华区云服务产品总经理顾凡表示。

数据库分析师怎么用好机器学习?

数据分析和机器学习有很多重合之处。

机器学习很高深,但尚处早期,受众有限。今年,AWS在机器学习领域的一大动作就是“扩圈”寻找更广泛的“圈外”者加入进来,使他们基于既有知识体系就轻松上手。AWS机器学习的“扩圈”正是从与数据分析的结合开始。

相比机器学习者,数据库者和数据库分析师是一个更庞大的专业群体。他们是否需要学习机器学习算法,才能享用机器学习带来的便利?AWS认为,完全不必。

为什么算法工程师每天都在搞数据,AWS全球机器学习副总裁Swami(图3)

2020亚马逊re:Invent大会上,AWS全球机器学习副Swami Sivasubramanian 一口气发布了一系列产品服务,包括Amazon Aurora ML、Amazon Athena ML、Amazon Redshift ML、Amazon Neptune ML、Amazon QuickSight Q,分别把机器学习能力融进了关系型数据库、Amazon S3的 SQL 查询、数据仓库、图数据库、商业智能等领域。数据分析人员只需使用早已烂熟的 SQL 语句,就能进行连带机器学习功能的操作。

以 Amazon Aurora ML 为例,当用户通过 SQL 查询客户信息以试图找到一些负面反馈时,Amazon Aurora ML 会自动调度 Amazon Comprehend 这样的 AI 服务来返回具备 AI 支持的查询结果。

机器学习尚处在早期阶段。据德勤发布的《全球人工智能发展白皮书》预测,到2025年,世界人工智能市场规模将超过6万亿美元。可以预见,在应对数据方面,机器学习提供给者的工具集将日益丰富,机器学习的门槛将越来越低。

本文为「智能进化论」原创作品。

本文相关词条概念解析:

机器

机器是由各种金属和非金属部件组装成的装置,消耗能源,可以运转、做功。它是用来代替人的劳动、进行能量变换、以及产生有用功。机器贯穿在人类历史的全过程中。但是近代真正意义上的“机器”,却是在西方工业革命后才逐步被发明出来。

网友评论

提交评论

网站申明:本站图片仅为设计美化,与文章无关。如认为影响您的权益,请与我们联系。