21世纪最性感的数据科学家,原来只是一群沮丧的天气预报员

 admin   2025-06-21 03:59   32 人阅读  0 条评论

本篇文章给大家谈谈21世纪最性感的数据科学家,原来只是一群沮丧的天气预报员,以及天气数据分析hive对应的知识点,希望对各位有所帮助。

《哈佛商业评论》在2012年的一篇文章中称数据科学家是“21世纪最性感的工作”,而性感意味着拥有急需的稀有品质。通常,这些人招募起来很困难、成本很高,也很难留住,因为他们所服务的市场竞争非常激烈。

截至2019年1月,该在线招聘网站确实发布了一份报告,显示对数据科学家的需求同比增长29%,自2013年以来增长了344%。

本来是一件很美好的事情,但现实却很骨感。在2019年伦敦Gartner数据与分析峰会上,Gartner分析师NickHeudecker表示“数据科学家让我想起了一群沮丧的天气预报员。”为什么会出现这么大的差距,又是什么原因造成这种情况呢?

初步数据收集和准备

数据科学家分析数据的方法可以为组织提供有价值的见解来推动业务决策。但现实情况是,他们花费了几乎一半的时间为无法投入生产的项目准备数据。

根据Gartner的数据,数据科学家将47%的时间花在数据收集、准备和题分析上,而不是开发模型上。这让数据科学团队陷入了困境,因为他们没有被带到公司来解决这些题。这导致一些项目失败和人员流动率高。

站在十字路口,如何扭转困境?这时,数据分析师和数据科学家的混合体————数据工程师出现了。

什么是数据工程师,你了解他们吗?

DataPipeline首席执行官陈诚提到“在与国内外顶尖公司交流的过程中,我发现他们大多为拥有一支极其专业的数据团队而感到自豪。这些公司在数据工程上花费了大量的时间和精力。我们已经达到了极致。这些大型工程团队开源了大量的数据技术,比如Linkedin的Kafka和Samza,Facebook的Hive、Presto,Airbnb的Airflow、Superset,还有我熟悉的Yelp,还有MRJob……这些公司在在数据领域追求卓越,为后续大步前进奠定了基础。”

GordonLindsayGlegg曾经用一个非常生动的例子解释了数据工程师的重要性“科学家可以发现一颗新星,但他无法创造一颗。他必须让工程师为他做这件事。”关于这个立场Netflix就是一个典型的例子。当Netflix想要弄清楚如何将数据用作公司内部的一流资产时,他们将数据工程的概念提升为一门独立的学科。一个由高级数据工程师组成的卓越中心已经成立,作为过去和未来之间的纽带。

就上游而言,他们经常和业务系统的人打交道,需要熟悉业务系统。比如它们存在哪些接口,是API级别还是数据库接口。在下游,他们必须与许多数据分析师和数据科学家打交道,通常负责管理数据工作流、管道和ETL流程。将准备好的数据传递给下游数据分析师和数据科学家。

当然,这还不是全部,下面就带大家一起了解一下。

带你成为一名数据工程师

1首先是数据的获取

这就像巧妇难为无米之炊一样。实现数据价值的前提是获取数据。

为了实现这一目标,工程师需要熟悉收集到的数据。最好有一个数据目录,能够清晰地组织这些业务系统中的数据,比如它们在哪里,它们的意义是什么。这时,一旦其他人需要从数据工程师那里获取所需的数据,就可以快速定位。

为什么推荐这个?小公司效果并不明显。在大公司中,可能有几十个、上百个系统,每个系统又包含几十张甚至上千张表。此时了解这些系统和任务实际上是一项非常复杂的任务。

当然,仅仅做到以上几点还不够。您还需要构建良好的工具和方法来提取这些数据。中间有很多维度,比如上游系统侵入性是否很大,可以给你什么样的权限等等。此外,还需要考虑数据是否会丢失,需要哪些保障?数据的语义,以及传输的准确性有什么要求。

相当于数据工程师需要有自己的工具箱,能够清楚地知道不同的维度需求可以使用哪些工具,并能够针对不同的情况改变相应的策略和方法。

2关于数据收集和数据清洗

收集数据基本上有三种方式埋点、从数据库/文件系统提取、通过API获取数据。工程师必须针对这三类数据有相应的对策并高效地完成。

下一步可能是数据清理。目前有两种情况一是把数据放到统一的ODS,先拉取数据,然后清洗。二是运输过程中的清洁。在这两种情况下,工程师都需要非常清楚应该采取哪些措施来实现数据目标。

会有一些偏好或者权衡,你需要在存储空间和执行效率之间找到平衡点。关于这一点,你可以阅读DataPipelineCTO陈苏从ETL到ELT,AI时代数据集成的题与解决方案

3关于实时和批量这里也有影响

目前,批流一体化是当前的发展趋势,就是在统一中管理各项任务,解决多个的运维题。这就需要工程师熟悉很多工具。以流计算框架为例,有KafkaStreams、SparkStreaming、Flink等。

4最后,数据存储

数据存储分为几个层次,包括ODS层、数据仓库层、数据集市层,然后是AI层和BI层。还有很多关于数据存储的知识。例如,仓储时,需要考虑上游源系统和下游目标系统可能不同。

企业应该如何看待数据工程?

数据工程之于企业,就像马斯洛需求理论之于人。因此,企业在应用数据工程时应遵循三角原则

第一个层面,企业要关注企业发展过程中最普遍、最基础的需求让数据可见、可访。重视数据工程是企业做大做强的基础;

第二个层次是高级要求。在获得数据意识并招募数据工程师后,企业需要开始从语义角度理解正在运行的数据流。实现从数据到企业战略指导再回到数据;

第三层次是目前看来最接近最顶层、最高级的需求建模、更完善的预测算法、更漂亮的数据可视化、深度学习、AI等……

从沮丧的天气预报员到性感的科学家,两者之间有多远

从一群失意的天气预报员到21世纪最性感的数据科学家,差距有多大?虽然不是那么远,但是很难。

如果数据工程师是构建数据管道的水管工,那么数据科学家就是画家和讲故事的人。简而言之,数据工程师需要预先清理、准备和优化数据以供使用。因此,减少数据管道中的人为错误部分非常重要。

只有这样,数据科学家才能执行各种分析和可视化技术,真正理解数据并最终从数据中讲述故事。

参考文献34;BY数据科学硕士

34;作者/奥列克西哈尔科维娜

点击链接了解DataPipeline并申请试用

本文为大家介绍的21世纪最性感的数据科学家,原来只是一群沮丧的天气预报员,以及天气数据分析hive相应知识,就解到这里了,希望对各位有所帮助。

本文地址:http://www.szrclighting.com/post/1533.html
版权声明:本文为原创文章,版权归 admin 所有,欢迎分享本文,转载请保留出处!

 发表评论


表情

还没有留言,还不快点抢沙发?