如何为数据科学家供给无需复杂ETL的数据分析

发布时间：2021-06-04 14:54:52 所属栏目：大数据来源：互联网

导读：数据科学家和数据分析师经常需要回答业务问题。这可能会导致更临时的分析或某种形式的模型将被应用到公司的工作流程中。但是要执行数据科学和分析，团队首先需要访问来自多个应用程序和业务流程的高质量数据。这意味着将数据从点a移动到点b。执行此操作的一

数据科学家和数据分析师经常需要回答业务问题。这可能会导致更临时的分析或某种形式的模型将被应用到公司的工作流程中。

但是要执行数据科学和分析，团队首先需要访问来自多个应用程序和业务流程的高质量数据。这意味着将数据从点a移动到点b。执行此操作的一般方法是使用自动化过程，简称为提取，转换和加载或ETL。这些ETL通常会将数据加载到某种形式的数据仓库中，以便于访问。但是，ETL和数据仓库存在一个主要问题。

尽管有必要，但ETL需要大量的编码，专门知识和维护。除了这项工作对于数据科学家来说是耗时的之外，并不是所有的数据科学家都具有开发ETL的经验。很多时候，这项工作将落在数据工程团队上，这些团队忙于更大的图片项目以引入基础数据层。

这并不总是与数据科学家的需求保持一致，数据科学家的需求可能会让拥有业务所有者的企业希望快速地进行信息和分析。等到数据工程团队有时间提取新的数据源可能不是一个好选择。

这就是为什么在过去的几年中开发了几种解决方案来减少数据科学家为获取所需数据而需要进行的工作量的原因。尤其是以数据虚拟化，自动ETL和无代码/低代码解决方案的形式。

自动化的ETL和数据仓库

尽管ETL本身是一个自动化过程。他们需要大量的手动开发和维护。

这导致了Panoply之类的工具的普及，该工具提供了易于集成的自动ETL和云数据仓库，可以与许多第三方工具(如Salesforce，Google Analytics和数据库)同步。使用这些自动集成，数据科学家可以快速分析数据，而无需部署复杂的基础架构。

无需Python或EC2实例。只需单击几下。然后，在大致了解您打算引入团队中的数据类型之后，便可以拥有一个填充的数据仓库。

这些自动化的ETL系统非常易于使用，通常只需要最终用户设置数据源和目标即可。从那里可以将ETL设置为在特定时间运行。全部没有任何代码

（编辑：甘孜站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

终于有人把MPP大数据系	为什么不可忽视建筑物
无代码可重用的人工智	价值变现的关键是组织