数据整理夏季的三个教训

图片来源：

Opensource.com

数据是新的流行趋势。

这并非没有道理——它让公司保持盈利。它帮助他们了解消费者与其产品的互动，提出量身定制的建议，改进其服务，并优化从供应链到人才招聘的一切。简而言之，我们可以使用数据来识别问题并设计解决方案。统计数据使企业能够创建数据驱动的系统，例如 Red Hat 的 Access Insights 和许多其他系统。

随着越来越多的人上网，越来越多的企业正在利用云计算、移动性、社交网络和大数据变得更智能、更即时和更相关。数字宇宙每两年翻一番，到 2020 年将包含 44 泽字节——几乎与宇宙中的星星一样多的数字位。因此，获取原始数据、处理数据并从中提取洞察力的能力正成为一项极其宝贵的技能。Red Hat 正在率先开展多项数据科学领域的新尝试，我有机会使用大数据技术并参与从客户参与度分析到交叉销售预测等令人兴奋的项目。以下是我作为 Red Hat 实习生学到的一些东西。

清理你的数据

作为一名数据科学家，您平均会花费 80% 的时间用于“数据整理”——提取、清理、聚合和合并您的数据。在某些时候，项目范围的略微变化可能需要您重复整个过程。尽管有时这可能会令人沮丧，但最好在此处一丝不苟。干净的数据将使您以后的生活变得更加简单。这是在您获得好东西之前的关键步骤。

理解问题

在投入算法实现之前，花时间了解您试图解决的潜在问题的性质。您正在优化什么？一个好的解决方案应该具有什么特征？这可以防止您专注于一个解决方案，而更好的选择可能可用。

例如，在我的交叉销售项目中，我专注于使用客户的在线行为和以前的资产来预测哪些客户将购买新兴产品。我很快发现只有 2% 的客户帐户实际购买了此类产品。这意味着，如果我只是预测没有客户会购买此类产品，我将获得出色的 98% 的准确率！但是，这样的解决方案没有给我们任何信息。

理解这 2% 是该项目背后的目的，所以我需要重新构建问题以解释数据中固有的不平衡。如果我检查了模型预测为新兴买家的所有客户，我希望尽可能多的人实际成为新兴买家。换句话说，我希望衡量精确率，即正确识别的新兴购买者数量除以识别出的新兴购买者总数。因此，最佳解决方案将为我提供高精确率，同时仍然能够检测到很大比例的新兴产品客户。

这个例子指的是机器学习中的经典规则，但一般的教训适用于任何统计问题。以预测数值特征为例。处理数据中的噪声的最佳方法是什么？我的特征是否与响应线性相关，或者我应该使用类似广义加性模型来描述更复杂的关系？像boosting这样计算量更大的模型是否必要？我需要担心无关的特征吗？如果是这样，我应该如何正则化我的模型以惩罚不必要的复杂性？无论您回答什么问题，定义问题的参数并了解每种算法的优势，对于您决定如何改进模型都非常有帮助。

找到合适的工具

使用最适合问题的工具和算法。不要将自己限制在您最熟悉的工具和算法上。并且不要害怕为您的工具箱添加新技能。事实上，您应该特意这样做。幸运的是，Red Hat 是一个很棒的环境，到处都是愿意帮助我的人，在这里我能够全身心地投入到从 Linux 到 Pig、Python 到 Spark 的各种工具中。

除了学习新技术外，我还尝试了几种方法来处理我上面提到的不平衡的交叉销售数据，包括平衡随机森林和过采样（生成从 2% 少数类派生的合成观察）。接下来，我将致力于使用长短期记忆循环神经网络来考虑每个客户的整个历史。一切都是为了学习！

尽管有各种炒作，但数据科学并不像通常认为的那样光鲜亮丽。即使检索数据也可能很麻烦，而且这项工作需要如此多的数据清理，以至于您开始怀疑“数据清洁工”是否会是更准确的职位名称。您必须深入挖掘才能解释您的结果并挖掘出洞察力。但在所有这一切完成之后，在数据中找到价值并将该叙述与他人分享将产生巨大的影响。记住：你的目标是揭示数据背后的故事。你的变量是角色，而你的角色在于捕捉它们之间复杂的互动。

数据科学快乐！

实习生
故事

本文是 Red Hat 实习生故事系列文章的一部分。这些实习生分享了他们在开放组织工作的经历等等.

标签

商业