Dipanjan (DJ) Sarkar

237 积分

Dipanjan (DJ) Sarkar 是红帽公司的数据科学家、已出版的作家、顾问和培训师。他曾为多家初创公司以及英特尔等财富 500 强公司提供咨询和工作。他主要致力于利用数据科学、机器学习和深度学习来构建大规模智能系统。他拥有数据科学和软件工程专业的硕士学位。他也是自学和大型开放式在线课程的狂热支持者。他最近涉足开源产品领域，以提高全球开发人员的生产力。

Dipanjan 多年来一直是分析从业人员，专注于机器学习、自然语言处理、统计方法和深度学习。他对数据科学和教育充满热情，他还担任 Springboard 等多家组织的人工智能顾问和导师，帮助人们培养数据科学和机器学习等领域的技能。他还担任领先的在线期刊 Towards Data Science 的主要撰稿人和编辑，该期刊专注于人工智能和数据科学。Dipanjan 还撰写了多本关于 R、Python、机器学习、社交媒体分析、自然语言处理和
深度学习的书籍。

Dipanjan 的兴趣包括学习新技术、金融市场、颠覆性初创公司、数据科学、人工智能和深度学习。在业余时间，他喜欢阅读、玩游戏、观看热门情景喜剧和足球，并在 https://medium.com/@dipanzan.sarkar 和 https://www.linkedin.com/in/dipanzan 上撰写有趣的的文章。他也是开源的坚定支持者，并在 GitHub 上发布他的书籍和文章中的代码和分析，网址为 https://github.com/dipanjanS。

思想开放作者贡献者俱乐部

创作内容

Person standing in front of a giant computer screen with numbers, data

如何使用 Python 和 Apache Spark 分析日志数据

与 NASA 日志的案例研究，展示如何利用 Spark 来大规模分析数据。

metrics and data shown on a computer screen

如何使用 Python 和 Apache Spark 整理日志数据

与 NASA 日志的案例研究，展示如何利用 Spark 来大规模分析数据。

使用深度学习检测疟疾

人工智能与开源工具相结合可以改善致命疾病疟疾的诊断。

使用 Apache Spark SQL 和 DataFrames 扩展关系数据库

使用您友好的 SQL（带有一些变化）大规模地整理、聚合和过滤数据。

如何使用 Spark SQL：动手教程

本教程解释了如何使用 Spark SQL 和 DataFrames 大规模利用关系数据库。

创作评论

djsarkar

2019 年 3 月 22 日

使用 Apache Spark SQL 和 DataFrames 扩展关系数据库

当然，总的来说，数据结构有点相似但又不同，这让人有点困惑。但是，如果您查看 Spark 的演变历史（https://stackoverflow.com/questions/31508083/difference-between-datafra…），我们首先有了 RDD，然后 DataFrames 在 2013 年出现，最后 Dataset 在 2015 年从 DataFrames 中分离出来，作为 DF 的类型安全版本。

Datasets 非常好，并且在原生 Spark（利用 Scala）中运行良好，但由于我们在示例中利用了 python，因此我们必须使用 Spark DataFrames。传统上，尽管 Datasets 总是比 DataFrames 稍慢，但它们的性能正在赶上（https://databricks.com/session/demystifying-dataframe-and-dataset）。希望这有帮助！