
Dipanjan (DJ) Sarkar 是红帽公司的数据科学家、已出版的作家、顾问和培训师。他曾为多家初创公司以及英特尔等财富 500 强公司提供咨询和工作。他主要致力于利用数据科学、机器学习和深度学习来构建大规模智能系统。他拥有数据科学和软件工程专业的硕士学位。他也是自学和大型开放式在线课程的狂热支持者。他最近涉足开源产品领域,以提高全球开发人员的生产力。
Dipanjan 多年来一直是分析从业人员,专注于机器学习、自然语言处理、统计方法和深度学习。他对数据科学和教育充满热情,他还担任 Springboard 等多家组织的人工智能顾问和导师,帮助人们培养数据科学和机器学习等领域的技能。他还担任领先的在线期刊 Towards Data Science 的主要撰稿人和编辑,该期刊专注于人工智能和数据科学。Dipanjan 还撰写了多本关于 R、Python、机器学习、社交媒体分析、自然语言处理和
深度学习的书籍。
Dipanjan 的兴趣包括学习新技术、金融市场、颠覆性初创公司、数据科学、人工智能和深度学习。在业余时间,他喜欢阅读、玩游戏、观看热门情景喜剧和足球,并在 https://medium.com/@dipanzan.sarkar 和 https://www.linkedin.com/in/dipanzan 上撰写有趣的的文章。他也是开源的坚定支持者,并在 GitHub 上发布他的书籍和文章中的代码和分析,网址为 https://github.com/dipanjanS。
创作评论
当然,总的来说,数据结构有点相似但又不同,这让人有点困惑。但是,如果您查看 Spark 的演变历史(https://stackoverflow.com/questions/31508083/difference-between-datafra…),我们首先有了 RDD,然后 DataFrames 在 2013 年出现,最后 Dataset 在 2015 年从 DataFrames 中分离出来,作为 DF 的类型安全版本。
Datasets 非常好,并且在原生 Spark(利用 Scala)中运行良好,但由于我们在示例中利用了 python,因此我们必须使用 Spark DataFrames。传统上,尽管 Datasets 总是比 DataFrames 稍慢,但它们的性能正在赶上(https://databricks.com/session/demystifying-dataframe-and-dataset)。希望这有帮助!