学习数据科学的8类必读书籍(上)

神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。

编者按:为方便对数据科学(DATA SCIENCE)感兴趣的爱好者和实操者的学习,本文作者分享了 8 类关于数据科学的书籍,包括统计/概率论类、机器学习类、数据可视化与分析类、深度学习类、自然语言处理(NLP)类、计算机视觉类、人工智能类和工具/语言类。在分享书籍的同时,作者还提出以下忠告:在数据科学领域有多种成功的途径,而我们要选择的途径应该是足够简单,足以帮助我们快速上手的。

我们之所以在选择学习方法上不知所措,往往是因为我们接触的信息量太大了。与其花更多的时间思考如何获得研究数据科学的技能,不如根据实际需要,从分享的书中挑选一本,然后开始学习。关键是要始终如一地采取行动,坚持阅读。阅读的目的是,学习和发现隐藏于书中的真实思想。对数据科学感兴趣的朋友们,如果你还没选好学习材料,就请阅读作者推荐的这些顶级书籍吧。本文来自编译,希望对您有帮助。因篇幅原因,本篇文章分三部分刊出,此为第一部分:

我们从某人的声音中不能找到的东西,很可能会在他(她)的作品中发现。——无名氏

在知识爆炸的今天,关于数据科学的学习资源太多了,这会让我们在选择时无从下手吧?不要紧,以下是最新的数据科学必读书籍集锦。

图1. 众多学习书源

我在网上自学时,总是更倾向于选择视频教程或讲座。因为我发现这种选择使学习变得更简单,不那么麻烦(和大多数人的选择一样)。

我一直都觉得在网络上自学时选择视频教程或讲座更加简便易行,直到几年前我偶然读到了一本关于统计学的书,才让我改变了对看书学习的看法(从“无聊”到“神奇而有趣”)。我要向这本书的作者和出版商致敬。

在挑选关于数据科学的顶级书籍之前,我事先做了广泛的研究。今天,我将这些书籍分享给所有有抱负的数据爱好者和实践者。大家在读了这些书之后,一定会让自己陷入深深的思考之中。

让我们开始看看这个书单吧……

我按这些书所涉及的领域将它们划分为以下 8 类来详细介绍,以方便大家选择:

*统计/概率论类书籍

*机器学习类书籍

*数据可视化和分析类书籍

*深度学习类书籍

*自然语言处理(NLP)类书籍

*计算机视觉类书籍

*人工智能类书籍

*工具/语言类书籍

1.统计/概率论类书籍

(1)《统计学学习概论》(Introduction to Statistical Learning)

作者:加雷斯·詹姆斯,丹妮拉·维滕,特来沃尔·黑斯蒂,罗伯特·蒂施莱尼(Gareth James, Daniela Witten, Trevor Hastie,Robert Tibshirani).

一直以来,这本书都是经典书籍。它涵盖了基本的统计学知识以及机器学习技术。这本书吸睛的地方在于,每一个概念都用 R 语言做案例分析。所以,我们一旦掌握了编程的技巧,在读这本书时,就会快速回忆起每一个概念及其在程序中的操作方法。

图2. 《统计学学习概论》

(2)《思考统计:程序员的概率论和统计学》(Think Stats: Probability and Statistics for Programmers)

作者:艾伦·B·唐尼(Allen B. Downey)

这本书在众多数据科学书籍中是首选书籍。它提供了大量的资源。尤其是对于有一定 Python 基础知识的人,它特别实用,可以用来做数据分析。

图3. 《思考统计:程序员的概率论和统计学》

(3)《统计学的艺术:从数据中学习》(The Art of Statistics: Learning from Data)

作者:大卫·斯皮格尔霍尔特(David Spiegelhalter)

这本书最大的亮点是采用了浅显易懂的案例来讲解理论。这本书不仅层层剖析了特定的问题,还给问题提供了具有渐进性和一致性的统计解决方案。简而言之,它使统计学的学习变得简单了!

图4. 《统计学的艺术:从数据中学习》

(4)《概率论:狂热初学者入门》(Probability: For the Enthusiastic Beginner)

作者:大卫·莫兰(David Morin)

图5. 《概率论:狂热初学者入门》

这是一本概率论初学者的理想读物。它涵盖了所有的基础知识,包括组合学,概率规则,贝叶斯定理,期望值,方差,概率密度,公共分布,大数定律,中心极限定理,相关性,回归分析等等。

(5)《概率论入门》(Introduction to Probability)

图6. 《概率论入门》

作者:J·劳里·斯奈尔,查尔斯·米勒·格林斯特德(J. Laurie Snell,Charles Miller Grinstead)

这又是一本介绍概率概念的书籍。和《概率论:狂热初学者入门》一样,这本书是为研究生而写的综合教材。

(6)《赤裸裸的统计——从数据中剥离恐惧》(Naked Statistics — Stripping the Dread from the Data)

作者:查尔斯·韦兰(Charles Wheelan)

统计学有时候是一个令人生畏的话题。在这本书中,作者以一种风趣而简洁的方式阐明了关键概念,如推理、相关性和回归分析等。

图7. 《赤裸裸的统计——从数据中剥离恐惧》

2.机器学习类书籍

(1)《百页机器学习书》(The Hundred-Page Machine Learning Book)

图8. 《百页机器学习书》

作者:安德烈·博尔科夫(Andriy Burkov)

我真心喜欢这本书。在读到它之前,我阅读了大量的试图从不同角度和不同层面讲授机器学习的书籍。我绞尽脑汁地想从这些书中找到一个方法,希望它能够简洁地概括难以理解的话题和难以理解的方程式。可是,直到读了安德里·布尔科夫用大约 100 多页的篇幅写出来的这本书,我才找到了这个方法。这本书文笔优美,易于理解,已经得到了许多人的认可。

(2)《数据科学介绍》(Introducing Data Science)

作者:戴维·西伦(Davy Cielen)等

出版商:曼宁(Manning)

图9. 《数据科学介绍》

我喜欢这本书有一个特殊的原因,那就是,这些书不仅包含了我们常见的关于数据科学的主题,它还包括了数据科学整个领域的其他方面。我强烈推荐阅读这本书,它会或多或少地会让我们熟悉数据科学的全貌。

(3)《从头开始的数据科学》(Data Science from Scratch)

作者:乔尔·格鲁斯(Joel Grus)

出版商:奥莱利(O’Reilly)

图10. 《从头开始的数据科学》

这本书的第二版已经发布了,因为它囊括了各种基本原理。也是因此,它已经成为一本倍受欢迎的书。这相当于是一个完整的一揽子交易,读了一本就等于读了很多本,十分推荐本书。

(4)《Python数据科学手册》(Python Data Science Handbook)

作者:杰克·范德普拉斯(Jake VanderPlas)

出版商:奥莱利

图11. 《Python数据科学手册》

这本书最适合那些刚开始做数据分析或数据科学的人阅读,这正是他们所需要的那本能够参见所有技术的书。本书能够强化你对 python 的掌握程度,并可促进你在数据科学上的工作。

(5)《在数据科学领域建立职业生涯》(Build a Career in Data Science)

作者:艾米丽·罗宾逊,杰奎琳·诺里斯(Emily Robinson,Jacqueline Nolis)

出版商:曼宁

图12. 《在数据科学领域建立职业生涯》

这本书于2020年出版,主要陈述了与学习数据科学相关的技术内容。我们必读这本书的原因是,它教我们如何在数据科学行业工作。

(6)《数据科学的艺术——给任何与数据打交道的人的指南》(The Art of Data Science — A Guide for Anyone Who Works With Data)

作者:罗杰·D·彭,伊丽莎白·松井(Roger D. Peng, Elizabeth Matsui)

这本书不仅对数据分析工作流程做了完美的概述,还清楚地阐述了一个观点——尽管存在许多工具、复杂的一步步的信息迭代过程,数据分析从根本上讲依然是一门艺术。

图13. 《数据科学的艺术——给任何与数据打交道的人的指南》

3.数据可视化与分析类书籍

(1)《数据可视化的基础——信息丰富且引人注目的数字制作入门》(Fundamentals of Data Visualization — A Primer on Making Informative and Compelling Figures)

作者:克劳斯·沃克(Claus O. Wilke)

本书采用举出正面和反面例子加以对比的方式,介绍了数据可视化的基本原则。它可以帮助我们理解有效的可视化背后的基本原理,并教会我们设计更有意义的模块来传达正确的信息。

图14. 《数据可视化的基础——信息丰富且引人注目的数字制作入门》

(2)《美丽的可视化,通过专家的眼睛看数据》(Beautiful Visualization, Looking at Data Through the Eyes of Experts)

作者:朱莉·斯蒂尔,诺亚·伊林斯基(Julie Steele, Noah Iliinsky)

网站:奥莱利媒体|亚马逊(O "Reilly Media| Amazon)

图15. 《美丽的可视化,通过专家的眼睛看数据》

“可视化”是让数据说话的一种新方式,通过颜色等视觉指标达到沟通的目的,并通过一定的研究方法将数据和视觉指标整合在一起。

这本书讲述了一些著名的可视化设计和开发产品。

(3)《周一改头换面——每次用一张图表改进我们可视化和分析数据的方式》(MakeoverMonday — Improving How We Visualize and Analyze Data, One Chart at a Time)

作者:安迪·克里贝尔(Andy Kriebel)

此书是周一改头换面(MakeOverMonday)项目的扩展,在这个项目中,数据可视化社区的成员可以分享他们对现有图表和数据的改进。它强调,虽然在设计可视化中存在可变性,但有一些关键技术可以遵循,以确保自己的图表是有作用和有意义的。

图16. 《周一改头换面——每次用一张图表改进我们可视化和分析数据的方式》

(4)《用数据讲故事——商务专业人士的数据可视化指南》(Storytelling with Data — A Data Visualization Guide for Business Professionals)

作者:科尔·努斯鲍默·克纳菲奇(Cole Nussbaumer Knaflic)

对于任何一个想要更好地以清晰、简洁和图形化的方式呈现信息的人来说,这是一本必读的书。这本书教给我们数据可视化的基础知识,以及如何有效地使用数据,并举出了大量现实的例子。

图17. 《用数据讲故事——商务专业人士的数据可视化指南》

(5)《更好的数据可视化:学者、研究人员和书虫的学习指南》(BETTER DATA VISUALIZATIONS: A Guide for Scholars, Researchers, and Wonks》

作者:乔纳森·施瓦比什(Jonathan Schwabish)

此书包括三个部分。第一部分简要介绍了数据可视化的最佳实操方式。第二部分是本书的主要部分,讲述了图表类型。施瓦比什深入研究了不同类型的图表,这些图表远远超出了直线和条形的标准。

图18. 《更好的数据可视化:学者、研究人员和书虫的学习指南》

相关阅读:学习数据科学的8类必读书籍(中)

学习数据科学的8类必读书籍(下)

译者:甜汤

标签: