坎德人的小包包

欧剃,游荡的坎德人,在他的旅途中收集了许许多多有趣的东西。

发表日期:2020-03-04

数据科学和人工智能初学者,这里有一个 2020 年必读书单送给你

—— 10 本精挑细选的实用秘籍,不看可惜

作者:David Yakobovitch


图片来源:Unsplash,摄影 Kimberly Farmer

要想在任何一件事情上成为专家——不论是人工智能、工程学甚至医学——你都必须付出足够的努力,不断学习,持之以恒,才能实现目标。在拓展技能的过程中,知识的汲取是至关重要的,只有这样,你才能提升自己的经验水平。

人工智能在如今的业界,早已不是个新概念了,它是你进入数据科学和机器学习领域的必备技能。我个人在人工智能领域的学习过程就是利用多种不同资源,不断学习的过程。

是的,你也可以通过这些资源自学成为一名数据科学领域的专家。

下面是我整理近两年出版的数据科学机器学习以及实用 AI 方面的十本好书。强烈建议你把它们加入自己的书单:

1. 可解释的机器学习

(原名:Interpretable Machine Learning)

作者: Christoph Molnar (2019)

Christoph Molnar 这本《可解释的机器学习》专注于机器学习模型与决策的可解释性。机器学习技术的应用在研究和产品开发中拥有巨大的潜力,但计算机系统在预测能力方面的缺乏限制了机器学习的应用。作者从线性回归、决策树和决策规则方面,对可解释模型进行了详细分析。

本书涵盖的另一个关键领域是黑盒模型(Black Box Model),作者提供了一些关于 LIME(Local Interpretable Model-Agnostic Explanations,一种模型无关的,在本地解释机器学习模型的开源包)和 为预测目的计算 Shapley 值的课程。Molnar 带我们深入 AI 所使用的无法理解的方法之中,研究那些可累计的局部效应。

《可解释的机器学习》专注于对动态的解释进行关键性分析,以及如何通过对机器学习的解释,做出更好的选择。

你可能会问:我应该如何用机器学习解释我的模型? Molnar 通过探索不同解释方式的优缺点来回答这个问题,并带领读者形成关于自己项目的最佳解决方案的清晰图景。

数据科学家在解释他们的机器学习模型时会遇到许多挑战。在学习 Molnar 的结构化数据课程时,你将开始了解如何实际应用解释来取得最佳结果。作者适时提供的许多对机器学习模型进行解释的例子,使读者对数据科学行业的缤纷生态有了深刻的了解。

书籍链接: https://leanpub.com/interpretable-machine-learning

2. Python 语言数据分析 第二版

(原名:Python for Data Analysis, 2nd Edition)

作者: Wes McKinney (2017) , ISBN: 9781491957653

Wes McKinney 的《Python 语言数据分析》通过使用 Python 编程语言帮助读者学习数据科学。在书中,作者使用简单的语言来解释技术概念。对于想要理解科学计算在行业中的应用,希望入门数据科学领域的初学者来说,这本 2017 年出版的书是一本理想的教材。

作者介绍了数据科学中的关键领域,包括使用 Python 语言进行数据集的处理和操作。这本书最让我钦佩的地方在于,它有弹性地覆盖了大部分读者在初次接触数据科学时想要了解的各种 Python 主题。McKinney 提供的实用解决方案,使你可以有效地使用流行的软件包(比如 pandas 和 numpy)来赢得数据分析中遇到的挑战。

书籍链接: https://www.oreilly.com/library/view/python-for-data/9781491957653/

3. 用一百页纸解释机器学习

(原名:The Hundred-Page Machine Learning Book)

作者: Andriy Burkov (2019) ,ISBN: 9781999579500

这本书基于理论和实际应用结合的方式,以简明的方式向读者介绍了机器学习知识。为了增进读者对机器学习的理解,作者向读者介绍了多个重要的论述,并提供了有关机器学习基础知识的背景信息。AI 是一个多元化的领域,机器学习则是成为专业人士的关键一环。本书作者将所有这些因素和 Python 语言结合在了一起。

从头到尾,作者通过与读者互动,系统地引导读者进入机器学习的世界。如果你正在寻找一本能准确评估机器学习领域极其实际用例的数,那就必须是这一本啦。《用一百页纸解释机器学习》提供了丰富的资源,使读者能在现实世界实现其中的一些解决方案,更别提作者煞费苦心地把这么多内容都压缩在一百多页(其实是一百五十多页)的篇幅里。最后,由于作者在解释数学和统计学概念方面付出的卓越努力,这本书对机器学习工程师来说也非常实用。

书籍链接:https://leanpub.com/theMLbook

4. Javascript 深度学习:用 TensorFlow.js 搭建神经网络

(原名:Deep Learning with JavaScript: Neural networks in TensorFlow.js)

作者: Shanqing Cai、Stanley Bileschi、Eric D. Nielsen 和 Francois Chollet (2020), ISBN: 9781617296178

你对不用 Python 也不用 R 语言的深度学习应用开发有没有兴趣?如果是的话,你一定不要错过这本书。这本奇书包含了大量的 JavaScript 编程语言知识,它能带你用 JavaScript 在浏览器里实现一个深度学习模型,还能让你学到一些新工具,比如基于 Node 的后端应用等。

在编程世界中,JavaScript 也算是一门流行的语言,它具有数据结构、API 和前端系统等。作者为开发人员提供了许多实例,包括将应用传输到 Web、浏览器语言处理,以及图片处理等。读者还能使用生成式深度学习技术来创建文本生成图像——这全部都用 JavaScript 实现。

书籍链接:https://livebook.manning.com/book/deep-learning-with-javascript/about-this-book/

5. Python 语言处理大规模数据集:并行化和分布式 Python 代码

(原名:Mastering Large Datasets with Python: Parallelize and Distribute Your Python Code)

作者: John T. Wolohan (2020),ISBN: 9781617296239

将机器学习扩展到生产环境中,需要 GPU 和 TPU 等提供大量的处理能力。《Python 语言处理大规模数据集》能教你在线程、进程和并发之间游走,使用实用工具在并行化、分布式的系统上工作。作者将教你如何从简单的小项目开始,扩大到大数据管道处理。安装作者的说法,在 Python 中使用功能性方法对得到最优的结果非常重要。

书中对分布式技术的探讨让学生为在云端系统上处理大型数据集做好了准备。如果你对使用 Python、巨量数据集、分布式数据科学模型等有兴趣,并希望用它们构建系统的话,那这本书将给你手把手的操作指引。

对于希望建立庞大数据科学模型的读者,这本书也能帮助你用最佳的方式扩展你的模型,从而带你完成整个过程。

书籍链接: https://livebook.manning.com/book/mastering-large-datasets/about-this-book/

6. 实用 R 语言数据科学 第二版

(原名:Practical Data Science with R, 2nd edition)

作者: Nina Zumel、John Mount (2019), ISBN: 9781617295874

从 R 语言编程入手,《实用 R 语言数据科学》选择了读者在了解数据科学、应用 R 语言特性方面最实用的例子。

读者将能学到统计分析解释、数据科学工作流程以及演示设计方面的内容。

书籍链接: https://livebook.manning.com/book/practical-data-science-with-r-second-edition/about-this-book/

7. 从数据科学到产品

(原名:Data Science in Production)

作者: Ben Weber (2020), ASIN: B083H2YWP4

对于任何寻求在组织层面上获得良好结果的数据科学家而言,预测模型是至关重要的。

建立一个可扩展模型是一个不小的挑战,而有技术的数据科学家能有效地在产品中部署模型。作者传授了数据科学的自动化方法,并介绍了数据科学家是如何管理自己的工作流,以得到更好的结果。本书展示的另外一个例子将让你理解数据是如何从初始阶段到产品阶段的,这能给读者带来许多有意义的见解。

在其他方面,比如云端部署开发末端节点网页以及机器学习模型等领域,本书也提供了额外的例子。作者通过从上而下的方式,详细介绍了如何构建能很好地在生产环境中扩展的可重复模型。作者还带领读者深入数据科学的基础工具,包括 PySparkPub/Sub 技术 以及 Kafka 等。

书籍链接: https://leanpub.com/ProductionDataScience

8. Python 语言数据科学手册

(原名:Python Data Science Handbook)

作者: Jake Vanderplas (2016), ISBN: 9781491912058

对于数据科学方面的程序员来说,Python 是最有优势的编程语言。通过对 PandasScikit-Learn 以及 NumPy 的详细分析,作者提供了你从基础开始理解数据所需的所有资源。本书被誉为 Jupyter 上最早的纯数据科学资源之一,能让学生学会如何有效地用 pandas 处理数据

如果你想要学习数据科学,那《Python 语言数据科学手册》就是你必读的教材。它也是我经常对进入这一领域的新手推荐的第一本书。从数据清洗数据转换,到如何基于数据开发机器学习模型的设计思想,这本书提供了相当丰富的实例资源。

书籍链接: http://shop.oreilly.com/product/0636920034919.do

9. 七星期掌握七种数据库 第二版

(原名:Seven Databases in Seven Weeks 2nd Edition)

作者: Eric Redmond 和 Jim Wilson (2018)、ISBN: 9781680502534

大规模数据系统需要大型数据库及对应的数据库框架。数据科学家必须能够轻松地实用多个数据库系统,所以《七星期掌握七种数据库》就深入介绍了RedisNeo4JCouchDBMongoDBHBasePostgres 以及 DynamoDB 七大数据库系统。两位作者 Redmond 和 Wilson 通过模仿财富 500 强企业实际实用的数据库系统,给读者提供了一个实用的数据模型系统

书籍链接: https://pragprog.com/book/pwrdata/seven-databases-in-seven-weeks-second-edition

10. 人工智能与 Python 语言 第二版

(原名:Artificial Intelligence with Python — Second Edition)

作者: Alberto Artasanchez 和 Prateek Joshi (2020), ISBN: 9781839219535

《人工智能与 Python 语言》提供了关于数据科学、机器学习 和 AI 在不同行业中应用的综述。作者针对构建机器学习管道的基础知识进行了阐述,还介绍了 AI 开发工具和云计算等知识。

不仅如此,在本书第二版修订的时候,两位作者还将书中的内容更新到了最新的 Python 3TensorFlow 2.0。你能深入特征工程和数据管道,并学习到类似语音识别和聊天机器人等高级 AI 实例。同时,本书还会教学生如何通过神经网络、深度学习和云端等技术,实现并部署他们的机器学习系统

书籍链接: https://www.packtpub.com/data/artificial-intelligence-with-python-second-edition

勇往直前,成为专业数据科学家

根据以往在线学习和与学生交流的情况,我从几十本各种专业书籍中挑选了这 10 本,涵盖数据科学、机器学习和人工智能这三个互相交叉、相辅相成的领域,希望不论你利用哪个平台,选择哪本书籍,都能利用好现在这丰富的学习资源,给自己好好充充电。

那么,这几本书里,你觉得哪本最合你意呢?是不是还有其他你想推荐的书目?欢迎在下面留言!

图片来源:Unsplash,摄影 Jonas Jacobsson

(本文已投稿给「优达学城」。 原作: David Yakobovitch 翻译:欧剃 转载请保留此信息)

编译来源: https://towardsdatascience.com/what-are-the-10-must-read-data-science-and-ai-books-of-2020-36e2c5f0d72f

标签:UdacityTranslateAIData-SciencePython

Powered by Jekyll on Github.io
2022 © 欧剃