查看原文
其他

《文科生数据科学上手指南》分享

王树义老师 玉树芝兰 2019-05-05

由于微信公众号外部链接的限制,文中的部分链接可能无法正确打开。如有需要,请点击文末的“阅读原文”按钮,访问可以正常显示外链的版本。

苦恼

你大概经常听别人提起,技术的门槛在降低。

数据科学、机器学习、自然语言处理、神经网络、人工智能……一系列的名词让你眼花缭乱,让你对这个时代充满兴奋的感觉。你跃跃欲试,希望自己动手,也能用新技术做出卓有成效的工作。

但是,如果你不是IT专业的学生,特别糟糕的是,你还是一名文科生,那你可能会逐渐发现,技术的世界似乎不那么友好。

你只想对文本提取主题,人家给你写了这么长的公式:

你想做个时间序列的预测,结果人家告诉你,一个处理单元,就有这样的结构:

除了迅速“从入门到放弃”,你还能怎么办?

应用

别急,这不是真相。

真相是,只要你知道如何找到正确的工具包,就可以用短短几行代码,完成从前需要手工干几天的活儿。不信?可以看看我这篇《如何用4行 R 语句,快速探索你的数据集?

写代码,如今已经变成了和开车一样的基础技能。开辆自动挡的汽车,不难掌握对吧?

你即便已经安全行驶几十万公里,成为名副其实的老司机,也不必理解发动机(或者电动机)的构造,对不?

需要维护保养,那是自然,但是这些工作,我们都可以交给专业人士代劳。

你需要了解的,无非是转向、刹车、油门、信号灯……

技术门槛的降低,就应该体现在处理数据问题的时候,你会像开车一样自然。而不应当像学习发动机构造一样挑战自我。

受众

在机械师的眼中,发动机的构造非常简单易懂。所以他们中大部分人写发动机构造教程的时候,不会去考虑那些对物理一无所知者的感受。

同样,那些制造数据科学与人工智能工具的人,一样很聪明,觉得这些原理就是“应知应会”。所以他们中写数据科学类教程的时候,大多数人也根本不会考虑那些阅读数学公式和分析模型构造有困难的文科生。

Youtube 上有位老兄,就是因为 Tensorflow 的官方教程写得太烂,跟着走一遍都完成不下来。于是一赌气,自己做了一套 Tensorflow 的教程。

这个教程,我在知识星球为你分享过。

你可能会挑战我的说法:

老师,我最近刚看过 Tensorflow 官方教程,写得很好啊!

给你5秒钟,思考一下……

现在,你明白原因了吧。改进,大都是源于外部压力的。

文科生们充满恐惧和紧张,试图掌握数据科学工具,来完成科研与工作任务;写教材的人,依然在完完整整列出公式,甚至是推导过程。

你想学开车,他却一定先要你学会发动机构造。

你可能产生了自卑感——好像看不懂这些公式,你就不配成为他的读者。

其实,这又有什么?你完全不必成为他的读者。

你们之间,没有谁对谁错,只是没有缘分而已。

想必你我都认同,普通的非专职司机,智商并不比掌握内燃机构造的机械师低下。他可能是成功的生物学家,成功的作家。即便不动发动机构造和工作原理,依然可以很好地开车,顺利安全到达自己的目的地。

同样,作为文科生,你也不该在这场数字技术洪流中受到歧视。特别是,你不应该把自己推到数字鸿沟的另一端。

适合

你需要的,是适合自己阅读的教程。

这种教程的特点是什么?

在我看来,大致包括:

  • 以问题为导向。用例子讲明白如何用合适的工具,简单高效解决问题;

  • 解决问题的方法,完全可以重复。教程必须给出全部的代码和步骤流程。你自己拿过来就能上手,做出的结果会增强你的信心;

  • 尽量不使用数学公式,和一大堆把人绕晕的术语。即便使用术语,也需要给你解释清楚。

秉持这样的原则,从2017年6月开始,我在自己的公众号“玉树芝兰”和简书、知乎、科学网专栏,为你写了一系列的数据科学教程。

这些教程,受到了很多读者的欢迎。你热情的留言和讨论,是激发我不断写作的源动力。

可惜不论是公众号,还是专栏,似乎文章一多,检索都是个问题。公众号的问题更多一些,因为发布后无法修改和迭代改进。

现在,我觉得这一系列文章,应该可以组合成为一本书了。所以,我就写了这样一本书,交付给你。

架构

在书里你可以通览内容架构,检索也可以方便许多。

这本书分为以下章节:

  • 导读

  • 环境设置

  • 上手

  • 探索分析

  • 自然语言处理

  • 机器学习

  • 深度学习

  • 云端环境

  • 数据获取

  • 答疑时间

以上只列出了章的名称。建议你拿到书后,先看看目录。

每一小节,我都保持了原汁原味的问题导向风格标题。希望浏览之后,你可以迅速定位到自己需要的部分,实践和复用代码,解决自己遇到的实际问题。

我在不同章节间,设定了交叉引用。需要参考其他章节的位置,你都可以在文中找到链接,进行快速方便地跳转。

绝大部分的章节,都配备了 github 配套代码和样例数据。你可以尽情下载、修改和使用。只是别忘了在我的 github 上面,点个星星,相当于点赞了。谢谢!

这些文章,经历了成百上千读者实际运行检验。他们提供的反馈,也曾帮助我查找出了许多问题。我通过观察他们提问,找到了教程讲解中,他们还不是很理解的部分,不断迭代改进表述方式和用例。

特别地,对于某些问题集中的重点概念,我还专门写了答疑文章,甚至做了视频教程。

获取

好了,我知道读到这里,你的耐心已经经受了极大的考验,是吧?

你可以点击这个链接(http://t.cn/EvMHAyo),访问这本书的免费在线开放版本。

希望你动手尝试以后,会明白“技术门槛降低”不是一句骗人的话。而是真实世界里,实实在在发生的趋势。

说明

你不是文科生?

那也没有关系啊。

虽然这本书中的内容,或许有些部分对于你来说过于简单,甚至有些啰嗦。

但你未必非要站在不具备基础知识的读者角度,来看它啊。

欢迎你帮我挑挑硬伤,改进这本书的质量。咱们可以共同协作,以避免“误人子弟”的悲惨状况发生。

告诉你一个小秘密——我的专栏和公众号读者里面,不乏名牌大学信息科学、计算机科学、统计学和数学专业的老师和研究生。

我曾经纳闷,他们怎么也来读我的教程?

后来我弄明白了。

有的老师,是希望这些教程帮助自己的学生快速上手。

有的老师,是希望切磋教学用例,以及教学方法。

有的老师,是从专业的角度,帮我把关。

他们给了我很多的鼓励,也提供了诸多有益的反馈和点拨。在此,我向他们表示衷心的感谢!

所以你看,你并不孤独。开放的数据科学教育,需要你这样的专业人士贡献自己一份力量。

Welcome on board!

喜欢请点赞和打赏。还可以微信关注和置顶我的公众号“玉树芝兰”(nkwangshuyi)。

如果你对 Python 与数据科学感兴趣,不妨阅读我的系列教程索引贴《如何高效入门数据科学?》,里面还有更多的有趣问题及解法。


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存