如何成为一名数据科学家

网上有关“如何成为一名数据科学家”话题很是火热,小编也是针对如何成为一名数据科学家寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。

我认为有几个大方面

1)学好 python。

现在几乎所以公司的数据都可以 api 给你,而 python 的数据处理能力强大且方便。加之在 machine learning 的很多算法上,python 也独俏一方。另外,它的简明方便迅速迭代开发,15 分钟写完个算法就可以看效果了。

除此之外,py 还有点酷酷的感觉。任何程序拿 matlab 和 c++ 都是可以写的,不过我真没认识过哪个 d 愿意自己把自己扔那个不酷的框框里:D

对不规则输入的处理也给 python 一个巨大的优势。通常来说,在我现在日常的工作里,所有的数据都是以纯文本但是非格式的形式存储的(raw text, unstructured data)。问题在于,这些文本不可以直接当作各种算法的输入,你需要

分词,分句

提取特征

整理缺失数据

除掉异类(outlier)

在这些时候,python 可谓是神器。这里做的 1-4 都可以直接在 scikit-learn 里面找到对应的工具,而且,即使是要自己写一个定制的算法处理某些特殊需求,也就是一百行代码的事情。

简而言之,对于数据科学面临的挑战,python 可以让你短平快地解决手中的问题,而不是担心太多实现细节。

2)学好统计学习

略拗口。统计学习的概念就是“统计机器学习方法”。

统计和计算机科学前几十年互相平行着,互相造出了对方造出的一系列工具,算法。但是直到最近人们开始注意到,计算机科学家所谓的机器学习其实就是统计里面的 prediction 而已。因此这两个学科又开始重新融合。

为什么统计学习很重要?

因为,纯粹的机器学习讲究算法预测能力和实现,但是统计一直就强调“可解释性”。比如说,针对今天微博股票发行就上升 20%,你把你的两个预测股票上涨还是下跌的 model 套在新浪的例子上,然后给你的上司看。

Model-1 有 99%的预测能力,也就是 99%的情况下它预测对,但是 Model-2 有 95%,不过它有例外的一个附加属性——可以告诉你为什么这个股票上涨或者下跌。

试问,你的上司会先哪个?问问你自己会选哪个?

显然是后者。因为前者虽然有很强的预测力(机器学习),但是没有解释能力(统计解释)。

而作为一个数据科学家,80%的时间你是需要跟客户,团队或者上司解释为什么 A 可行 B 不可行。如果你告诉他们,“我现在的神经网络就是能有那么好的预测力可是我根本就没法解释上来”,那么,没有人会愿意相信你。

具体一些,怎么样学习统计学习?

先学好基本的概率学。如果大学里的还给老师了(跟我一样),那么可以从 MIT 的概率论教材1入手。从第 1 章到第 9 章看完并做完所有的习题。(p.s.面试 Twitter 的时候被问到一个拿球后验概率的问题,从这本书上抓来的)。

了解基本的统计检验及它们的假设,什么时候可以用到它们。

快速了解统计学习有哪些术语,用来做什么目的,读这本5。

学习基本的统计思想。有 frequentist 的统计,也有 bayesian 的统计。前者的代表作有2,后者看3。前者是统计学习的圣书,偏 frequentist,后者是 pattern recognition 的圣书,几乎从纯 bayesian 的角度来讲。注意,2有免费版,作者把它全放在了网上。而且有一个简易版,如果感觉力不从心直接看2,那么可以先从它的简易版开始看。简易版4是作者在 coursera 上开课用的大众教材,简单不少(不过仍然有很多闪光点,通俗易懂)。对于3,一开始很难直接啃下来,但是啃下来会受益匪浅。

注意,以上的书搜一下几乎全可以在网上搜到别人传的 pdf。有条件的同学可以买一下纸制版来读,体验更好并且可以支持一下作者。所有的书我都买了纸制版,但是我知道在国内要买本书有多不方便(以及原版书多贵)。

读完以上的书是个长期过程。但是大概读了一遍之后,我个人觉得是非常值得的。如果你只是知道怎么用一些软件包,那么你一定成不了一个合格的 data scientist。因为只要问题稍加变化,你就不知道怎么解决了。

如果你感觉自己是一个二吊子数据科学家(我也是)那么问一下下面几个问题,如果有 2 个答不上来,那么你就跟我一样,真的还是二吊子而已,继续学习吧。

为什么在神经网络里面 feature 需要 standardize 而不是直接扔进去

对 Random Forest 需要做 Cross-Validatation 来避免 overfitting 吗?

用 naive-bayesian 来做 bagging,是不是一个不好的选择?为什么?

在用 ensembe 方法的时候,特别是 Gradient Boosting Tree 的时候,我需要把树的结构变得更复杂(high variance, low bias)还是更简单(low variance, high bias)呢?为什么?

如果你刚开始入门,没有关系,回答不出来这些问题很正常。如果你是一个二吊子,体会一下,为什么你跟一流的 data scientist 还有些差距——因为你不了解每个算法是怎么工作,当你想要把你的问题用那个算法解决的时候,面对无数的细节,你就无从下手了。

说个题外话,我很欣赏一个叫 Jiro 的寿司店,它的店长在(东京?)一个最不起眼的地铁站开了一家全世界最贵的餐馆,预订要提前 3 个月。怎么做到的?70 年如一日练习如何做寿司。70 年!除了丧娶之外的假期,店长每天必到,8 个小时工作以外继续练习寿司做法。

其实学数据科学也一样,沉下心来,练习匠艺。

3)学习数据处理

这一步不必独立于 2)来进行。显然,你在读这些书的时候会开始碰到各种算法,而且这里的书里也会提到各种数据。但是这个年代最不值钱的就是数据了(拜托,为什么还要用 80 年代的“加州房价数据”?),值钱的是数据分析过后提供给决策的价值。那么与其纠结在这么悲剧的 80 年代数据集上,为什么不自己搜集一些呢?

开始写一个小程序,用 API 爬下 Twitter 上随机的 tweets(或者 weibo 吧。。。)

对这些 tweets 的 text 进行分词,处理噪音(比如广告)

用一些现成的 label 作为 label,比如 tweet 里会有这条 tweet 被转发了几次

尝试写一个算法,来预测 tweet 会被转发几次

在未见的数据集上进行测试

如上的过程不是一日之功,尤其刚刚开始入门的时候。慢慢来,耐心大于进度。

4)变成全能工程师(full stack engineer)

在公司环境下,作为一个新入职的新手,你不可能有优待让你在需要写一个数据可视化的时候,找到一个同事来给你做。需要写把数据存到数据库的时候,找另一个同事来给你做。

况且即使你有这个条件,这样频繁切换上下文会浪费更多时间。比如你让同事早上给你塞一下数据到数据库,但是下午他才给你做好。或者你需要很长时间给他解释,逻辑是什么,存的方式是什么。

最好的变法,是把你自己武装成一个全能工作师。你不需要成为各方面的专家,但是你一定需要各方面都了解一点,查一下文档可以上手就用。

会使用 NoSQL。尤其是 MongoDB

学会基本的 visualization,会用基础的 html 和 javascript,知道 d36这个可视化库,以及 highchart7

学习基本的算法和算法分析,知道如何分析算法复杂度。平均复杂度,最坏复杂度。每次写完一个程序,自己预计需要的时间(用算法分析来预测)。推荐普林斯顿的算法课8(注意,可以从算法 1 开始,它有两个版本)

写一个基础的服务器,用 flask9的基本模板写一个可以让你做可视化分析的 backbone。

学习使用一个顺手的 IDE,VIM, pycharm 都可以。

4)读,读,读!

除了闭门造车,你还需要知道其它数据科学家在做些啥。涌现的各种新的技术,新的想法和新的人,你都需要跟他们交流,扩大知识面,以便更好应对新的工作挑战。

通常,非常厉害的数据科学家都会把自己的 blog 放到网上供大家参观膜拜。我推荐一些我常看的。另外,学术圈里也有很多厉害的数据科学家,不必怕看论文,看了几篇之后,你就会觉得:哈!我也能想到这个!

读 blog 的一个好处是,如果你跟他们交流甚欢,甚至于你可以从他们那里要一个实习来做!

关于“如何成为一名数据科学家”这个话题的介绍,今天小编就给大家分享完了,如果对你有所帮助请保持对本站的关注!

本文来自作者[乐巧]投稿,不代表育友号立场,如若转载,请注明出处:https://www.jxydedu.cn/yule/202602-27342.html

(1)

文章推荐

  • 中山小榄有火车站吗?

    网上有关“中山小榄有火车站吗?”话题很是火热,小编也是针对中山小榄有火车站吗?寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。小榄站的位置就在中山市小榄镇城区上,一端是105国道,一端是民安南路,然后在地面上形成的一个枢纽接驳。城轨小榄站-公交车站途径公交车:

    2025年12月06日
    88322
  • 教程辅助“欢乐吓牌开挂教程!真的有挂!”开挂(透视)辅助教程

    >亲,这款游戏原来确实可以开挂,详细开挂教程1、起手看牌2、随意选牌3、控制牌型4、注明,就是全场,公司软件防封号、防检测、 正版软件、非诚勿扰。2022首推。全网独家,诚信可靠,无效果全额退款,本司推出的多功能作 弊辅助软件。软件提

    2025年12月17日
    95303
  • 实测分析“途游四川麻将小程序必赢神器”开挂详细教程

    >您好:”确实真的有挂,软件加微信【】确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到其他人的牌一样。所以很多小伙伴就怀疑这款游戏是不是有挂,实际上这款游戏确实是有挂的,添加客服微信【】安装软件.1.推荐使用‘”确实真的有挂

    2025年12月26日
    80306
  • 分享教程“新猴王大厅辅助器”开挂(透视)辅助教程

    您好:这款游戏是可以开挂的,软件加微信【添加图中微信】确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到其他人的牌一样。所以很多小伙伴就怀疑这款游戏是不是有挂,实际上这款游戏确实是有挂的,添加客服微信【添加图中微信】安装软件.

    2025年12月28日
    80308
  • 求以下三国演义讨论题目简要答案

    网上有关“求以下三国演义讨论题目简要答案”话题很是火热,小编也是针对求以下三国演义讨论题目简要答案寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。1.本书有哪些主要角色?曹操,刘备,孙权,关羽,诸葛亮2.你最喜欢哪个角色?为什么?请给他一句评语。赵云,他很

    2026年01月01日
    76305
  • 中国有哪些著名的科学家?

    网上有关“中国有哪些著名的科学家?”话题很是火热,小编也是针对中国有哪些著名的科学家?寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。1、茅以升是我国著名的桥梁专家、土木工程专家、工程教育家,毕业于西南交通大学,获得了康奈尔大学的硕士学位,又获得了卡耐基隆大学

    2026年01月01日
    64323
  • 辅助开挂工具“小南四川长牌有挂吗”开挂(透视)辅助教程

    您好:这款游戏是可以开挂的,软件加微信【添加图中微信】确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到其他人的牌一样。所以很多小伙伴就怀疑这款游戏是不是有挂,实际上这款游戏确实是有挂的,添加客服微信【添加图中微信】安装软件.

    2026年01月12日
    93301
  • 实测分析“新星游开挂辅助软件”分享用挂教程

    >>>您好:,软件加微信【】确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到其他人的牌一样。所以很多小伙伴就怀疑这款游戏是不是有挂,实际上这款游戏确实是有挂的,添加客服微信【】安装软件.1、起手看牌2、随意选牌3

    2026年01月26日
    34307
  • 实测分享“微乐锄大地开挂神器下载”最新辅助详细教程

    您好:微乐锄大地开挂神器下载这款游戏是可以开挂的,软件加微信【添加图中微信】确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到其他人的牌一样。所以很多小伙伴就怀疑这款游戏是不是有挂,实际上这款游戏确实是有挂的,添加客服微信【添加图中微信】安装软件.

    2026年01月28日
    42318
  • 实测教程”微乐陕西挖坑作弊”分享用挂教程

    >>>您好:,软件加微信【】确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到其他人的牌一样。所以很多小伙伴就怀疑这款游戏是不是有挂,实际上这款游戏确实是有挂的,添加客服微信【】安装软件.1、起手看牌2、随意选牌3

    2026年02月10日
    24302
  • 开挂辅助工具“手机拼三张输赢规律”透视开挂辅助教程

    您好:,软件加微信【添加图中QQ群】确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到其他人的牌一样。所以很多小伙伴就怀疑这款游戏是不是有挂,实际上这款游戏确实是有挂的,添加客服微信【添加图中QQ群】安装软件.1、起手看牌2、随意

    2026年02月11日
    28302
  • 真实辅助“微信拼三张透视免费版”开挂神器{透视辅助}全揭秘

    >>>您好:,软件加微信【】确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到其他人的牌一样。所以很多小伙伴就怀疑这款游戏是不是有挂,实际上这款游戏确实是有挂的,添加客服微信【】安装软件.1、起手看牌2、随意选牌3

    2026年02月13日
    26303

发表回复

本站作者才能评论

评论列表(3条)

  • 乐巧的头像
    乐巧 2026年02月21日

    我是育友号的签约作者“乐巧”

  • 乐巧
    乐巧 2026年02月21日

    本文概览:网上有关“如何成为一名数据科学家”话题很是火热,小编也是针对如何成为一名数据科学家寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。我认为...

  • 乐巧
    用户022112 2026年02月21日

    文章不错《如何成为一名数据科学家》内容很有帮助