未来 3~5 年内，哪个方向的机器学习人才紧缺？

发布时间：2019-07-06 05:17:29 所属栏目：经验来源：自律873

导读：副标题#e# 基本简介撇开学术界需求因为大部分人最终不会从事算法研究，而会奋斗在一线应用领域。相较而言，工业界对人才的需求更加保守。这受限于很多客观因素，如硬件运算能力、数据安全、算法稳定性、人力成本开支等。这个答案可能更适合两类人: 1. 在

副标题[/!--empirenews.page--]

基本简介

撇开学术界需求因为大部分人最终不会从事算法研究，而会奋斗在一线应用领域。相较而言，工业界对人才的需求更加保守。这受限于很多客观因素，如硬件运算能力、数据安全、算法稳定性、人力成本开支等。

未来 3~5 年内，哪个方向的机器学习人才紧缺？

这个答案可能更适合两类人: 1. 在读学生 2. 工作不久想要转行机器学习的朋友。特别厉害的技术大牛建议探索适合自己的路线，而我只能泛泛谈谈适合大部分人的路线。但在回答前，我还是忍不住吐槽一下那种简单回答“深度学习”，“大数据”，“NLP”，“机器视觉”的人。这每一个领域的小方向都多如牛毛，以自然语言处理(NLP)为例，细分有自然语言生成、自然语言理解，还有不同语言的语言模型。任何一个方向花几十年研究也不为过，只给出几个字的答案和买彩票有什么区别...因此大部分机器学习实践者还是该脚踏实地。盲目追逐热点很容易跌进陷阱，而巩固基础、寻找自己擅长的领域和机器学习交叉点可以帮助你在未来的就业市场变得炙手可热，成为工业界最紧缺的人才。

0. 背景

工业界未来需要什么样的机器学习人才?老生常谈，能将模型应用于专业领域的人，也就是跨领域让机器学习落地的人。有人会问现在我们不就需要这样的人吗?答案是肯定的，我们需要并将长期需要这样的人才，现阶段的机器学习落地还存在各种各样的困难。这样的需求不会是昙花一现，这就跟web开发是一个道理，从火热到降温也经过了十年的周期。一个领域的发展有特定的周期，机器学习的门槛比web开发高而且正属于朝阳期，所以大家致力于成为“专精特定领域”的机器学习专家并不过时。

什么是特定领域的机器学习专家?举个例子，我以前曾回答“人工智能是否会替代财务工作者”时提到我曾在某个公司研究如何用机器学习自动化一部分审计工作，但遇到的最大困难是我自己对审计的了解有限，而其他审计师对我的工作不是非常支持导致进展缓慢。所以如果你有足够的机器学习知识，并对特定领域有良好的理解，在职场供求中你肯定可以站在优势的那一边。以我的另一个回答为例「反欺诈(Fraud Detection)中所用到的机器学习模型有哪些?」，特定领域的知识帮助我们更好的解释机器学习模型的结果，得到老板和客户的认可，这才是算法落了地。能写代码、构建模型的人千千万，但理解自己在做什么，并从中结合自己的领域知识提供商业价值的人少之又少。所以调侃一句，哪个方向的机器学习人才最紧缺?答：每个领域都需要专精的机器学习人才，你对特定领域的理解就是你的武器。

当然，给喂鸡汤不给勺很不厚道，所以我也会给出一些具体建议。再次申明，我的建议仅给以就业为目的的朋友，走研究路线我有不同的建议，本文不再赘述。未来 3~5 年内，哪个方向的机器学习人才最紧缺？

1. 基本功

说到底机器学习还是需要一定的专业知识，这可以通过学校学习或者自学完成。但有没有必要通晓数学，擅长优化呢?我的看法是不需要的，大前提是需要了解基本的数学统计知识即可，更多的讨论可以看我这个答案「阿萨姆：如何看待「机器学习不需要数学，很多算法封装好了，调个包就行」这种说法?」。最低程度下我建议掌握五个小方向，对于现在和未来几年内的工业界够用了。再一次重申，我对于算法的看法是大部分人不要造轮子，不要造轮子，不要造轮子!只要理解自己在做什么，知道选择什么模型，直接调用API和现成的工具包就好了。

回归模型(Regression)。学校的课程中其实讲得更多的都是分类，但事实上回归才是工业届最常见的模型。比如产品定价或者预测产品的销量都需要回归模型。现阶段比较流行的回归方法是以数为模型的xgboost，预测效果很好还可以对变量重要性进行自动排序。而传统的线性回归(一元和多元)也还会继续流行下去，因为其良好的可解释性和低运算成本。如何掌握回归模型?建议阅读Introduction to Statistical Learning的2-7章，并看一下R里面的xgboost的package介绍。
分类模型(Classification)。这个属于老生常谈了，但应该对现在流行并将继续流行下去的模型有深刻的了解。举例，随机森林(Random Forests)和支持向量机(SVM)都还属于现在常用于工业界的算法。可能很多人想不到的是，逻辑回归(Logistic Regression)这个常见于大街小巷每一本教科书的经典老算法依然占据了工业界大半壁江山。这个部分推荐看李航《统计学习方法》，挑着看相对应的那几章即可。
神经网络(Neural Networks)。我没有把神经网络归结到分类算法还是因为现在太火了，有必要学习了解一下。随着硬件能力的持续增长和数据集愈发丰富，神经网络的在中小企业的发挥之处肯定会有。三五年内，这个可能会发生。但有人会问了，神经网络包含内容那么丰富，比如结构，比如正则化，比如权重初始化技巧和激活函数选择，我们该学到什么程度呢?我的建议还是抓住经典，掌握基本的三套网络: a. 普通的ANN b. 处理图像的CNN c. 处理文字和语音的RNN(LSTM)。对于每个基本的网络只要了解经典的处理方式即可，具体可以参考《深度学习》的6-10章和吴恩达的Deep Learning网课(已经在网易云课堂上线)。
数据压缩/可视化(Data Compression & Visualization)。在工业界常见的就是先对数据进行可视化，比如这两年很火的流形学习(manifold learning)就和可视化有很大的关系。工业界认为做可视化是磨刀不误砍柴工，把高维数据压缩到2维或者3维可以很快看到一些有意思的事情，可能能节省大量的时间。学习可视化可以使用现成的工具，如Qlik Sense和Tableau，也可以使用Python的Sklearn和Matplotlib。
无监督学习和半监督学习(Unsupervised & Semi-supervised Learning)。工业界的另一个特点就是大量的数据缺失，大部分情况都没有标签。以最常见的反诈骗为例，有标签的数据非常少。所以我们一般都需要使用大量的无监督，或者半监督学习来利用有限的标签进行学习。多说一句，强化学习在大部分企业的使用基本等于0，估计在未来的很长一阵子可能都不会有特别广泛的应用。

2. 秘密武器

（编辑：济南站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页

dedecms怎样在首页选择	dede 首页独自调用新闻
马斯克希望下一年能在	DEDECMS完成文章tag关