加入收藏 | 设为首页 | 会员中心 | 我要投稿 济南站长网 (https://www.0531zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

数据科学到底是什么?

发布时间:2021-06-22 11:47:33 所属栏目:大数据 来源:互联网
导读:数据科学是一门将数据变得有用的学科。它包含三个重要概念: 统计 机器学习 数据挖掘/分析 数据科学的定义 如果你回顾一下数据科学这个术语的[早期历史](),会发现有两个主题密切相连: 大数据意味着计算机的使用频率增加。 统计学家很难将纸张上所写算法用
 数据科学是一门将数据变得有用的学科。它包含三个重要概念:
 
  统计
  机器学习
  数据挖掘/分析
 
  数据科学的定义
 
  如果你回顾一下数据科学这个术语的[早期历史](),会发现有两个主题密切相连:
 
  大数据意味着计算机的使用频率增加。
 
  统计学家很难将纸张上所写算法用计算机实现。
 
  由此,数据科学得以出现。早先,人们将数据科学家视作会编码的统计学家。如今看来,这种说法并不准确,首先让我们回到数据科学本身。
 
推特给出的定义circa 2014
 
  2003年,《数据科学杂志》曾提出:“所谓的‘数据科学’,指的是那些任何与数据相关的内容”。对此,我表示赞同,现在一切都无法与数据分割。
 
  之后,对数据科学的定义便层出不穷,例如Conway的维恩图,以及Mason和Wiggins的经典观点。
 
Drew Conway对数据科学的定义
 
  维基百科上对数据科学的定义更接近于我给学生讲授的内容:
 
  数据科学仅是一种概念,它结合了统计学、数据分析、机器学习及其相关方法,旨在利用数据对实际现象进行“理解和分析”。
 
  简单来讲:数据科学是一门将数据变得有用的学科。
 
  现在你也许不禁会问,“这会不会太简单了,‘有用’怎么就能包含所有的术语呢?”
 
  先看下图,该图内容与维基百科给出的定义十分契合:
 
  这些都是什么,我们又如何知道处于图中所描述的哪个阶段呢?
 
  统计学家和机器学习工程师的区别不在于前者使用R,而后者使用Python。由于众多原因,按照SQL、R、Python进行分类是不合理的,其中最重要的原因是软件会更新。目前,已经可以用SQL来处理机器学习问题。
 
  新手依旧喜欢采用这种方式进行区分,甚至很多大学课程也是如此安排,但这不够合理。并且,最好不要采用直方图、t检验以及神经网络进行分类。如果你足够聪明,并且拥有自己的观点,你可以使用相同的算法解决所有的数学科学问题。
 
  我建议可按如下方式进行区分:
 
  None-One-Many
 
  这究竟指的是什么呢?没错,就是决定!当所有你需要的事实对你可见时,你可以通过描述性分析做出尽可能多的决定。
 
  我们的行动和决定会影响到我们周围的世界。
 
  接下来我们将继续探讨如何让数据变得有用。对我来说,有用的概念与影响世界的行动紧密相连。举个形象的例子:如果我们相信圣诞老人的存在,那圣诞老人这个概念就不重要了,除非它可能会以某种方式影响我的行为。然后,取决于这种行为的潜在后果,它可能开始变得非常重要。
 
  下图是决策导向图,您可以通过以下三步让数据变得有用。
 
  数据挖掘
 
  如果你不知道你要作何决定,最好的办法就是去寻找灵感。这就是所谓的数据挖掘、数据分析、描述性分析、探索性数据分析或知识发现。
 
  分析的黄金准则:只对你所见的下结论。
 
  除非你知道如何制定你的决策,否则就从寻找灵感开始吧。做法很简单,只需要你将数据集想象为你在黑暗的房间中发现的一堆底片。数据挖掘就是让设备尽可能快地公开所有的图片,这样你就能看到这些图片上是否有什么鼓舞人心的东西。和照片一样,不要把你看到的东西想得太严肃。你没有拍这些照片,所以你对屏幕之外的东西了解不多。数据挖掘的黄金法则是:只对你能看到的做出结论,不对你看不到的做出结论,因为你需要统计数据和更多的专业知识。
 
  除此之外,你还应尽力做到最好。数据挖掘的专业知识是通过检查数据的速度来判断的,不要迷恋那些看似有趣的东西。
 
  暗房一开始很吓人,但其实也没什么大不了的。只要学会操作设备就行。这是R语言的教程,这是Python语言的教程。当你开始玩得开心时,你可以称自己为数据分析师,当你能够以闪电般的速度曝光照片以及所有其他类型的数据集时,你就可以称为专家分析师。
 
  统计推断
 
  灵感很容易获取,但严谨却很难做到,如果你想掌握数据,则需要专业课程的学习。作为一名统计学专业的本科生和研究生,我认为统计学推论(简称统计学)是这三个领域中最难且最具哲学思想的。想要做好它需要花费不少的时间。
 
  如果你打算做出高质量且风险可控的决策,由于决策不仅仅依赖你所得到的数据,此时你需要在你的分析团队中加入统计技能。
 
  在情况不确定的时候,或许统计学能够改变你的想法。
 
  机器学习
 
  机器学习从本质上来讲,是使用示例而非指令来实现操作的。我也曾写过一些关于机器学习的文章,包括机器学习与人工智能有何不同、如何入门机器学习、企业运用机器学习的经验教训以及向孩子介绍监督学习等。
 
  数据工程
 
  数据工程指的是将数据传递给数据科学团队的工作。它本身就是一个复杂的领域,通常而言,它更接近于软件工程,而不是统计学。
 
  数据工程与数据科学的差异是前后的区别。
 
  获取数据之前的大部分技术工作都可以被称为“数据工程”,而获取到数据后我们所做的一切都是“数据科学”。
 
  决策智能
 
  决策智能是关于决策的,包括基于数据的大规模决策,这使得它变成了一门工程学科。利用社会和管理学科的观点,增强数据科学的应用。
 
  决策只能是社会和管理学科的组成部分。换句话说,它是这些数据科学的超集,而不涉及为通用用途创建基本方法之类的研究工作。

(编辑:济南站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!