经济学原理

强烈推荐十三个大数据学习网站


数据分析重要性

越来越多的管理者意识到数据分析对经济发展、企业运营的重要意义

现在,得大数据者得天下

我总结的数据分析五步走:

1、锁定分析目标,梳理思路,叫纸上谈兵;

2、把杂乱的数据整理出图表报表,用数据探业务,叫自问数答;

3、锁定核心抓重点,设定最终算法,叫挟天子以令诸侯;

4、梳理重点发现,准备剧本开拍,接受PK,叫才辨无双;

5、效果梳理,总结经验,叫内视反听。

知道了数据的重要性,也了解了数据分析的步骤,那么如何更好的学习并运用呢

现在学习的途径很多,数据君整理几个大家不知道的网站,让你开开眼界:

都是国外的学习站点,所以有时候打不开,原因你懂的

一、如何用R的处理大数据

  1、理论要求及对数字的敏感性,包括统计知识、市场研究、模型原理等。

  2、工具使用,包括挖掘工具、数据库、常用办公软件(excel、PPT、word、脑图)等。

  3、业务理解能力和对商业的敏感性。对商业及产品要有深刻的理解,因为数据分析的出发点就是要解决商业的问题,只有理解了商业问题,才能转换成数据分析的问题,从而满足部门的要求。

  4、汇报和图表展现能力。这是临门一脚,做得再好的分析模型,如果不能很好地展示给领导和客户,成效就大打折扣,也会影响到数据分析师的职业晋升。

二、请把数据分析作为一种能力来培养

  从广义来说,现在大多数的工作都需要用到分析能力,特别是数据化运营理念深入的今天,像BAT这样的公司强调全员参与数据化运营,所以,把它作为一种能力培训,将会让你终生受益。

三、从数据分析的四个步骤来看清数据分析师需具备的能力和知识:

  数据分析的四个步骤(这有别于数据挖掘流程:商业理解、数据理解、数据准备、模型搭建、模型评估、模型部署),是从更宏观地展示数据分析的过程:获取数据、处理数据、分析数据、呈现数据。

  (一)获取数据

  获取数据的前提是对商业问题的理解,把商业问题转化成数据问题,要通过现象发现本质,确定从哪些纬度来分析问题,界定问题后,进行数据的采集。此环节,需要数据分析师具备结构化的思维和对商业问题的理解能力。

  推荐书籍:《金字塔原理》、麦肯锡三部曲:《麦肯锡意识》、《麦肯锡工具》、《麦肯锡方法》

  工具:思维导图、mindmanager软件

  (二)处理数据

  一个数据分析项目,通常数据处理时间占70%以上,使用先进的工具有利于提升效率,所以尽量学习最新最有效的处理工具,以下介绍的是最传统的,但却很有效率的工具:

  Excel:日常在做通报、报告和抽样分析中经常用到,其图表功能很强大,处理10万级别的数据很轻松。

  UltraEdit:文本工具,比TXT工具好用,打开和运行速度都比较快。

  ACCESS:桌面数据库,主要是用于日常的抽样分析(做全量统计分析,消耗资源和时间较多,通常分析师会随机抽取部分数据进行分析),使用SQL语言,处理万级别的数据还是很快捷。

  Orcle、SQLsever:处理千万级别的数据需要用到这两类数据库。

  当然,在自己能力和时间允许的情况下,学习新流行的分布式数据库及提升自身的编程能力,对未来的职业发展也有很大帮助。

  分析软件主要推荐:

  SPSS系列:老牌的统计分析软件,SPSSStatistics(偏统计功能、市场研究)、SPSSModeler(偏数据挖掘),不用编程,易学。

  SAS:老牌经典挖掘软件,需要编程。

  R:开源软件,新流行,对非结构化数据处理效率上更高,需编程。

  随着文本挖掘技术进一步发展,对非结构化数据的分析需求也越来越大,需要进一步   (三)分析数据

  分析数据,需要用到各类的模型,包括关联规则、聚类、分类、预测模型等,其中一个最重要的思想是对比,任何的数据需要在参照系下进行对比,结论才有意义。

  推荐的书籍:

  1、《数据挖掘与数据化运营实战,思路、方法、技巧与应用》,卢辉着,机械出版社。这本书是近年国内写得最好的,务必把它当作圣经一样来读。

  2、《谁说菜鸟不会数据分析(入门篇)》和《谁说菜鸟不会数据分析(工具篇)》,张文霖等编着。属于入门级的书,适合初学者。

  3、《统计学》第五版,贾俊平等编着,中国人民大学出版社。比较好的一本统计学的书。

  4、《数据挖掘导论》完整版,[美]Pang-NingTan等着,范明等翻译,人民邮电出版社。

  5、《数据挖掘概念与技术》,JiaweiHan等着,范明等翻译,机械工业出版社。这本书相对难一些。

  6、《市场研究定量分析方法与应用》,简明等编着,中国人民大学出版社。

  7、《问卷统计分析实务—SPSS操作与应用》,吴明隆着,重庆大学出版社。在市场调查领域比较出名的一本书,对问卷调查数据分析讲解比较详细。

(四)呈现数据

  该部分需要把数据结果进行有效的呈现和演讲汇报,需要用到金字塔原理、图表及PPT、word的呈现,培养良好的演讲能力。

  推荐书籍:

  1、《说服力让你的PPT会说话》,张志等编着,人民邮电出版社。

  2、《别告诉我你懂ppt》加强版,李治着,北京大学出版社。

  3、《用图表说话》,基恩。泽拉兹尼着,马晓路等翻译,清华大学出版社。

  (五)其他的知识结构

  数据分析师除了具备数学知识外,还要具备市场研究、营销管理、心理学、行为学、产品运营、互联网、大数据等方面的知识,需要构建完整广泛的知识体系,才能支撑解决日常遇到的不同类型的商业问题。

  推荐书籍:

  1、《消费者行为学》第10版,希夫曼等人着,江林等翻译,中国人民大学出版社,现在应该更新到更高的版本。

  2、《怪诞行为学》升级版,艾瑞里着,赵德亮等翻译,中信出版社

  3、《营销管理》,科特勒等着,梅清豪翻译,格致出版社和上海人民出版社联合出版

  4、《互联网思维—独孤九剑》,赵大伟主编,机械出版社

  5、《大数据时代—生活、工作与思维的大变革》,舍恩伯格等着,周涛等翻译,浙江人民出版社

四、关于数据分析师的职业发展:

  1、数据分析师通常分两类,分工不同,但各有优势。

  一类是在专门的挖掘团队里面从事数据挖掘和分析工作的。如果你能在这类专业团队学习成长,那是幸运的,但进入这类团队的门槛较高,需要扎实的数据挖掘知识、挖掘工具应用经验和编程能力。该类分析师更偏向技术线条,未来的职业通道可能走专家的技术路线。

  另一类是下沉到各业务团队或者运营部门的数据分析师,成为业务团队的一员。他们工作是支撑业务运营,包括日常业务的异常监控、客户和市场研究、参与产品开发、建立数据模型提升运营效率等。该类型分析师偏向产品和运营,可以转向做运营和产品。

  2、数据分析师的理想行业在互联网,但条条大道通罗马,走合适你的路线。

  从行业的角度来看:

  1)互联网行业是数据分析应用最广的行业,其中的电商企业,更是目前最火的,而且企业也更重视数据分析的价值,是数据分析师理想的成长平台。

  2)其次是咨询公司(比如专门的数据挖掘公司Teradata、尼尔森等市场研究公司),他们需要数据分析人才,而且相对来说,数据分析师在咨询公司成长的速度更快,专业也会更全面。

  3)再次是金融行业,比如银行和证券等行业,该行业对数据分析的依赖需求,越来越大。

  4)最后是电信行业(中国移动、联通和电信),它们拥有海量的数据,在严峻的竞争下,也越来越重视数据分析,但进入这些公司的门槛比较高。

五、什么人适合学习数据分析?

  这个问题的答案跟“什么人适合学功夫”一样,毫无疑问,功夫是适合任何人学习的(排除心术不正的人),因为能够强身健体。而功夫的成效,要看习武者的修炼深浅。常常有人争论,是咏春拳厉害,还是散打厉害,其实是颠倒了因果,应该看哪个人练习得比较好,流派之间没有高低,只有人修炼的厚薄。

  实际上,问题的潜台词是“什么人学习数据分析,会更容易取得成功(比如职业成功)”,这个要视乎你的兴趣、付出和机遇。但要做到出类拔萃,除了上面三点,还需要一点天赋,这里的机遇是指你遇到的职业发展平台、商业环境、导师和同事。

  借用管理大师德鲁克的话“管理是可以习得的”,管理并非是天生的,而数据分析能力,也可以后天提升。或许做到优秀,只需要你更加的努力+兴趣,而这个努力的过程,也包括你寻找机遇的部分。

六、关于如何学习:

  学习方法千万种,关键是找到适合自己的,最好能够结合你的工作遇到的问题来学习。

  1、搜集书籍、案例库和视频,先弄懂理论,然后学会软件操作,自己制作属于自己的教程。

  比如,你学习聚类分析模型。1)搜集相关的聚类分析模型的书籍、案例和教学视频,了解聚类分析的原理,主要有哪几种算法(划分、层次、密度、网格)、模型适用的范围和前提、如何评估模型的精确度等。

  2)自己学会用软件来实现。

  3)总结整理成一份PPT和制作操作视频,成为自己的学习教程,不断完善。

  4)学习到一定程度后,可以在博客、   2、   1)   SPSS的案例库,可在   另外,你最好建一个自己的网址导航目录,提升你的学习效率

  2)   3)加入一些有共同爱好的QQ群,互相学习交流。通常群里有人会提出一些真实的运营问题,然后大家用不同的方法去解决,对思路很有启发。

  4)碎片化学习,最大化你的时间价值。为了把零散的时间利用起来,通常我会把一些资料上载到网盘,在零碎的时间里通过手机进行视频、文档学习等。目前使用百度云盘和网盘。百度云盘应用比较广,通常在网络上搜索“关键词+百度云”后,搜到结果可以直接保存在云盘上,搜索保存速度极大提升。网盘则空间比较大,可以到达40T,同时有保险箱加密功能,安全性高一些。

  手机上安装一些APP,随时随地学习。

七、最后的建议

  请再次问问自己,是否真的喜欢数据分析,能否忍受处理数据时的寂寞?如果是,那就开始学习,给你几条建议。

  1、把数据分析作为一种能力培养,让自己在现在的团队中展现出良好的数据分析能力,为你以后内部转岗做好准备。如果内部转岗不成,你可以考虑跳槽到我之前分析的行业中,但我强烈建议你还是需要把系统开发的编程能力学习好,并且对商业智能系统(BI和CRM)有一定了解,这也许是应聘数据分析的优势。如果没有数据分析经验去应聘,相对会难一些,用人单位会考你统计和数据挖掘模型方面的知识,以及工具使用情况。

  2、在公司里找一些有共同爱好的同事一起学习数据分析,平时多请教数据分析做得好的同事,它山之石,可以攻玉。

  3、扎实学好一、两门数据挖掘软件,基于你有编程的基础,建议你可以学SAS或者R,同时辅助学习SPSSModeler。如果没编程基础或者希望短期能够取得成效,那也可以先学习SPSS。SAS+SPSS,基本能够满足很大部分企业的需求,三者都会,那更好。

  4、要了解公司是如何运营,产品是如何开发的,如何做客户研究锁定客户需求,如何做产品营销,这些需要不断工作积累和广泛的阅读。

  5、开始学习时,先读几本有趣的数据分析类的书,然后系统学习一下统计知识(建议教材用《统计学》第五版,贾俊平等编着),接着网上快速搜集软件操作视频和案例,然后逐个分析模型进行学习和总结归纳,学习最好能够结合实际工作中的问题进行。

  6、学习到一定程度时,参加一些数据分析师的职业认证,进一步梳理知识结构,同时认识一些志同道合的朋友和老师,也是对你有很大帮助。

为了鼓励新工具的出现,机器学习和数据分析领域似乎已经成了“开源”的天下。Python和R语言都具有健全的生态系统,其中包括了很多开源工具和资源库,从而能够帮助任何水平层级的数据科学家展示其分析工作。

机器学习和数据分析之间的差异有些难以言明,但二者最主要的不同就在于,比起模型的可解释性,机器学习更加强调预测的准确性;而数据分析则更加看重模型的可解释性以及统计推断。Python,由于更看重预测结果的准确性,使其成为机器学习的一把利器。R,作为一种以统计推断为导向的编程语言,在数据分析界也得到广泛应用。

当然,这并不代表二者只能在各自的一个领域中得到应用。Python也可以高效地完成数据分析工作,R在机器学习中也具有一定的灵活性。它们都拥有相当多的资源库去实现彼此特定的函数功能,比如Python就有很多资源库来提高自己统计推断的能力,R也有很多包可以提升预测的准确率。

Python中关于机器学习和数据分析的包

虽然Python本身就更倾向于机器学习,但它还是有很多包可以进一步优化这一属性。PyBrain是一个模块化的机器学习资源库,其中包含很多有效的算法可以满足机器学习任务的需要。除了很多直观灵活的算法,这个资源库还内置很多环境可以用来检验和比较这些机器学习算法的效果。

Scikit-learn可能是Python最受欢迎的机器学习资源库了。基于Numpy和Scipy,scikit-learn提供大量用于数据挖掘和分析的工具,从而提高了Python本就出色的机器学习可用性。NumPy和SciPy各自为战,虽然它们是Python中数据分析的核心部分,但数据分析家更可能仅仅原生地去使用它们,而不是基于一个更高的角度。Scikit-learn却将二者结合成为一个机器学习资源库,同时也降低了大家的学习门槛。

在数据分析领域,Python也因几个库而包受推崇。作为其中最为著名的库之一,Pandas为Python提供了高性能处理的数据结构和数据分析工具。如同其他很多Python的库一样,从你着手一个新项目到真正做些有价值的工作这过程的时间将会因它大大缩短。如果你执着于Python同时又希望使用R的功能,RPy2库能够提供所有R的主要功能,并给你一个R在Python中使用的流畅化体验。

R中关于机器学习和数据分析的包

就像Python一样,R也拥有大量的包来提升它的表现。要想在机器学习领域媲美Python,R中的Nnet包具有快速构建神经网络模型的能力。通过提供一系列函数来提升所构建模型的有效性,Caret包也可以加强R在机器学习的能力。

就R在数据分析领域的表现,仍然有很多包可以用来提升它本就出色的能力。不管是建模前的准备,建模,以及建模后的分析工作,R都有很多包可以胜任。这些包大多专门用来完成特定的任务,比如数据的可视化,连续变量回归和模型验证。

两种编程语言都拥有如此多交叉功能的资源库和包,你会选择哪种编程语言作为伴你在数据战场厮杀的武器呢?

在机器学习和数据分析中的Python

如果你已经有一些编程的基础了,Python可能更加适合你。相较于R,Python的语法结构与其他编程语言更加类似,便于上手。此外,就像是口头语一样,Python代码的可读性也是无人能及的。这种代码的可读性更加强调提高生产力,而R非标准的代码可能会导致在编程进程中的磕绊。

Python是一种很灵活的编程语言,所以如果你打算把已经完成的机器学习或者数据分析的项目移植到其他领域,那么使用Python可以使你不必再去学习新的编程语言。

Python的灵活性也使得它非常适用于生产。举个例子,当数据分析的任务需要与Web应用程序相整合的时候,你仍然可以使用Python且不需要和其他编程语言相整合。而虽然R是一个很好的数据分析的工具,但它在数据分析之外的领域却有所限制。

如果你刚入门编程,对那些“标准化”的语法并不熟悉,那么无论哪种编程语言的学习曲线对你而言都差不多。但要是你希望跨过机器学习和数据分析的门槛,Python可能是更好的选择。特别是Python有scikit-learn库的加持。这个库表现良好且更新频繁。R可能有很多包,但显得有些零乱且一致性较差。

在机器学习和数据分析中的R

目前,R主要是用在科研和调查工作中。然而,随着R逐渐扩展到商业领域,这一现状也开始得到改变。R是由统计学家所创造出来的,因此它可以很轻易地管理基本的数据结构。给数据打标签,填充缺失值,筛选等等这些对于R而言很容易就可以实现,R也更加强调易于操作的数据分析,统计和图形化模型工作。

由于R是作为统计性的编程语言而构建的,因此它具有很好的统计方面的支持。它能够很好地展现统计学家的思维,所以如果你具有统计背景的话,用起来会很顺手。诸如像statsmodels包能够基本覆盖Python中的统计模型,而且R中与统计模型相关的包功能会更加强大。对于刚入门的程序员,R只需要写几行代码就能够构建模型了,这样一来,它会比Python更容易解释一些。

R中与Python的pandas库功能最为接近的大概就是dplyr包了,只不过它会比pandas库限制得更多。虽然这听起来不太好,但实际上使用dplyr包时会促使你更专注于寻求问题的解决之道,而且dplyr包的代码也比pandas库更容易理解。

选择你自己的编程语言吧

R最大的问题在于一致性不够好。其中的算法流程被分成三块,使得它们相对而言不够统一。你不得不学习新的方法来建模并用新的算法来做预测,伴随这个过程,结果的有效性将会明显下降。你需要理解每个包是怎么用的,同样地,R中包的帮助文档由于不够完整,一致性也不好。

不过,要是你需要一个数据分析的工具用于学术,R绝对可以胜任这项工作。Python则被广泛地用于商业也更便于协作,不过R也越来越得到重视了。不管是日常的使用和机器学习,还是通过和R一般众多的包来做数据分析,Python都能做到,因此也更推荐使用Python。

如果你对R还比较陌生,不如学习Python并通过RPy2包来实现R的功能。这样一来,你就可以在一种编程语言里同时使用二者的功能,而且由于很多公司已经开发了在Python中使用的生产系统,Python可谓生产力高效。这点在R中就不适用了。一旦你学会了RPy2,再想跳到R里面并没有那么复杂,不过反过来就相对而言困难得多了。

不管你想解决什么类型的问题,Python和R都有功能相近的资源库可以使用。每种编程语言都有很多的分支、模块、集成开发环境和算法,以至于你难以出什么大的纰漏。不过要是你希望使用一个灵活性强,扩展性好,多功能又能胜任机器学习和数据分析工作的编程语言,Python或许是明智之选。

原文链接:PythonversusRformachinelearninganddataanalysis

原文作者:TomRadcliffe

译作者:Vectorvia:数据工匠

End.

作者:BobMuenchun

前言

招聘广告的数量能一定程度上反应每一种软件的流行程度,并从中预测出哪一种在将来会更加流行。本文作者以美国最大的招聘网站Indeed.







































长春白癜风医院
白癜风早期什么症状



转载请注明:http://www.deudeguo.com/jykb/15089.html


当前时间: