关闭。这个问题是opinion-based .它目前不接受答案。
想改进这个问题?更新问题,以便 editing this post 可以用事实和引用来回答它.
6年前关闭。
Improve this question
我目前对工作和学习大数据分析和网络分析很感兴趣,但我不知道如何以及从哪里开始。我试着在互联网上寻找,但有些对我来说是提前的。在走这条路之前,我首先需要什么统计学和数学方面的技能、知识吗?
我目前的计划是每个周末参加在线类(class),因为我目前在工作日担任助理软件工程师,并练习 R 等大数据所需的编程语言。我已经拥有计算机科学学位,因此熟悉一些统计和数学方法不是问题。任何建议和意见都非常感谢!
对于那些已经有经验的人,您的经验如何?您最常与什么合作?
请您参考如下方法:
我和你在一条类似的船上。我在 Web 开发部门担任业务分析师。我做一些软件开发、数据挖掘和数据可视化,但我一直在提高我的技能,因为这一切对我来说都很有趣,它使我成为一个非常多才多艺的员工。
网络分析/大数据
看看您是否可以读取您公司的 Google Analytics 帐户,假设他们有一个网站。 API 非常好,R 中的预构建包使获取大量数据变得非常容易。如果他们的网站足够大,您可以轻松创建自己的真实数据集。虽然这些可能不会像“大数据”那样“大”,但它们对于练习数据可视化来说绝对很棒。我建议学习 Shiny 和 R Markdown。您可以轻松创建可与公司共享的 Web 统计可视化。如果您最终遇到了您尝试处理的数据量的问题(即:如果他们有一个巨大的网络存在),那么您可能会考虑使用 Spark 来处理大数据。 Coursera 有一个专注于大数据的专业 - https://www.coursera.org/specializations/big-data .如果您只是“审核”它们,您可以免费参加所有类(class)。您不会获得证书或任何东西,但您可以访问所有类(class) Material 。他们显然通过了 Spark、Hadoop、Pig 和 Hive。我没有上过,但我上过的UCSD Coursera类(class)非常好。
显然,Coursera 并不是万能的……还可以查看 edx.org、Pluralsight、Udemy 等……您可以获得一年的免费 Pluralsight 成员(member)资格 - 只需 Google 即可。我的是通过微软不知何故。我最喜欢的 Pluralsight 类(class)是(与数据/分析无关)Ethical Hacking . Udemy 经常在 HUGE 类(class)上提供惊人的优惠——比如 21 小时关于 Python 的数据分析讲座等。只需注册该服务,您将在一两周内获得“特别优惠”。它们通常是 10-20 美元。 https://www.brighttalk.com/也是与数据科学/分析相关的网络研讨会和会谈的好地方。
数据库
我的公司使用 SQL Server (Microsoft),所以我也参加了 MVA (Microsoft Virtual Academy) 上的一些数据库类(class)。他们有很多类(class),从完全的菜鸟到复习技能:MVA Database Stuff .
数据集
如果您发现自己需要大数据集,请加入 Kaggle。他们通常有很好的机器学习数据集,但您可以自己使用它们来挖掘和进行可视化。我会特别寻找标记的数据集。许多更大的集合是完全匿名的——没有标签,什么都没有。但是,如果您只是四处挖掘,那并不是很有趣。另外,这里有人整理了一堆公共(public)数据源:https://github.com/caesar0301/awesome-public-datasets .最后,NYC Open Data是我最喜欢获取网络数据集的地方之一。有些 super 无聊,但有一些很酷的分析done on parking tickets等等。
更多...
如果您只是想学习更多类(class)或阅读书籍,请查看 https://www.metacademy.org/ .他们有一些建议的路径来学习深度学习、机器学习、贝叶斯统计和其他类似的东西。我认为机器学习是一个很好的下一步——一旦你精通软件开发、数据库管理/创建/查询和可视化。
更多...
只是沉浸自己。那里有大量的数据博客、播客、聚会小组、 session 和新闻。尽你所能进入那里并弄清楚发生了什么以及谁在做什么。总之 super 有趣。我最喜欢的两件事:datatau (数据科学的黑客新闻)和 I Quant NY(上面链接,用于 parking 罚单)。

