大数据开发的初学者的话|教程

< > >
强>读: >

    第一章:第一章:Hadoop。

  • 第二:更高效的wordcount
    第三:在Hadoop上的其他地方创建数据
    第四:从Hadoop获取数据到 >
    <第五章:快点,我的SQL
    第六章:一夫多妻
    <第七:越来越多的分析任务
    <第八章:我的数据是实时的。
    <第九章:我的数据应该是<
    <第十章:从恃强凌弱的机器中学习<

    经常问博客和QQ的初学者问我想在大数据的方向上做什么。我需要学什么技术和路线?我认为大数据很受欢迎。如果你感到困惑,出于这些原因,你想去大数据的方向。如果你想问,你的专业是什么,你对计算机/软件的兴趣是什么?它是一个对操作系统、硬件、网络和服务器感兴趣的计算机专业吗?它是一个对软件开发、编程和编写代码感兴趣的软件专业吗?它也是数学和统计学的专业,对数据和数字特别感兴趣。
    事实上,这是大数据、平台构建/优化/操作/维护/监控、大数据开发/设计/体系结构、数据分析/挖掘的三个发展方向。请不要问我哪一个容易,哪个前景好,哪个更有钱。

    第一把大数据4V特点:

      >有大量的数据,TB;
      具有多种数据类型、结构化、非结构化文本、日志、视频、图片、地理位置等;
      具有很高的商业价值,但在海量数据的基础上,通过数据分析和机器学习,需要更快速地挖掘这一价值;
      具有很高的时效性,对海量数据的处理需求不再局限于离线计算。

      现在,为了处理大数据的特性,开源的大数据框架变得越来越强大,越来越强大。首先,列出一些常见的问题:

      文件存储: Hadoop HDFS,超光速,KFS
      >强> Hadoop MapReduce,离线计算火花 >
      强流,实时计算:强风暴,星火,S4,苍鹭
      K-V, HBase,Redis,MongoDB NoSQL数据库:
      资源管理:纱网>
      日志收集:水槽,抄写,LogStash,Kibana >
      新闻:卡夫卡,stormmq,ZeroMQ系统,RabbitMQ
      查询分析:蜂房、黑斑羚、猪、普雷斯托、菲尼克斯、SparkSQL、钻、Flink,麒麟,德鲁伊>
      分布式协调服务:管理员
      /
      集群管理和监测:洋麻、Ganglia、Nagios,经理<br / Cloudera
      数据挖掘,机器学习:象夫MLLib <br /火花
      数据同步: Sqoop
      任务调度: Oozie
      ......
      用它,上面的30种,更不用说大师了,都会用很少的估计数。
      个人而言,主要经验是在第二个方向(开发/设计/架构)并听取我的建议。
      第一章:第一:Hadoop强>
      > 1.1学习百度和谷歌 >
      不管问题如何,试着自己去解决。
      谷歌首选,不是过去,用百度吧。
      第1.2条参考信息最好由正式文件<
      特别是对于介绍,官方文件总是首选文件。
      相信大多数人都是文化人。英语能做得好,看不见。请参考第一步。
      让Hadoop先运行
      Hadoop是大数据存储和计算的第一人,大数据开源框架现在主要依赖Hadoop或与之兼容。
      关于Hadoop,您至少需要了解以下内容:

        < Hadoop 1,Hadoop 2

      • MapReduce、HDFS
      • 那门噢德笪覃噢德
      • JobTracker TaskTracker
      • 纱,ResourceManager,nodemanager

        设置Hadoop,请使用第一步和第二步让它运行。
        建议安装包命令行的第一次安装,而不是安装管理工具。

        也:hadoop1.0知道它的完成,现在使用Hadoop 2。


        > > > > > > > > > > > > > > > > > > > > > > >强> > > > > 1.4试试用


        HDFS目录命令;
        上传和下载文件;
        承诺运行MapReduce示例程序;
        >打开Hadoop Web界面,查看作业运行状态,并查看作业

        资料全部来自网络,如果有问题可以发邮件到站长邮箱