博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
【python+flume+kafka+spark streaming】编写word_count入门示例
阅读量:7126 次
发布时间:2019-06-28

本文共 691 字,大约阅读时间需要 2 分钟。

一. 整体架构的一些理解

  1.整体架构的理解:

  

    架构中的角色分为了数据采集,数据缓冲,还有数据处理。

    flume由于输入和输出的接口众多,于是利用这特点来实现无编程的数据采集。

  无编程的数据采集,我是这样理解的,主要就是数据输入和输出的格式转化问题,不过暂时还是纯粹的臆测,学的很浅;

    kafka则是将数据输入和数据处理,进行了解耦,从而达到生产和消费平衡(数据采集速度和处理速度平衡);

    spark很好理解,就是单纯的处理数据。

 

  2.部署上的理解:

    

    flume是存在于各个数据产生节点上的;

    kafka主要是broker的角色,而且是一个集群。

 

  3.关于几个部件原理介绍的一些文章:

  

 

二. 代码以及遇到的一些问题

  1.代码:

 

  2.问题:

   1) 缺jar包:

      下载相应的streaming jar包,放到jar文件夹中,或者sumbit加上相应参数即可解决;

   2)拒绝访问:

      我一开始的时候,使用sl77作为spark集群的master,后来发现sl77并没有其他机子的ssh访问权限,只有75,76做了相应的配置;

   3)invalid ip:

      在/etc/hosts中配置映射,配置成了ip hadoop@ip的形式,spark识别不出,改成ip slxx的形式后解决;

   4)日志过多,影响观察结果问题:

    

 

  

转载于:https://www.cnblogs.com/rachelint/p/9271481.html

你可能感兴趣的文章
Windows Server 2019 -正式发布
查看>>
我的友情链接
查看>>
我的友情链接
查看>>
history用法详解
查看>>
win7 下java开发环境搭建
查看>>
更新yum源时出现的问题
查看>>
嵌入式C语言面试题
查看>>
【Powershell】【DNS】通过Powershell远程注册静态DNS
查看>>
IOSTAT命令
查看>>
【长文+图片】HP FC MSA2000服务器瘫痪数据恢复过程
查看>>
C到C++ 快速过度 B 函数重载
查看>>
每个程序员都会的 35 个 jQuery 小技巧
查看>>
假设检验基本概念及一个总体参数的检验
查看>>
linux--dns服务器
查看>>
php-ffmpeg 安装
查看>>
文件上传
查看>>
java web 接收发送json格式的数据
查看>>
Hbase里的排序和比较大小
查看>>
IE7中input元素相对父级元素错位
查看>>
django 处理POST请求时报403
查看>>