Posts tagged with SPARK


说明 该文档详细描述使用scala编码word count任务,通过sbt工具构建包,提交spark streaming任务。 实现了几种有代表性的任务.包括从文件系统、HDFS读写,从tcp socket读写, 从kafka读写,实现无状态、有状态、滑动窗口、故障恢复。 测试环境 ssh: root@10.2.35.117 密码 123456 ssh: hadoop@10.2.35.117 密码 123456 spark安装目录 /usr/…

spark hdfs 调研目标 调研高可用分布式存储、计算框架,以适应当前和未来可期阶段的部门业务发展。 需求 存储为主 (如:当前simone Record目录下生成的录像文件的存储) 分析 (对上述大量文件进行二次分析) 成熟稳定 (满足日常操作需求) 市面常见方案 NFS、AFS 系统级网络通用文件系统,30年历史了,设计风格和如今有很大差异。常见用途挂载到本机,提供最容易的多用户访问方式,如NAS。 TFS 淘宝分布式文件系统,针对图片类小文件设计,前些年还打广告,github项目已废弃,官网打不开 BFS c++分布式文件系统,百度核心业务的底层存储,为实时业务设计,…