`

hadoop讨论

 
阅读更多
雪候鸟<xuqi86@gmail.com>  9:46:08
hadoop只是降低了分布式开发的门槛,只需要调用map reduce接口,就能写一个在一个很大数据集上跑的分布式程序,但它效率并不高,一个进程动辄占几个G。这也是为什么百度自己实现一套hadoop。但它还是可以满足大多数公司处理大数据的需要,我觉得结合业务设计一个好的mr很重要,也很难。
乄信念ヤ(244985220)  9:47:22
pig的mapreduce模式必须将pig部署在hadoop节点上吗?
寒塘草(957261640)  9:49:02
hive也许更适合我,不知道其性能到底能不能达到web交互模式的应用开发?
雪候鸟<xuqi86@gmail.com>  9:51:38
hive是秒级响应的吧
storm是实时的
寒塘草(957261640)  9:52:50
我那天测试了下,才一点点数据,hive查询就22秒
寒塘草(957261640)  9:53:31

KeepItSimple<amazement@yeah.net>  9:54:04
一个进程动辄占几个G
雪候鸟<xuqi86@gmail.com>  9:54:06
hive貌似除了select *,其他都是起MR,启动个MR都要几秒钟,不太适合实时的查询
寒塘草(957261640)  9:54:11
这种效率,对于web系统是要命的
KeepItSimple<amazement@yeah.net>  9:54:21
这话怎么理解?雪候鸟
寒塘草(957261640)  9:54:51
难道hadoop只能用于后台数据挖掘了?
雪候鸟<xuqi86@gmail.com>  9:56:07
默认配置namenode和jobtracker都要1个G,而且如果集群大的话,还要把namenode和jobtracker分开,非常耗资源,hbase就更耗资源了,16G的机器很难跑
寒塘草(957261640)  9:56:43
hive不是基于hbase吗?
雪候鸟<xuqi86@gmail.com>  9:56:48
有时候2个oracle搞定的事情,用hbase要5台
雪候鸟<xuqi86@gmail.com>  9:57:14
没研究过,我就看看了user guide。。。
寒塘草(957261640)  9:58:44
namenode能不能自动镜像备份?否则namenode坏了怎么办,集群系统一旦namenode坏了,不要了命去了
寒塘草(957261640)  9:59:36
一旦namenode 不可恢复,那些datanode都是废物了吧?
雪候鸟<xuqi86@gmail.com>  10:01:06
有好几种备份方式,但都是冷备,只有facebook那种方式是热备,可是我们用的hadoop版本和它相差很多了,升级需要改很多东西
我们公司有个牛逼人在做虚拟机热备,还在试验,貌似可以解决namenode备份问题
寒塘草(957261640)  10:01:57
冷备就不用考虑了,现在没人愿意用冷备
寒塘草(957261640)  10:03:51
看来没几个公司能用得起hadoop的,离现实还有很长的路要走?
雪候鸟<xuqi86@gmail.com>  10:04:04
小数据基本还是冷备的,namenode加载20PB需要一个小时,我们数据量不到1PB,而且用checkpoint方式可以保证数据安全
寒塘草(957261640)  10:04:06
敢用
蓝晓宇^^(瑜)(33445185)  10:04:44
hbase你用小数据去测试,那个响应时间是完全达不到要求的
寒塘草(957261640)  10:05:35
难道越大越快?我还以为只是大的话不会明显变慢而已
蓝晓宇^^(瑜)(33445185)  10:05:36
HBASE我了解不深,但是之前在CSDN上看过几篇关于HBASE性能探讨的文章,基本有一个观点,当你的存储量没有打到1亿条时,还是老实的关系型数据库吧
蓝晓宇^^(瑜)(33445185)  10:05:50
因为是基于列的
蓝晓宇^^(瑜)(33445185)  10:05:59
所以才会越大越快
蓝晓宇^^(瑜)(33445185)  10:06:12
关于HBASE,用得比较好的就是TAOBAO了
蓝晓宇^^(瑜)(33445185)  10:06:23
百度搞的什么HYBERBASE
寒塘草(957261640)  10:07:10
问题是3年数据量可能达不到,但是,5,10年数据量就达到了,难道非得等系统运行几年后再去重写?
蓝晓宇^^(瑜)(33445185)  10:07:28
那你就不要用HBASE啊
雪候鸟<xuqi86@gmail.com>  10:07:49
额,如果用oracle能解决,最好还是用oracle,hbase非常不稳定
寒塘草(957261640)  10:08:13
非常不稳定?
蓝晓宇^^(瑜)(33445185)  10:08:18
HADOOP提供一个叫Sqxx的东西用于将关系型数据库的数据导出到HDFS里
雪候鸟<xuqi86@gmail.com>  10:08:34
0.90版本split过程经常会有丢region块的问题
雪候鸟<xuqi86@gmail.com>  10:08:41
sqoop
蓝晓宇^^(瑜)(33445185)  10:08:52
我用的0.92.1的貌似还好。。
寒塘草(957261640)  10:09:26
光导出不行啊,要在线服务的那种 hdfs下的"云oracle"
雪候鸟<xuqi86@gmail.com>  10:09:41
恩,我们考虑用cloudera的cdh4b2,这个是用的0.92,目前的项目还是用的cdh3u1
蓝晓宇^^(瑜)(33445185)  10:09:57
雪候鸟,你们公司有在用HADOOP?北京没多少公司在用,貌似都是些大公司。
寒塘草(957261640)  10:10:31
大公司估计也没几家敢用
雪候鸟<xuqi86@gmail.com>  10:10:34
额,我们公司是网安行业,数据量非常大,实时性不高
雪候鸟<xuqi86@gmail.com>  10:11:29
北京大概一天20T,其他地方也有几T
蓝晓宇^^(瑜)(33445185)  10:11:39
你们招人不,我迫切需要HADOOP,HBASE之类的实习啊,在整个学院的研究生里,就我一个在弄,导师们都不懂,真孤独啊。
蓝晓宇^^(瑜)(33445185)  10:12:02
一天20T那是必须要用了。。
雪候鸟<xuqi86@gmail.com>  10:12:35
我们招人。。。来吗,马上要去东莞出差,去两个月
现在还有2个NOSQL的名额
VISION(929596182)  10:13:31
在哪里呢

【提示:此用户正在使用Q+ Web: http://web.qq.com/】
寒塘草(957261640)  10:13:38
我看你可以去研究2个月
雪候鸟<xuqi86@gmail.com>  10:13:57
北京
乄信念ヤ(244985220)  10:14:01
估计他们不要实习生
雪候鸟<xuqi86@gmail.com>  10:14:07

分享到:
评论

相关推荐

    Hadoop讨论题

    云计算与大数据 hadoop讨论题

    Hadoop_in_Action

    TABLE OF CONTENTS PART1 Hadoop - A Distributed ...加入探讨云计算,云应用,网格计算,分布式计算,讨论SaaS、PaaS、IaaS、MSP的发展,资料分享、共同学习、项目合作、娱乐交流。 快乐编程+快乐你我=快乐生活。

    王家林的“云计算分布式大数据Hadoop第九讲Hadoop图文训练课程:剖析NameNode和Secondary NameNode的工作机制和流程.

    王家林的“云计算分布式大数据Hadoop实战高手之路---从零开始”的第九讲Hadoop图文训练课程:剖析NameNode和Secondary NameNode的工作机制和流程. 此教程来自于王家林免费发布的3本Hadoop教程:云计算分布式大数据...

    Hadoop与Spark 肖睿+PDF

    本书围绕Hadoop和Spark两个主流大数据技术进行讲解,主要内容包括Hadoop环境配置、Hadoop分布式文件系统(HDFS)、Hadoop分布式计算框架MapReduce、Hadoop资源调度框架YARN与Hadoop新特性、Hadoop分布式数据库HBase...

    Hadoop安全:大数据平台隐私保护

    《Hadoop安全 大数据平台隐私保护》阐述了Hadoop从早期开放的消费互联网时代到现在作为敏感数据可信平台的演变历程,介绍了包括身份验证、加密、密钥管理和商业实践在内的诸多主题,并在实际环境下加以讨论。...

    词频统计(基于hadoop集群,python实现)

    基于hadoop集群,用python写mapReduce实现单词统计,文件里包含python代码和操作步骤,适合初学者学习,我亲自测试,在ubuntu系统上,搭建的hadoop集群,能够运行出结果。

    HADOOP_适用初级.doc

    目录 一 从Hadoop框架讨论大数据生态 二 Hadoop运行环境搭建 三 Hadoop运行模式 四 Hadoop编译源码

    Hadoop 2.x与3.x 22点比较,Hadoop 3.x比2.x的改进

    在这篇文章中,我们将讨论Hadoop 2.x与Hadoop 3.x之间的比较。 Hadoop3版本中添加了哪些新功能,Hadoop3中兼容的Hadoop 2程序,Hadoop 2和Hadoop 3有什么区别? 二、Hadoop 2.x与Hadoop 3.x比较 本节将讲述Hadoop 2...

    2_尚硅谷大数据之从Hadoop框架讨论大数据生态1

    2.3 Hadoop 三大发行版本 2.5.1 HDFS 架构概述 2.5.2 YARN 架构概述 2.6 大数据技术生态体系

    为Hadoop实现构建企业级安全解决方案

    第10章讨论了Hadoop安全性以及Hadoop中用于提供安全控制的机制。当构建企业级安全解决方案(它可能会围绕着与Hadoop数据集交互的许多应用程序和企业级服务)时,保证Hadoop自身的安全仅仅是安全解决方案的一个方面。...

    hadoop集群搭建

    搭建hadoop,并配置环境,适合大众学习hadoop的,简单明了

    hadoop权威指南 第三版 英文版

    这一版大部分例子用新API,由于旧版API仍在广泛使用,所以在旁注中仍然讨论它,旧版的实现代码可以在这本书的网站找到。 hadoop 0.23的主要变化是使用了new MapReduce runtime, MapReduce 2,是一个基于新的分布式...

    hadoop权威指南第二版源代码

    hadoop权威指南第二版源代码,从官方网站上下载下来的,供大家学习使用。欢迎大家一起讨论

    Hadoop实战教程

    Hadoop实战中文版教程,希望大家能够多多学习下,有问题大家一起讨论那

    零基础学习hadoop线路指导

    零基础学习hadoop,没有想象的那么困难,也没有想象的那么容易。整个过程整理一下,给大 家参考,欢迎讨论,共同学习

    基于Hadoop 及关系型数据库的海量数据分析研究

    Hadoop 可以在大量廉价的硬件设备组成的集群上运行应用程序,全面地将计算推向数据,在处理 ...本文对Hadoop 和关系型数据库进行了比较分析,讨论了将二者结 合构建海量数据分析系统的可行性,同时给出了实际的应用场景

    在Hadoop上运行SQL:程序员需知晓的13种数据工具

    在GigaOM安排Structure:Data的日程的时候,就意识到很有必要讨论在Hadoop上运行SQL查询,然而却未认识到Hadoop上运行SQL查询竟然变的这么重要。本文是Gigaom的资深编辑DerrickHarris撰写的一篇文章,CSDN编译如下:...

    如何挑选合适的大数据或Hadoop平台?

    本文讨论了不同的选择,并推荐了每种选择的适用场合。下图展示了Hadoop平台的多种选择。你可以只安装Apache发布版本,或从不同提供商所提供的几个发行版本中选择一个,或决定使用某个大数据套件。每个发行版本都包

Global site tag (gtag.js) - Google Analytics