作者:民工肖某

 

前言

 

过去一年中,我也曾写过一些文字,但怀疑过自己没有精彩的故事、也看不出有什么热闹非凡,所以这样的文字是否能被别人所接受,这样一直困惑了我很久。突然有一天,我在想,所谓的文字的本质是能表现作者自己的思想,而不仅仅是靠着优越的公司平台赋予的光环,或者靠着牛逼的项目光芒反射出来,自己的思想本身就是与众不同的。

而想通了这点后,我决定不再说什么“我没有合适的实践机会” 、“这个行业吃的是青春饭,我已经太老了”、“我的职业路线不如别人”这样的丧气话。因为关键问题在于:我到底能不能依靠自己本身的能力让别人消费?

 

 

以下的内容可能比较零散,主要为了记录。

 

1月份      

ü  动手搭建了hadoop基础环境,跑了第1个wordcount(Jar包/Eclipcse IDE project),也录制了操作视频。

ü  Android基础课。王学林老师经验很丰富,系统讲解了linux内核、核心库、运行环境、应用框架、以及应用程序几大块,很有启发。(后来才知道王老师横跨终端应用、云计算、美语、健身等几大领域,真是奇人)

ü  熟悉hadoop的基本功能。比如NoSql、DW、DM等几个应用方向

ü  公司内部有一场NPU培训(网络处理器),抓紧时间复习了DSP、ASIC、NPU等硬件处理器,很多细节很揪心,不过从业务场景分类、设备厂家开发流程能大概区分一些要点

ü  学习腾讯的TDW(数据交换平台),不太理解,后来慢慢懂了,大平台对数据的存储和计算框架依赖有多重要

ü  学习NameNode federation。多控制节点情况下,如果网络或是region server的故障都会影响Job结果状态,即使有缓存,比如应用程序缓存、Hblock缓存、OS HDFS文件、磁盘HDFS文件。关键点是如何恢复?Transaction/Block可以作为验证;缩短等待时间,主NN推出、备NN读取剩余记录、等待block报告等;

ü  学习数据管理的框架。以前没注意的ETL,也有很多的场景:DW ETL、DM ETL、统计ETL、data feed ETL、data mart ETL;同时要注意小批量的ETL,异构数据的ETL以及跨机房/集群的数据访问及同步等;

ü  学习360的流量异常检测的集群。基于storm的计算框架,基本的如spout(输入)–bolt(特征匹配、异常处理、统计)–tuple(数据块)–topology。单集群能力到10个blot并发(10G)。如何scale-out,利用负载均衡、topology调度、zookeeper来实现,规模达到了50个cluster,近9000个节点,100多个topology

ü  学习阿里搜索集群,服务一淘、天猫、淘宝、知识、问答等多个应用,底层基于HDFS/Hbase, 加入了一些streaming的分析手段。计算仍然是MR为主,实现了sort、table join等海量数据的操作。在ETL上,MR可以作为关系型数据仓库的分析,但要解决hadoop在数据聚合、实时计算上的缺陷,所以2种思路解决,更优化的计算框架,或者splunk等搜索引擎替代数据仓库做SQL的思路。

ü  分析HDFS为什么速度慢?参考了hadoop的基准测试,单文件的IO只有几M速率,而disk一般都有100M以上,为什么?要考虑HDFS并发的进程原因,一般多个文件需要多个进程来并发,DN和文件数量需要考虑一定的匹配;在3个文件副本(2个网络副本情况下),如果不匹配,会出现1个DN有多个进程,以及跨DN的进程的拷贝,所以这些都会耗用网络资源。所以根本上来看,网络带宽(特别是100M/1000M)会是影响HDFS写效率的重要原因。

ü  初步了解spark,它类似mapreduce,但更侧重于分布式计算模型,对网络要求较高,基本是10GE,并且distribute 分叉来计算任务,系统可以看到网络用量,对内存要求高(8g以上)、硬盘用量要求不高。

 

One thought on “我的2014年活动行 – -纪念普通但不平凡的这一年 (1)”

发表评论

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据