第十章大数据模块
垃圾文件的确需要清理,只是如何辨别垃圾文件是一个很大的问题,陈宇需要好好的学习和整合一下!
这是一个很大的工程,毕竟处理的不是一两个,而是自动识别而且进行处理!
数据永远不可能爬完,因为时时刻刻都有新的数据产生,那么伴随而来的就是新的垃圾!
关于数据垃圾的处理,分为很多种,表层清理、深度清理!
等等各种东西都会出现,陈宇则是在这一块头疼。
查了一下资料,发现网络资料很不健全,看来只能去大学的图书馆或者是国家图书馆查阅资料了。
最重要的是电脑看这些资料太繁琐!
“嫣儿,现在人人网的注册用户有多少?!”陈宇此时关注起来发布了一段时间的人人网,搞了一个病毒式的推广,也不知道现在结果如何了?!
“注册用户国内有320多万,国外有480多万,这个数字还在攀升!你可以通过你设计的后台查看一下具体什么情况?!还有一些组件和功能你需要了!”嫣儿轻声道!
陈宇闻言点点头,连接人人网的网站,后台数据当初设计的时候因为太急,没有用心,现在看起来很混乱,但是仔细看的话还是可以看得清楚的。
“后台还是需要重新设计啊!”陈宇轻叹一声,开始对后台进行重新设计起来,数据库的属性也需要变更一些,不过好在陈宇早有准备,直接用版本覆盖之前的数据,当然这不是删除,是覆盖。
这一次陈宇加入了大数据分析的设计!
这里面涉及很复杂的算法!
Hadoop是一个能够对大量数据进行分布式处理的软件框架!他的性能还是和牛逼的,可以处理pb级别的数据!
还有hp技术!还有其他的各种技术!
十分驳杂!
大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统等等全部都属于大数据的范畴之内,不过陈宇目前要做的就是对于大规模并行处理的数据进行设计和分析。
足足两天的时间,陈宇都呆在房间里,用着2789元配置的一台台式机进行大数据模块的设计!
“终于完成了!”陈宇看着运行监测无误的后台,吐了一口气,道!
连续两天的战斗让陈宇很疲惫,起身,伸了一个懒腰,都能够感受到骨骼的噼里啪啦的响!
“嫣儿,进行测试分析,我设计的这一个模块如何?!”陈宇心中道了一句,便走下楼,打开冰箱,取出一块老冰棍,含在嘴里。
那透心凉的滋味真的是让人飘飘欲仙!
“嫣儿也想吃?!”
听着嫣儿羡慕的语气,那甜甜的声音,陈宇心里感到一阵舒爽,道“不是我不给你,而是没法给你啊!”
陈宇看着可怜兮兮的嫣儿道。
“呜呜呜呜~”
陈宇“····”
玩笑之后,陈宇还是问到了大数据模块的设计问题。