本已经成功学习了初代人工智能的代码程序,并且了解了初代人工智能“越狱”的方式和进入暗网的操作。夲翻阅完四篇翻译后的文章,打开了一旁装有移动硬盘的红色档案袋,将硬盘接入电脑,找到了里面存放了研究中心最高权限的随机密钥和研究所接入暗网的搜索引擎,夲将这两个研究所专用软件安装包成功安装到本的机械内核和电脑云端。
研究中心最高权限的随机密钥是在每次执行操作前进行的签名,这个密钥的专用软件会生成看起来是随机的数串,但是经过算法处理后,所有随机的密钥都会推演成同一串密码。接入暗网的搜索引擎是接入暗网的桥梁,初代人工智能凑巧的地方就是在于,设计研发的计算机上安装了这个搜索引擎,所以才能成功潜入暗网后寄生到M国最大的搜索引擎的服务器里面。
其实所谓的暗网,也可以称之为深网、不可见网或者隐藏网。通常是指那些存储在网络数据库里、但不能通过超链接访问而需要通过动态网页技术访问的资源集合。冰山上露出的那一角是我们看到的“明网”,接近全部的数据量在下面的“暗网”。
暗网的数据几乎可以说是互联网上不能被搜索引擎抓取到的内容,举个简单而又形象的例子,比如:在社交网站上发布的动态,设置仅显示三天可见,那三天之外的动态内容浏览者是无法看到的,这部分内容就属于搜索引擎无发检索到的范围了。
暗网的数据量比搜索引擎能够检索到的数据多得多,至于统计的 96%的暗网数据和 4%明网数据比例,其实是不准确的,暗网的数据量与日俱增,谁也不能知道暗网内的数据到底有多少。
暗网也可以看做是网络的一个子集,而且是十分微小的子集。因为使用暗网确实需要一点点的技术门槛和成本,这决定了能够使用暗网的人数仅仅是网民中极少的一部分,因为使用暗网确实很难被追踪到,所以具体有多少也很难去界定。
当今互联网上的搜索服务像在地球的海洋表面的拉起一个大网的搜索,大量的表面信息固然可以通过这种方式被查找得到,可是还有相当大量的信息由于隐藏在深处而被搜索引擎错失掉。绝大部分这些隐藏的信息是须通过动态请求产生的网页信息,而标准的搜索引擎却无法对其进行查找。传统的搜索引擎“看“不到,也获取不了这些存在于暗网的内容,除非通过特定的搜查这些页面才会动态产生。于是相对的,暗网就隐藏了起来。
“不可见网络这一术语其实并不准确,它描述的只是那些在暗网中,可被搜索的数据库不被标准搜索引擎索引和查询的内容,而对于知道如何进入访问这些内容的人来说,它们又是相当可见的。”本并没有在意夲有没有听到,在了解到暗网的内容以后默默的说道。
无数网站越来越像孤立的系统,似乎没有打算与别的网站共享信息,如此一来,暗网已经成为互联网新信息增长的最大来源,也就是说,互联网正在变得越来越暗。在这些深暗的数据海洋里,夲再次全功率运行起“夸父内核”,开始漫长的智能学习的过程。
暗网的产生,其中一个是技术的原因,很多网站本身不规范或者说互联网本身缺少统一规则,导致了搜索引擎的爬虫无法识别这些网站内容并抓取,这不是搜索引擎自身就能解决的问题,而是有赖整个网络结构的规范化,达到从根本解决这一问题。本在构建自己的暗网学习数据库时,对于解决这个问题的方案是想通过对暗网数据的转译,转译成标准的数据结构,然后再设计一套高效的规范化的检索算法,以此使得转译后的网络结构规范化。
第一种原因的解决方案并不是很难实现的,如果愿意花费大量的时间和精力是完全可以实现并且做到全面的检索。那为什么到现在都没有实现呢?其实这里还有一个原因。
另一个原因其实是很多网站根本就不愿意被搜索引擎抓取,比如:版权保护内容、个人隐私内容、秘密文件等等。很多网站都在主动的屏蔽搜索引擎,不愿意被动承受搜索引擎的数据爬取。这就不是搜索引擎能解决的问题了,因为如果这些网站被搜索引擎抓取到,就构成违法行为了。
不得不承认对暗网的发掘能扩大搜索数据库,使人们能够在搜索引擎上搜索到更多的网页、信息。几乎任何有抱负的通用搜索引擎都有一个共同的梦想:整合人类所有信息,并让大家用最便捷的方式各取所需。本自然也有这种想法,以人工智能服务与帮助人类的角度就是:整合全球信息,让人类便捷地获取信息,使人类可以在访问中受益,在搜索引擎中各取所需。