蜘蛛抓取的原始页面并不能直接用于查询
排名,需要对其进行一定的处理
1、提取文字
搜索引擎是以文字内容为基础的,从网页文件中去除标签、程序,提取出可以用于排名的网页文字内容
2、中文分词
分词:分词是搜索引擎特有的步骤,把网页中提取的文字按照词组进行划分
消噪:对内容没有任何影响却大量出现的词,如:的、 地、得、啊、哦、呀、不但、而且等
3、去除重复网页
镜像网页:内容完全相同,网址不同;倾向原创
4、计算网页重要度
积分制计算:通过被指向链接计算网页的原创性
5、建立索引
索引是建立关键词与网页之间的对应表,建立索引的最大好处在于可快速获取对应的数据
6、分析页面中的链接
根据页面中存在的链接继续抓取