搜索引擎如何分析网页内容?
在页面收录过程中,搜索引擎已经抓取并存储了网站上的 URL,接下来,搜索引擎会对所抓取的页面内容进行分析,如图1所示。
图1:页面分析流程
在这个过程中,我们看到了两个“网页”:
搜索引擎对页面的分析由该原始页面正式开始。
我们大家在搜索引擎里查找内容时往往会输入关键词查找,这里搜索引擎的工作就是按照一定的规则将内容划分为词,以便以后大家搜索。
比如,我们刚才在第三步时,A 关键词出现了三次,在第四步,我们只记录 A 关键词1次,在重组网页后,A 关键词再无重复。
至此,搜索引擎对页面的分析完成,在这一环节,搜索引擎完成了对页面正文信息的提取、关键词的切分、关键词的索引以及搜索引擎角度上的网页重组。
图1:页面分析流程
在这个过程中,我们看到了两个“网页”:
- 第一个“网页”指的是刚才搜索引擎已经收录的 URL 资源(即搜索蜘蛛抓取的原始页面);
- 第二个“网页”指的是搜索引擎对关键词进行重组之后所对应的网页。
搜索引擎对页面的分析由该原始页面正式开始。
1) 提取正文信息
这里所提取的正文信息除了包含页面内容外,还包含页面的头部标签信息(Title、Keywords、Description)等。2) 分词/拆词
提取完信息后,搜索引擎按照机械分词法和统计分词法将正文信息切分为若干关键词,这些关键词组成了关键词列表。我们大家在搜索引擎里查找内容时往往会输入关键词查找,这里搜索引擎的工作就是按照一定的规则将内容划分为词,以便以后大家搜索。
3) 建立关键字索引
上一步搜索引擎已经将正文内容切分为了若干关键词,这些关键词出现的位置、频率等是不同的,在这一步,搜索引擎会将关键词逐一记录、归类、建立索引,比如关键词出现的频率。一般来说,关键词频率建议 2%~8% 是比较合理的。
4) 关键词重组
搜索引擎为页面关键词建立索引后,再将这些关键词重新组合,以关键词的形式重新组建一个新的网页,这个网页上的关键词是唯一的,全部不重复。比如,我们刚才在第三步时,A 关键词出现了三次,在第四步,我们只记录 A 关键词1次,在重组网页后,A 关键词再无重复。
至此,搜索引擎对页面的分析完成,在这一环节,搜索引擎完成了对页面正文信息的提取、关键词的切分、关键词的索引以及搜索引擎角度上的网页重组。
所有教程
- C语言入门
- C语言编译器
- C语言项目案例
- 数据结构
- C++
- STL
- C++11
- socket
- GCC
- GDB
- Makefile
- OpenCV
- Qt教程
- Unity 3D
- UE4
- 游戏引擎
- Python
- Python并发编程
- TensorFlow
- Django
- NumPy
- Linux
- Shell
- Java教程
- 设计模式
- Java Swing
- Servlet
- JSP教程
- Struts2
- Maven
- Spring
- Spring MVC
- Spring Boot
- Spring Cloud
- Hibernate
- Mybatis
- MySQL教程
- MySQL函数
- NoSQL
- Redis
- MongoDB
- HBase
- Go语言
- C#
- MATLAB
- JavaScript
- Bootstrap
- HTML
- CSS教程
- PHP
- 汇编语言
- TCP/IP
- vi命令
- Android教程
- 区块链
- Docker
- 大数据
- 云计算