建造一个简易的搜索引擎

Udacity的Intro to CS: Build a search engine,感觉还是挺有特色的,不断地构建并完善一个玩具搜索引擎。

完整代码见:

https://github.com/ryancheunggit/Search_Engine/blob/master/search_engine.py

运行结果:

demo

基本思路:

  1. 通过url获得网页html源码
  2. 从html源码中提取出页面中的链接
  3. 建索引,关键词->url的1对多映射
  4. 构建爬虫,从给定页面出发,不断打开新的链接构建索引,同时为了计算pagerank,也构建一个网页之间相互链接的图
  5. 计算pagerank,用于在按关键词检索时,将结果排序
  6. 从构建好的索引中,按照关键词查询所有结果,以及Feeling Lucky功能,只返回pagerank值最高的一个结果

1 通过url获得网页html源码:

2 从html源码中提取出页面中的链接:

3. 构建索引,关键词->url的1对多映射:

4. 构建爬虫,从给定页面出发,不断打开新的链接构建索引,同时为了计算pagerank,也构建一个网页之间相互链接的图:

5. 计算pagerank,用于在按关键词检索时,将结果排序:

6. 从构建好的索引中,按照关键词查询所有结果,以及Feeling Lucky功能,只返回pagerank值最高的一个结果:

 

 

 

Leave a Reply

Your email address will not be published. Required fields are marked *