爬虫如何实现一个去重器

Issue 欢迎在 Gtihub Issue 中回答此问题: Issue 261 (opens in a new tab)

Author 回答者: shay-an (opens in a new tab)

urlMap[url,hash(data)] urlSet[fullURL] urlMap存不包含查询字符串的url,data相同也不存储 urlSet存完整url,即Map里没有查询到,则通过完整url去重