提供两个分析HTML网页的方法

有人想把Web Page拉下来并抽取其中的内容。这其实是搜索引擎的一项最最基本的工作:下载,抽取,再下载。我早年做过一个Search Engine项目,不过代码都已经不见了。这次有人又问到我这个事情,我给攒了两个方法。 方法a,在一个winform里面用一个隐藏的browser控件下载web Page,并用IHTMLDocument来分析内容。这个方法比较简单,但如果对于大量文件的分析速度很慢。