网页抓取的程序

ken — Sat, 11 Aug 2007 06:45:00 GMT

本打算做一个网络爬虫(crawler)的,但水平有限只做了基本的一些功能. 思路: 肯定是要能先通过url连接到http服务器了,然后发送一个"GET url \n"的请求才能下载网页. 之后就是分析网页,比如辨认超链接和搜索关键词.

就是GET 这个东西搞不懂, 有的网页需要给完整的url, 有的只需要相对路径才正确. 怎么才能自动知道需要哪个啊?

source: http://www.cppblog.com/Files/tompson/getwebpage.rar
(写的很烂, 供学习网络编程的同学参考)

ken 2007-08-11 14:45 发表评论

C++博客-ken-随笔分类-program

网页抓取的程序