网页抓取的程序

本打算做一个网络爬虫(crawler)的,但水平有限只做了基本的一些功能. 思路: 肯定是要能先通过url连接到http服务器了,然后发送一个"GET url \n"的请求才能下载网页. 之后就是分析网页,比如辨认超链接和搜索关键词.

就是GET 这个东西搞不懂, 有的网页需要给完整的url, 有的只需要相对路径才正确. 怎么才能自动知道需要哪个啊?

source: http://www.cppblog.com/Files/tompson/getwebpage.rar
(写的很烂, 供学习网络编程的同学参考)

Posted on 2007-08-11 14:45 ken 阅读(1893) 评论(2) 编辑收藏引用所属分类: program

Feedback

# re: 网页抓取的程序回复 更多评论

2007-08-11 14:51 by XTSHMF

两个都试试阿，哪个行就哪个贝，嘿嘿

# re: 网页抓取的程序 回复 更多评论

2007-08-11 15:14 by ken

怎么判断哪个行,哪个不行? 有的两个都不行,比如google.com

刷新评论列表

只有注册用户登录后才能发表评论。




网站导航: 博客园博客园最新博文博问管理

2007年8月

日

一

二

三

四

五

六

常用链接

留言簿(1)

随笔分类

随笔档案

2007年8月 (2)

ken

网页抓取的程序

Feedback

# re: 网页抓取的程序回复 更多评论

# re: 网页抓取的程序 回复 更多评论

常用链接

留言簿(1)

随笔分类

随笔档案

搜索

最新评论

阅读排行榜

评论排行榜

ken

网页抓取的程序

Feedback

# re: 网页抓取的程序 回复 更多评论

# re: 网页抓取的程序 回复 更多评论

常用链接

留言簿(1)

随笔分类

随笔档案

搜索

最新评论

阅读排行榜

评论排行榜

# re: 网页抓取的程序回复更多评论

# re: 网页抓取的程序回复更多评论