爬虫下载文档的3种方法

import urllib2,cookielib

成都创新互联是专业的桐庐网站建设公司,桐庐接单;提供成都网站设计、成都网站建设,网页设计,网站设计,建网站,PHP网站建设等专业做网站服务;采用PHP框架,可快速的进行桐庐网站开发网页制作和功能扩展;专业做搜索引擎喜爱的网站,专业的做网站团队,希望更多企业前来合作!

url = 'http://www.baidu.com'

print "1"
response = urllib2.urlopen(url)
print response.getcode()
print len(response.read())

print "2"
request = urllib2.Request(url)
request.add_header("user-Agent","Mozilla/5.0")
response2 = urllib2.urlopen(request)
print response2.getcode()
print len(response2.read())

print "3"
cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
urllib2.install_opener(opener)
response3 = urllib2.urlopen(url)
print response3.getcode()
print cj
print response3.read()


当前文章:爬虫下载文档的3种方法
当前地址:http://hxwzsj.com/article/pijpjo.html

其他资讯

Copyright © 2025 青羊区翔捷宏鑫字牌设计制作工作室(个体工商户) All Rights Reserved 蜀ICP备2025123194号-14
友情链接: 网站建设方案 成都网站建设 网站建设方案 网站建设公司 古蔺网站建设 成都网站建设公司 企业网站设计 成都网站建设公司 重庆企业网站建设 网站建设 重庆网站制作 专业网站设计 成都网站建设 网站制作报价 定制网站设计 专业网站建设 成都定制网站建设 成都网站建设 盐亭网站设计 高端网站建设 高端品牌网站建设 定制网站设计