注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

c32's blog

每天学习一点点,每天进步一点点.

 
 
 
 
 

日志

 
 

python简单爬虫  

2015-07-30 15:48:04|  分类: 默认分类 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
先下载模块安装
https://codeload.github.com/kennethreitz/requests/legacy.zip/master        
python setup.py install

# coding:utf-8 # #Usage: python name.py # #Blog: http://cx7863.blog.163.com/ # #Version: 1.0 import re import requests # 获取网页内容 r = requests.get('http://s.tool.chinaz.com/same/?s=www.free9.net') data = r.text # 利用正则查找所有连接 link_list =re.findall(r"</span> <a href='(.*?)' target=_blank>" ,data) #正则 <li><span>(.*?)</span> <a href='(.*?)' target=_blank>(.*?)</a></li> for url in link_list: print url

<li><span>(.*?)</span> <a href='(.*?)' target=_blank>(.*?)</a></li>
r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')"
(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')
r"(?<=<li>).*?(?=</li>)"
  评论这张
 
阅读(61)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017