注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

c32's blog

每天学习一点点,每天进步一点点.

 
 
 
 
 

日志

 
 

pd87博客进行python爬虫测试 Ver:1.1  

2015-12-29 22:55:09|  分类: Python |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Author : c32 (amd5@qq.com)
# @Blog : http://cx7863.blog.163.com/
# @Version : 1.1
# @DateTime: 2015-12-29 22:53:00

import urllib2
import re
import os
import MySQLdb
import threading
import time

htmlPageList = []
#已多少翻页
htmlLinkList = []
#已抓取地址数量
mysqlinsert = []
#mysql插入数量

starttime = time.time()

conn = MySQLdb.connect(host='localhost', user='root',
passwd='root', db='python', port = 3306, charset = 'utf8')

def getHtml(url): #获取html源码
page = urllib2.urlopen(url)
html = page.read()
return html

def urlPages(page): #翻页
url = 'http://bk.pd87.com/page/' + str(page)
#print url
return url
def findList(html): #正则匹配列表
myItems = re.findall('<h2><a href="(.*?)" rel="bookmark" title="详细阅读 (.*?)">(.*?)</a><span class="new"></span></h2>', html, re.S)
return myItems

for page in range(1, 2+1): #抓取的页数
html = getHtml(urlPages(page))
items = findList(html)
for item in items:
s = item[0] +' '+ item[1] + '\n'
# print item[0]
file_object = open('list.txt', 'a')
# file_object.write(s) #写到本地文本
file_object.close()
print item[1]
# print html #读出源代码
# print item #匹配正则后的结果
else:
print('循环爬取结束>>>>>>>>>>>>>>>')
cur = conn.cursor()
cur.execute('insert into list(url,title) values(%s,%s)',(item[0],item[1]))
conn.commit() #提交SQL执行语句
# print 'success connect'
# print 'sqltemp'
class MyThread(threading.Thread):
def __init__(self,threadname):
threading.Thread.__init__(self,name=threadname)


cur.close()
conn.close()
endtime = time.time()
print "共用时%s秒" % (endtime - starttime)


  评论这张
 
阅读(40)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017