爬虫小工具BeautifulSoup

BeautifulSoup是一种用于分析网页HTML内容元素的工具,还有类似的Request也可完成相关工作。

下面是一小段程序,翻出来:

from urllib2 import urlopen, URLError
from bs4 import BeautifulSoup


def fetch():
        baseUrl = 'http://house.focus.cn/msglist/7906/'
        hd = urlopen(baseUrl, timeout = 6)
        content = hd.read()
        content = content.decode('gb2312', 'ignore')
        soup = BeautifulSoup(content)
        p = soup.findAll('a')

        for item in p:
                val = str(item)
                if (val.find('title') > 0) and (val.find('href') > 0) and (val.find('font') > 0):
                        print item.text
                        tmpurl =  'http://house.focus.cn' + str(item['href'])
                        print tmpurl

fetch()

Beautiful最本质完成一个作内容,是把HTML的元素标签”对像:化,item化。如果不喜欢那种,直接通过正则表达式在HTML内容中匹配数据,或是不是所有的都用正则,Beautiful是一个不错的选择。

scrapy生成爬虫生成,更工程化,至少会自动生成一个目录构成,自动生成脚本脚架代码。没有非常大的爬取量,这些python工具可以完成任务的。

糖果

糖果

糖果
LUA教程

如果不小心安装错 SQL Server 为 Evaluation 的版本,要小心当超过 180 天之后,系统就会无法正常使用了 这几天遇到一个蛮特别的案例,原本收到的问题是 “维护计划” 忽然无法使用,即便是里面没有任何的Task,都无法顺利地执行。但从对方所提供的错误消...… Continue reading

PLUM NIZ静电容键盘怎么样?

Published on September 25, 2020

程序员如何选择合适的机械键盘

Published on September 18, 2020