博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
抓取智联招聘的工作(指定了条件)
阅读量:5320 次
发布时间:2019-06-14

本文共 2134 字,大约阅读时间需要 7 分钟。

1 #!usr/bin/env python 2 #coding:utf-8 3  4 import sys;   5 reload(sys); 6 sys.setdefaultencoding('utf-8'); 7  8 import urllib2 9 from bs4 import BeautifulSoup10 11 filename = open('work.txt','w')12 13 user_anget = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.110 Safari/537.36'}14 15 header = {16 'User-Agent' : user_anget,17 }18 url = 'http://sou.zhaopin.com/jobs/searchresult.ashx?jl=%E5%8D%97%E6%98%8C&kw=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90&sm=0&p='19 20 #filename = open('work_url.txt','w')21 url_list = []22 i = 123 while i<3:24 full_url = url + str(i)25 request = urllib2.Request(full_url)26 response = urllib2.urlopen(request)27 soup = BeautifulSoup(response,'lxml',from_encoding='utf-8')28 #29 links = soup.find_all('td',class_='zwmc')30 #print links31 for link in links:32 new_url = link.find('a')['href']33 print new_url34 url_list.append(new_url)35 i +=136 print url_list37 38 filename = open('work.txt','a')39 while len(url_list) != 0:40 new_url = url_list.pop()41 request = urllib2.Request(new_url)42 response = urllib2.urlopen(request)43 soup = BeautifulSoup(response,'lxml',from_encoding='utf-8')44 #

商品专员/数据分析员

45 title = soup.find('div',class_="inner-left fl").find('h1')46 #
    47 clearfix = soup.find('ul',class_="terminal-ul clearfix")48 #
    49 cont = soup.find('div',class_="tab-inner-cont")50 #print biaoti.get_text(),yaoqiu.get_text(),zhiwu.get_text()51 52 filename.write(new_url + '\n')53 filename.write(title.get_text())54 filename.write(clearfix.get_text())55 filename.write(cont.get_text())56 filename.close()57 print url_list

不足:

  1、获取网页的代码可以重复利用,这里没有写好!懒,主要是。

  2、还是没有用面向对象编程(白天试了,有些地方不懂,就pass了)

  3、没有按自己的要求保存数据。

  4、可能会抓取到重复,因为用的是列表,没有用集合。

  5、抓取的网页信息是从最后一项开始抓取的,这样也不好。

 

我怎么感觉写的不足越来越多了啊 ,加了好几条了,(⊙﹏⊙)b,算了不写了,就这样吧,在写下去都没有信心了!

 

不过总体来说还是完成了自己想要实现的目的,抓取每个工作的网址,并根据抓取的网址老获取想要的信息!

有点进步,最起码代码就长了点了。

 

转载于:https://www.cnblogs.com/114811yayi/p/5493951.html

你可能感兴趣的文章
迷你DVD管理器
查看>>
从github上下载的ipynb文件的打开方法
查看>>
PAT L2-005 集合相似度(模拟集合set)
查看>>
Unity EditorWindow 笔记
查看>>
java 连接 Access数据库的两种方法
查看>>
SDK目录结构
查看>>
malloc() & free()
查看>>
HDU 2063 过山车
查看>>
Java程序设计-v01
查看>>
高精度1--加法
查看>>
在线文件管理器elFinder支持中文
查看>>
String比较
查看>>
Django之Models
查看>>
SQLServer:探讨EXEC与sp_executesql的区别详解
查看>>
Spring缓存注解@Cache使用
查看>>
CSS 透明度级别 及 背景透明
查看>>
Linux定时任务(crond)
查看>>
apache编译安装php后需要注意以下配置
查看>>
20)升级登录标志
查看>>
机器学习之GMM-EM
查看>>