温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
  • 忘记密码?
登录注册×
获取短信验证码
其他方式登录
点击 登录注册 即表示同意 《亿速云用户服务条款》
  • 服务器
  • 数据库
  • 开发技术
  • 网络安全
  • 互联网科技
登 录 注册有礼
最新更新 网站标签 地图导航
产品
  • 首页 > 
  • 教程 > 
  • 开发技术 > 
  • Python爬虫实战演练之如何实现采集拉钩网招聘信息数据

Python爬虫实战演练之如何实现采集拉钩网招聘信息数据

发布时间:2021-10-21 13:33:29 来源:亿速云 阅读:148 作者:iii 栏目: 开发技术

这篇文章主要讲解了“Python爬虫实战演练之如何实现采集拉钩网招聘信息数据”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Python爬虫实战演练之如何实现采集拉钩网招聘信息数据”吧!

本文要点:

  • 爬虫的基本流程

  • requests模块的使用

  • 保存csv

  • 可视化分析展示

环境介绍

  • python 3.8

  • pycharm 2021专业版 激活码

  • Jupyter Notebook

pycharm 是编辑器 >> 用来写代码的 (更方便写代码, 写代码更加舒适)
python 是解释器 >>> 运行解释python代码的

本次目标

Python爬虫实战演练之如何实现采集拉钩网招聘信息数据

爬虫块使用

内置模块:

  • import pprint >>> 格式化输入模块

  • import csv >>> 保存csv文件

  • import re >>> re 正则表达式

  • import time >>> 时间模块

第三方模块:

  • import requests >>> 数据请求模块 pip install requests

win + R 输入cmd,回车输入安装命令pip install 模块名。

如果出现爆红,可能是因为,网络连接超时,切换国内镜像源

代码实现步骤: (爬虫代码基本步骤)

  • 发送请求

  • 获取数据

  • 解析数据

  • 保存数据

开始代码

导入模块

import requests  # 数据请求模块 第三方模块 pip install requests
import pprint  # 格式化输出模块
import csv  # csv保存数据
import time

发送请求

url = 'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false'
# headers 请求头 用来伪装python代码, 防止被识别出是爬虫程序, 然后被反爬
# user-agent: 浏览器的基本标识
headers = {
    'cookie': 'privacyPolicyPopup=false; user_trace_token=20211016201224-ba4d90f0-3db5-4647-a86e-411ee3d5bfef; __lg_stoken__=08639898fbdd53a7ebf88fa16e895b59a51e47738f45faef6a32b9a88d6537bf9459b2c6d956a636a99ff599c6a260f04514df42cb77f83065d55f48a2549e60381e8da811b8; JSESSIONID=ABAAAECAAEBABIIE72FFC38A79322951663B5C7AF10CD12; WEBTJ-ID=20211016201225-17c89047f4293-0d7a7cd583dc83-b7a1438-2073600-17c89047f43a90; sajssdk_2015_cross_new_user=1; sensorsdata2015jssdkcross=%7B%22distinct_id%22%3A%2217c8904800d57b-04f17ed5193984-b7a1438-2073600-17c8904800e765%22%2C%22%24device_id%22%3A%2217c8904800d57b-04f17ed5193984-b7a1438-2073600-17c8904800e765%22%7D; PRE_UTM=; PRE_HOST=; PRE_LAND=https%3A%2F%2Fwww.lagou.com%2Fjobs%2Flist%5Fpython%3FlabelWords%3D%26fromSearch%3Dtrue%26suginput%3D; LGSID=20211016201225-7b8aa578-74ab-4b09-885c-ebbe57a6029a; PRE_SITE=; LGUID=20211016201225-fda15dbb-7823-4a2d-9d80-258caf018f02; _ga=GA1.2.903785807.1634386346; _gat=1; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1634386346; _gid=GA1.2.701447082.1634386346; X_HTTP_TOKEN=ba154973a88f2f64153683436141effc1d544fa2ed; Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1634386352; LGRID=20211016201232-8913a057-d37d-41c3-b094-a04cf36515a7; SEARCH_ID=ff32d1294b464305b4e0907f659ef2a7',
    'referer': 'https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36',
}
data = {
    'first': 'false',
    'pn': page,
    'kd': 'python',
    'sid': 'bf8ed05047294473875b2c8373df0357'
}
# response 自定义变量 可以自己定义 
response = requests.post(url=url, data=data, headers=headers)

<Response [200]> 获取 服务器给我们响应数据

解析数据

json数据最好解析 非常好解析, 就根据字典键值对取值

result = response.json()['content']['positionResult']['result']
# 循环遍历  从 result 列表里面 把元素一个一个提取出来
for index in result:
    # pprint.pprint(index)
    # href = index['positionId']
    href = f'https://www.lagou.com/jobs/{index["positionId"]}.html'
    dit = {
        '标题': index['positionName'],
        '地区': index['city'],
        '公司名字': index['companyFullName'],
        '薪资': index['salary'],
        '学历': index['education'],
        '经验': index['workYear'],
        '公司标签': ','.join(index['companyLabelList']),
        '详情页': href,
    }
    # ''.join() 把列表转成字符串 '免费班车',
    csv_writer.writerow(dit)
    print(dit)

加翻页

for page in range(1, 31):
    print(f'------------------------正在爬取第{page}页-------------------------')
    time.sleep(1)

保存数据

f = open('招聘数据.csv', mode='a', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=[
    '标题',
    '地区',
    '公司名字',
    '薪资',
    '学历',
    '经验',
    '公司标签',
    '详情页',
])

csv_writer.writeheader() # 写入表头

运行代码,得到数据

Python爬虫实战演练之如何实现采集拉钩网招聘信息数据

Python爬虫实战演练之如何实现采集拉钩网招聘信息数据

感谢各位的阅读,以上就是“Python爬虫实战演练之如何实现采集拉钩网招聘信息数据”的内容了,经过本文的学习后,相信大家对Python爬虫实战演练之如何实现采集拉钩网招聘信息数据这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是亿速云,小编将为大家推送更多相关知识点的文章,欢迎关注!

向AI问一下细节
推荐阅读:
  1. Python爬虫采集天气网实时信息的实现方法
  2. Python3获取拉勾网招聘信息的方法实例

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

python
  • 上一篇新闻:
    如何实现Maven项目web多图片上传及格式验证
  • 下一篇新闻:
    C++中元编程语言怎么用

猜你喜欢

  • dns缓存服务器的作用是什么
  • linux设置时间重启后失效怎么解决
  • dns服务器未响应怎么解决
  • ssl证书检测失败怎么处理
  • 国产web服务器有哪些优势
  • 国产web服务器怎么搭建网站
  • 服务器重启命令不响怎么办
  • 云服务器存储空间不足怎么解决
  • 免费服务器永久使用的缺点有哪些
  • 怎么使用python提取年月日信息
最新资讯
  • 解释Scala中的Varargs如何工作
  • 什么是Scala中的By-name参数
  • Scala集合库中的foldLeft和reduceLeft有什么区别
  • 如何在Scala中使用Pattern Guards
  • Scala中的尾递归优化是什么
  • 解释Scala的自类型及其用途
  • 什么是Scala中的上下文界定
  • Scala中的视图界定是什么
  • 如何在Scala中创建和使用泛型
  • 解释Scala的类型推断机制
相关推荐
  • Python中用scrapy框架爬取拉勾网招聘信息
  • python爬虫之如何判断招聘信息的存在
  • python爬虫案例之如何获取招聘要求
  • python爬虫怎么采集知乎信息汇总
  • 如何用Python采集腾讯招聘数据
  • Python爬虫实战之如何采集淘宝商品信息并导入EXCEL表格
  • 如何使用Spark分析拉勾网招聘信息
  • SQL实战演练之网上商城数据库用户信息数据操作的方法教程
  • Python爬虫怎么实现热门电影信息采集
  • Python怎么实现爬取腾讯招聘网岗位信息

相关标签

python循环 python3.3 python学习路线 python包 python作业 python 爬虫 python3.9 python-docx python numpy python2.7安装 python条件判断 升级python python培训 python面向对象 python map python3.8.0 python3正则表达式 python3 os python r Python岗位
AI

深圳SEO优化公司内江外贸网站制作哪家好爱联至尊标王推荐濮阳网站设计模板价格黔南网站搜索优化价格湘西关键词按天计费报价上海网站推广方案哪家好张家口网站优化排名哪家好横岗企业网站改版湘潭关键词排名昭通seo排名推荐厦门网站搜索优化推荐中山网页制作盐城网页设计报价石家庄网站建设六安百度关键词包年推广哪家好乌海网站优化推广推荐南宁网站优化软件报价吉林企业网站改版哪家好黄南SEO按天扣费推荐武威百度标王报价湘潭百度竞价包年推广三明seo排名公司巴中百姓网标王推广哪家好河源百度爱采购推荐长治网站排名优化价格赤峰至尊标王公司黄冈建设网站多少钱张家口高端网站设计推荐宜春网站推广工具推荐信阳企业网站建设歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化