Python爬取，python爬取饿了么外卖商家数据_用python抓取饿了么无证店铺-Python-86后生记录生活

Python爬取，python爬取饿了么外卖商家数据_用python抓取饿了么无证店铺

2023-09-25 阅读 42 评论 0

摘要：一、前言饿了么平台上很多店铺都无营业执照，只能借用他人的营业执照上传开店。那就想看看附近有多少这样无证共用营业执照的店铺。先看一下抓取的截图，竟然有这么多店没有营业执照。 mongodb3.png在饿了么上显示的地址都是营业执照的地址，有时候当你点餐

一、前言

饿了么平台上很多店铺都无营业执照，只能借用他人的营业执照上传开店。那就想看看附近有多少这样无证共用营业执照的店铺。

先看一下抓取的截图，竟然有这么多店没有营业执照。

mongodb3.png

在饿了么上显示的地址都是营业执照的地址，有时候当你点餐会看到送餐员取餐的地址不是营业执照标注的地址。

通常这种店铺都是无营业执照的，因为店铺老板都可以在后台自行设置取餐地址，所以用户在点餐时候看到不一定是真实地址，在下单后才能具体取餐地址。

Python爬取、还有一种店铺是自行配送的，下单后根本就看不到取餐地址，这种店铺更可怕，根本就不知道是哪个黑作坊加工的食品。

二、运行环境

python3

pymongo

requests

三、分析

饿了么数据爬取、首先访问饿了么主页，输入想搜寻的区域，页面随即返回附近区域店铺。

address.png

打开浏览器开发者工具，分析需要抓取的数据，接着用requests抓取该页面地址，使用BeautifulSoup解析数据，竟然返回空值数据。

再次查看页面信息，向下滚动页面，发现XHR异步加载类型中有返回JSON格式数据。如下图所示：

F12.png

后台用json格式传递数据，前台浏览器用javascript展示json格式的方法，是目前比较通用的做法。后台提供的json格式的api接口可以供网页、手机调用，属于restful风格。这样只需要开发和维护一套后台，简化系统架构。

虽然用requests抓取不到页面，但json格式可以更方便的采集我们需要数据。

1、抓取数据

如何搞垮一个外卖商家？其中参数：

1、longitude，latitude采用的高德坐标系对应搜索区域的经纬度

2、limit=24 每次限制返回上限24个店铺；设置再多后台最多返回30个

3、offset=24 每次返回的店铺数量，24个数量级增加，比如页面继续往下翻offset=48,72……

用循环增加offset的偏移量，就可以得到更多的店铺数据。

此页面我们需要采集name ,phone, address 即商户名称，电话，营业地址三个数据即可。一个页面可以采集24个商家数据，json数据如下图：

detail.png

python gui，代码如下：

import requests

import json

url='https://www.ele.me/restapi/shopping/restaurants?extras[]=activities&geohash=wtw39y8614v4&latitude=31.237236&limit=24&longitude=121.36636&offset=24&terminal=web'

r=requests.get(url).text

d=json.loads(r)

python编程，for v in d:

print (v['name'],v['phone'],v['address'])

返回结果如下：

single_page.png

设置offset=48，期望得到更多商家，返回结果如下：

{‘message’: ‘登陆后查看更多商家’, ‘name’: ‘UNAUTHORIZED_MORE_RESTAURANTS_ERROR’}

这是因为后台设置了需要登录才能访问更多商家数据。

美团外卖商家版官方版？2、设置cookies登录

我们需要在访问请求中添加cookies信息，让后台认为我们已登录。前提是用于已注册账号并登录，在开发者工具中打开->网络->消息头->cookies，复制cookies数据。

cookies.png

cookies数据处理成字典格式，这里部分cookies用***代替

cookies_str='ubt_ssid=pwppg5un1gd56zefxvx**********e_2017-11-17; _utrace=f550e02b0883e3b96b3c8e7d9b9801a9_2017-11-17; perf_ssid=7rulhdqct6md********************; eleme__ele_me=1cc2663f830938c9104e9f6f5ae73a10%3A6e49f5779ec4bca5c1f1c4a352b22d05cd8568f6; USERID=578****'

cookies={}

for i in cookies_str.split(';'):

python爬虫教程。k,v=i.strip().split('=')

cookies[k]=v

把之前request的get方法中也略微修改，增加cookies信息登录

r=requests.get(url,cookies=cookies).text

3、循环设置offset偏移量后，生成URL新地址

i=j=1

python3、for i in range(30):

j=i*24

url='https://www.ele.me/restapi/shopping/restaurants?extras[]=activities&geohash=wtw39y84pc8&latitude=31.23723&limit=24&longitude=121.3663&offset='+str(j)+'&terminal=web'

return url

4、数据插入Mongodb

from pymongo import MongoClient

怎么上美团外卖平台，client=MongoClient('127.0.0.1')

db=client['elm']

col=db['resturant']

四、代码截图

code.png

五、结果显示

在mongodb中按照地址排序，sort({address:1}) 按照地址升序排序

mongodb3.png

mongodb2.png