python gui，python爬取網站實例,Python爬取網頁簡單示例

2023-11-19 阅读 39 评论 0

摘要：準備材料一：使用到的Python第三方庫是requests 和 BeautifulSouppython gui，二：選擇要爬取的網頁我選擇了豆瓣小組里的一個帖子回復(是微博或者微信的簽名，個人感覺比較有意思)地址是：https://www.douban.com/group/topic/80125952/python 類、三

準備材料

一：使用到的Python第三方庫是requests 和 BeautifulSoup

python gui，二：選擇要爬取的網頁

我選擇了豆瓣小組里的一個帖子回復(是微博或者微信的簽名，個人感覺比較有意思)

地址是：https://www.douban.com/group/topic/80125952/

python 類、三：分析網頁源代碼

打開地址后，右鍵-查看網頁源代碼

我們爬取的p標簽,class="reply-content"里的內容

23113bef07de

python3.7？14345926-4252580093d33a3b.png

具體的代碼如下

import requests

python3。from bs4 import BeautifulSoup

import time

#設置請求header偽裝成瀏覽器

headers = {'user-agent':'Mozilla/5.0 (iPad; CPU OS 11_0 like Mac OS X) AppleWebKit/604.1.34 (KHTML, like Gecko) Version/11.0 Mobile/15A5341f Safari/604.1'}

for i in range(29):

url = 'https://www.douban.com/group/topic/80125952/?start=' + str(i*100)

req = requests.get(url,headers=headers) #獲取網頁請求

content = req.content #獲取到的網頁請求的具體內容

soup = BeautifulSoup(content,'lxml') #把獲取到的網頁請求內容構造成 BeautifulSoup 對象

replycontents = soup.find_all(name='p',attrs={'class':'reply-content'})# 使用 find_all 查找文檔樹中標簽為p,class="reply-content" 的所有內容

try:

for replycontent in replycontents:

text = replycontent.string

print(text)

except:

TypeError