[toc]

1、数据解析步骤

1.1、定位标签

1.2、标签值提取

1.2.1、标签值提取

1.2.2、标签文本提取

2、bs4解析步骤

2.1、实例化对象并加载页面

实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中。

2.2、定位标签、数据提取

通过调用BeautifulSoup对象中相关的属性或方法进行标签定位和数据提取。

3、环境安装

3.1、命令安装

pip install bs4
pip install lxml

3.2、插件安装

点击File -> setting 搜索并安装 点击如下:
image.png
image.png

3.3、提示安装

没有安装的时候,会爆红,进行提示添加依赖,比较省事。
image.png

4、Beautiful实例化

4.1、本地页面加载

from bs4 import BeautifulSoup

if __name__ == '__main__':
    with open("shici.html", "r", encoding="utf-8") as fs:
        soup_content = BeautifulSoup(fs, "lxml")

image.png

4.2、网络页面加载

    response = requests.get(url=url, headers=headers)
    resp_cont = response.content
    soup_content = BeautifulSoup(resp_cont, "lxml")

image.png

5、bs4解析数据的属性和方法

5.1、定位标签属性

# 返回的是文档中第一次出现的tagName对应的标签
soup.tagName

5.2、find查找

# 1、等同于soup.tagName
soup.find("tagName")

# 2、返回所有符合tagName列表
soup.fin_all("tagName", class_/id/attr="属性")

5.3、select定位

# 返回的是符合的列表
soup.select(某种选择器)

6、bs4数据提取

6.1、文本提取

6.1.1、text/get_text()

提取的是标签下所有的文本内容

6.1.2、string

提取的是标签下的直系内容

6.2、提取属性值

soup.a['href']

image.png
image.png

Q.E.D.


只有创造,才是真正的享受,只有拚搏,才是充实的生活。