Beautiful Soup是Python的一个网页解析库，处理快捷; 支持多种解析器，功能强大。教程细致讲解Beautiful Soup的深入使用、节点选择器、CSS选择器、Beautiful Soup4的方法选择器等重要知识点，是学好爬虫的基础课程。

Beautiful Soup基本使用

学习目标

1. 使用Beautiful Soup的步骤

简单的使用Beautiful Soup，大致可以分为三步：

从bs4库中导入BeautifulSoup类实例化一个对象。

from bs4 import BeautifulSoup
soup = BeautifulSoup(markup, features)

在实例化的过程中，需要给BeautifulSoup这个类传递两个参数: markup、features。

使用字符串变量。直接将html数据以字符串的形式传入。

# 使用第一步的html_str字符串变量
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_str)

使用open()函数打开文件，将html数据以文件流的形式传入。

# 假设将html_str字符串写入了index.html中
from bs4 import BeautifulSoup
soup = BeautifulSoup(open(index.html))

指定解析器，BeautifulSoup选择指定的解析器来解析文档

# 指定lxml作为解析器
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_str, 'lxml')

未指定解析器，BeautifulSoup选择最默认的解析器来解析文档

# 解析html_str选择最默认的解析器
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_str)

如何使用Beautiful Soup解析HTML文档？

这个非常的简单，只需要使用Beautiful Soup类初始化一个对象，然后操作这个对象就可以了。

需要注意的是：在初始化的对象的时候，需要给Beautiful Soup类传递两个参数，HTML代码和HTML解析器

这部分的内容作为今后使用Beautiful Soup4的基础，需要同学熟练掌握这部分的内容。