📄 Documentação Oficial da BeautifulSoup
| # | Comando / Método | O que faz | Exemplo |
|---|---|---|---|
BeautifulSoup(html, 'html.parser') | Cria o objeto soup usando o parser padrão do Python | soup = BeautifulSoup(html, 'html.parser') | |
BeautifulSoup(html, 'lxml') | Cria o objeto soup usando o parser LXML (mais rápido) | soup = BeautifulSoup(html, 'lxml') | |
soup.prettify() | Formata o HTML com identação para facilitar a leitura | print(soup.prettify()) | |
soup.find() | Encontra o primeiro elemento que corresponde aos critérios | soup.find('h1') | |
soup.find_all() | Retorna uma lista com todos os elementos encontrados | soup.find_all('a') | |
Busca por ID | Filtra elementos pelo atributo id | soup.find(id='main-title') | |
Busca por Classe (CSS) | Filtra elementos pelo atributo class (use class_) | soup.find_all('div', class_='content') | |
Busca por Atributos | Passa um dicionário de atributos para a busca | soup.find('input', {'type': 'text'}) | |
soup.select() | Busca elementos usando seletores CSS (retorna lista) | soup.select('div > ul li.item') | |
soup.select_one() | Busca o primeiro elemento via seletor CSS | soup.select_one('#header .logo') | |
tag.text / .get_text() | Extraira apenas o texto dentro da tag e suas filhas | item.get_text(strip=True) | |
tag['atributo'] | Acede ao valor de um atributo específico (como href) | link['href'] | |
tag.get('attr') | Acede ao atributo de forma segura (retorna None se não existir) | tag.get('src') | |
tag.name | Retorna o nome da tag (ex: 'div', 'p') | tag.name | |
tag.parent | Acede à tag pai do elemento atual | tag.parent | |
tag.contents | Retorna uma lista dos filhos diretos da tag | tag.contents | |
tag.find_next_sibling() | Encontra o próximo elemento "irmão" no mesmo nível | tag.find_next_sibling('p') |