1
diff --git a/doc.es/Makefile b/doc.es/Makefile
2
0
new file mode 100644
0
new file mode 100644
3
index 0000000..8c833d2
4
--- /dev/null
5
+++ b/doc.es/Makefile
6
@@ -0,0 +1,130 @@
7
1
# Makefile for Sphinx documentation
8
2
#
9
3
10
4
# You can set these variables from the command line.
11
5
SPHINXOPTS    =
12
6
SPHINXBUILD   = sphinx-build
13
7
PAPER         =
14
8
BUILDDIR      = build
15
9
16
10
# Internal variables.
17
11
PAPEROPT_a4     = -D latex_paper_size=a4
18
12
PAPEROPT_letter = -D latex_paper_size=letter
19
13
ALLSPHINXOPTS   = -d $(BUILDDIR)/doctrees $(PAPEROPT_$(PAPER)) $(SPHINXOPTS) source
20
14
21
15
.PHONY: help clean html dirhtml singlehtml pickle json htmlhelp qthelp devhelp epub latex latexpdf text man changes linkcheck doctest
22
16
23
17
help:
24
18
	@echo "Please use \`make <target>' where <target> is one of"
25
19
	@echo "  html       to make standalone HTML files"
26
20
	@echo "  dirhtml    to make HTML files named index.html in directories"
27
21
	@echo "  singlehtml to make a single large HTML file"
28
22
	@echo "  pickle     to make pickle files"
29
23
	@echo "  json       to make JSON files"
30
24
	@echo "  htmlhelp   to make HTML files and a HTML help project"
31
25
	@echo "  qthelp     to make HTML files and a qthelp project"
32
26
	@echo "  devhelp    to make HTML files and a Devhelp project"
33
27
	@echo "  epub       to make an epub"
34
28
	@echo "  latex      to make LaTeX files, you can set PAPER=a4 or PAPER=letter"
35
29
	@echo "  latexpdf   to make LaTeX files and run them through pdflatex"
36
30
	@echo "  text       to make text files"
37
31
	@echo "  man        to make manual pages"
38
32
	@echo "  changes    to make an overview of all changed/added/deprecated items"
39
33
	@echo "  linkcheck  to check all external links for integrity"
40
34
	@echo "  doctest    to run all doctests embedded in the documentation (if enabled)"
41
35
42
36
clean:
43
37
	-rm -rf $(BUILDDIR)/*
44
38
45
39
html:
46
40
	$(SPHINXBUILD) -b html $(ALLSPHINXOPTS) $(BUILDDIR)/html
47
41
	@echo
48
42
	@echo "Build finished. The HTML pages are in $(BUILDDIR)/html."
49
43
50
44
dirhtml:
51
45
	$(SPHINXBUILD) -b dirhtml $(ALLSPHINXOPTS) $(BUILDDIR)/dirhtml
52
46
	@echo
53
47
	@echo "Build finished. The HTML pages are in $(BUILDDIR)/dirhtml."
54
48
55
49
singlehtml:
56
50
	$(SPHINXBUILD) -b singlehtml $(ALLSPHINXOPTS) $(BUILDDIR)/singlehtml
57
51
	@echo
58
52
	@echo "Build finished. The HTML page is in $(BUILDDIR)/singlehtml."
59
53
60
54
pickle:
61
55
	$(SPHINXBUILD) -b pickle $(ALLSPHINXOPTS) $(BUILDDIR)/pickle
62
56
	@echo
63
57
	@echo "Build finished; now you can process the pickle files."
64
58
65
59
json:
66
60
	$(SPHINXBUILD) -b json $(ALLSPHINXOPTS) $(BUILDDIR)/json
67
61
	@echo
68
62
	@echo "Build finished; now you can process the JSON files."
69
63
70
64
htmlhelp:
71
65
	$(SPHINXBUILD) -b htmlhelp $(ALLSPHINXOPTS) $(BUILDDIR)/htmlhelp
72
66
	@echo
73
67
	@echo "Build finished; now you can run HTML Help Workshop with the" \
74
68
	      ".hhp project file in $(BUILDDIR)/htmlhelp."
75
69
76
70
qthelp:
77
71
	$(SPHINXBUILD) -b qthelp $(ALLSPHINXOPTS) $(BUILDDIR)/qthelp
78
72
	@echo
79
73
	@echo "Build finished; now you can run "qcollectiongenerator" with the" \
80
74
	      ".qhcp project file in $(BUILDDIR)/qthelp, like this:"
81
75
	@echo "# qcollectiongenerator $(BUILDDIR)/qthelp/BeautifulSoup.qhcp"
82
76
	@echo "To view the help file:"
83
77
	@echo "# assistant -collectionFile $(BUILDDIR)/qthelp/BeautifulSoup.qhc"
84
78
85
79
devhelp:
86
80
	$(SPHINXBUILD) -b devhelp $(ALLSPHINXOPTS) $(BUILDDIR)/devhelp
87
81
	@echo
88
82
	@echo "Build finished."
89
83
	@echo "To view the help file:"
90
84
	@echo "# mkdir -p $$HOME/.local/share/devhelp/BeautifulSoup"
91
85
	@echo "# ln -s $(BUILDDIR)/devhelp $$HOME/.local/share/devhelp/BeautifulSoup"
92
86
	@echo "# devhelp"
93
87
94
88
epub:
95
89
	$(SPHINXBUILD) -b epub $(ALLSPHINXOPTS) $(BUILDDIR)/epub
96
90
	@echo
97
91
	@echo "Build finished. The epub file is in $(BUILDDIR)/epub."
98
92
99
93
latex:
100
94
	$(SPHINXBUILD) -b latex $(ALLSPHINXOPTS) $(BUILDDIR)/latex
101
95
	@echo
102
96
	@echo "Build finished; the LaTeX files are in $(BUILDDIR)/latex."
103
97
	@echo "Run \`make' in that directory to run these through (pdf)latex" \
104
98
	      "(use \`make latexpdf' here to do that automatically)."
105
99
106
100
latexpdf:
107
101
	$(SPHINXBUILD) -b latex $(ALLSPHINXOPTS) $(BUILDDIR)/latex
108
102
	@echo "Running LaTeX files through pdflatex..."
109
103
	make -C $(BUILDDIR)/latex all-pdf
110
104
	@echo "pdflatex finished; the PDF files are in $(BUILDDIR)/latex."
111
105
112
106
text:
113
107
	$(SPHINXBUILD) -b text $(ALLSPHINXOPTS) $(BUILDDIR)/text
114
108
	@echo
115
109
	@echo "Build finished. The text files are in $(BUILDDIR)/text."
116
110
117
111
man:
118
112
	$(SPHINXBUILD) -b man $(ALLSPHINXOPTS) $(BUILDDIR)/man
119
113
	@echo
120
114
	@echo "Build finished. The manual pages are in $(BUILDDIR)/man."
121
115
122
116
changes:
123
117
	$(SPHINXBUILD) -b changes $(ALLSPHINXOPTS) $(BUILDDIR)/changes
124
118
	@echo
125
119
	@echo "The overview file is in $(BUILDDIR)/changes."
126
120
127
121
linkcheck:
128
122
	$(SPHINXBUILD) -b linkcheck $(ALLSPHINXOPTS) $(BUILDDIR)/linkcheck
129
123
	@echo
130
124
	@echo "Link check complete; look for any errors in the above output " \
131
125
	      "or in $(BUILDDIR)/linkcheck/output.txt."
132
126
133
127
doctest:
134
128
	$(SPHINXBUILD) -b doctest $(ALLSPHINXOPTS) $(BUILDDIR)/doctest
135
129
	@echo "Testing of doctests in the sources finished, look at the " \
136
130
	      "results in $(BUILDDIR)/doctest/output.txt."
137
diff --git a/doc.es/source/6.1.jpg b/doc.es/source/6.1.jpg
138
0
new file mode 100644
131
new file mode 100644
139
index 0000000..97014f0
140
1
Binary files /dev/null and b/doc.es/source/6.1.jpg differ
132
Binary files /dev/null and b/doc.es/source/6.1.jpg differ
141
diff --git a/doc.es/source/conf.py b/doc.es/source/conf.py
142
2
new file mode 100644
133
new file mode 100644
143
index 0000000..42fcf6d
144
--- /dev/null
145
+++ b/doc.es/source/conf.py
146
@@ -0,0 +1,256 @@
147
1
# -*- coding: utf-8 -*-
148
2
#
149
3
# Beautiful Soup documentation build configuration file, created by
150
4
# sphinx-quickstart on Thu Jan 26 11:22:55 2012.
151
5
#
152
6
# This file is execfile()d with the current directory set to its containing dir.
153
7
#
154
8
# Note that not all possible configuration values are present in this
155
9
# autogenerated file.
156
10
#
157
11
# All configuration values have a default; values that are commented out
158
12
# serve to show the default.
159
13
160
14
import sys, os
161
15
162
16
# If extensions (or modules to document with autodoc) are in another directory,
163
17
# add these directories to sys.path here. If the directory is relative to the
164
18
# documentation root, use os.path.abspath to make it absolute, like shown here.
165
19
#sys.path.insert(0, os.path.abspath('.'))
166
20
167
21
# -- General configuration -----------------------------------------------------
168
22
169
23
# If your documentation needs a minimal Sphinx version, state it here.
170
24
#needs_sphinx = '1.0'
171
25
172
26
# Add any Sphinx extension module names here, as strings. They can be extensions
173
27
# coming with Sphinx (named 'sphinx.ext.*') or your custom ones.
174
28
extensions = []
175
29
176
30
# Add any paths that contain templates here, relative to this directory.
177
31
templates_path = ['_templates']
178
32
179
33
# The suffix of source filenames.
180
34
source_suffix = '.rst'
181
35
182
36
# The encoding of source files.
183
37
#source_encoding = 'utf-8-sig'
184
38
185
39
# The master toctree document.
186
40
master_doc = 'index'
187
41
188
42
# General information about the project.
189
43
project = u'Beautiful Soup'
190
44
copyright = u'2004-2024, Leonard Richardson'
191
45
192
46
# The version info for the project you're documenting, acts as replacement for
193
47
# |version| and |release|, also used in various other places throughout the
194
48
# built documents.
195
49
#
196
50
# The short X.Y version.
197
51
version = '4'
198
52
# The full version, including alpha/beta/rc tags.
199
53
release = '4.12.0'
200
54
201
55
# The language for content autogenerated by Sphinx. Refer to documentation
202
56
# for a list of supported languages.
203
57
language = "es"
204
58
205
59
# There are two options for replacing |today|: either, you set today to some
206
60
# non-false value, then it is used:
207
61
#today = ''
208
62
# Else, today_fmt is used as the format for a strftime call.
209
63
#today_fmt = '%B %d, %Y'
210
64
211
65
# List of patterns, relative to source directory, that match files and
212
66
# directories to ignore when looking for source files.
213
67
exclude_patterns = []
214
68
215
69
# The reST default role (used for this markup: `text`) to use for all documents.
216
70
#default_role = None
217
71
218
72
# If true, '()' will be appended to :func: etc. cross-reference text.
219
73
#add_function_parentheses = True
220
74
221
75
# If true, the current module name will be prepended to all description
222
76
# unit titles (such as .. function::).
223
77
#add_module_names = True
224
78
225
79
# If true, sectionauthor and moduleauthor directives will be shown in the
226
80
# output. They are ignored by default.
227
81
#show_authors = False
228
82
229
83
# The name of the Pygments (syntax highlighting) style to use.
230
84
pygments_style = 'sphinx'
231
85
232
86
# A list of ignored prefixes for module index sorting.
233
87
#modindex_common_prefix = []
234
88
235
89
236
90
# -- Options for HTML output ---------------------------------------------------
237
91
238
92
# The theme to use for HTML and HTML Help pages.  See the documentation for
239
93
# a list of builtin themes.
240
94
html_theme = 'default'
241
95
242
96
# Theme options are theme-specific and customize the look and feel of a theme
243
97
# further.  For a list of options available for each theme, see the
244
98
# documentation.
245
99
#html_theme_options = {}
246
100
247
101
# Add any paths that contain custom themes here, relative to this directory.
248
102
#html_theme_path = []
249
103
250
104
# The name for this set of Sphinx documents.  If None, it defaults to
251
105
# "<project> v<release> documentation".
252
106
#html_title = None
253
107
254
108
# A shorter title for the navigation bar.  Default is the same as html_title.
255
109
#html_short_title = None
256
110
257
111
# The name of an image file (relative to this directory) to place at the top
258
112
# of the sidebar.
259
113
#html_logo = None
260
114
261
115
# The name of an image file (within the static path) to use as favicon of the
262
116
# docs.  This file should be a Windows icon file (.ico) being 16x16 or 32x32
263
117
# pixels large.
264
118
#html_favicon = None
265
119
266
120
# Add any paths that contain custom static files (such as style sheets) here,
267
121
# relative to this directory. They are copied after the builtin static files,
268
122
# so a file named "default.css" will overwrite the builtin "default.css".
269
123
html_static_path = ['_static']
270
124
271
125
# If not '', a 'Last updated on:' timestamp is inserted at every page bottom,
272
126
# using the given strftime format.
273
127
#html_last_updated_fmt = '%b %d, %Y'
274
128
275
129
# If true, SmartyPants will be used to convert quotes and dashes to
276
130
# typographically correct entities.
277
131
#html_use_smartypants = True
278
132
279
133
# Custom sidebar templates, maps document names to template names.
280
134
#html_sidebars = {}
281
135
282
136
# Additional templates that should be rendered to pages, maps page names to
283
137
# template names.
284
138
#html_additional_pages = {}
285
139
286
140
# If false, no module index is generated.
287
141
#html_domain_indices = True
288
142
289
143
# If false, no index is generated.
290
144
#html_use_index = True
291
145
292
146
# If true, the index is split into individual pages for each letter.
293
147
#html_split_index = False
294
148
295
149
# If true, links to the reST sources are added to the pages.
296
150
#html_show_sourcelink = True
297
151
298
152
# If true, "Created using Sphinx" is shown in the HTML footer. Default is True.
299
153
#html_show_sphinx = True
300
154
301
155
# If true, "(C) Copyright ..." is shown in the HTML footer. Default is True.
302
156
#html_show_copyright = True
303
157
304
158
# If true, an OpenSearch description file will be output, and all pages will
305
159
# contain a <link> tag referring to it.  The value of this option must be the
306
160
# base URL from which the finished HTML is served.
307
161
#html_use_opensearch = ''
308
162
309
163
# This is the file name suffix for HTML files (e.g. ".xhtml").
310
164
#html_file_suffix = None
311
165
312
166
# Output file base name for HTML help builder.
313
167
htmlhelp_basename = 'BeautifulSoupdoc'
314
168
315
169
316
170
# -- Options for LaTeX output --------------------------------------------------
317
171
318
172
# The paper size ('letter' or 'a4').
319
173
#latex_paper_size = 'letter'
320
174
321
175
# The font size ('10pt', '11pt' or '12pt').
322
176
#latex_font_size = '10pt'
323
177
324
178
# Grouping the document tree into LaTeX files. List of tuples
325
179
# (source start file, target name, title, author, documentclass [howto/manual]).
326
180
latex_documents = [
327
181
  ('index', 'BeautifulSoup.tex', u'Beautiful Soup Documentation',
328
182
   u'Leonard Richardson', 'manual'),
329
183
]
330
184
331
185
# The name of an image file (relative to this directory) to place at the top of
332
186
# the title page.
333
187
#latex_logo = None
334
188
335
189
# For "manual" documents, if this is true, then toplevel headings are parts,
336
190
# not chapters.
337
191
#latex_use_parts = False
338
192
339
193
# If true, show page references after internal links.
340
194
#latex_show_pagerefs = False
341
195
342
196
# If true, show URL addresses after external links.
343
197
#latex_show_urls = False
344
198
345
199
# Additional stuff for the LaTeX preamble.
346
200
#latex_preamble = ''
347
201
348
202
# Documents to append as an appendix to all manuals.
349
203
#latex_appendices = []
350
204
351
205
# If false, no module index is generated.
352
206
#latex_domain_indices = True
353
207
354
208
355
209
# -- Options for manual page output --------------------------------------------
356
210
357
211
# One entry per manual page. List of tuples
358
212
# (source start file, name, description, authors, manual section).
359
213
man_pages = [
360
214
    ('index', 'beautifulsoup', u'Beautiful Soup Documentation',
361
215
     [u'Leonard Richardson'], 1)
362
216
]
363
217
364
218
365
219
# -- Options for Epub output ---------------------------------------------------
366
220
367
221
# Bibliographic Dublin Core info.
368
222
epub_title = u'Beautiful Soup'
369
223
epub_author = u'Leonard Richardson'
370
224
epub_publisher = u'Leonard Richardson'
371
225
epub_copyright = u'2012, Leonard Richardson'
372
226
373
227
# The language of the text. It defaults to the language option
374
228
# or en if the language is not set.
375
229
#epub_language = ''
376
230
377
231
# The scheme of the identifier. Typical schemes are ISBN or URL.
378
232
#epub_scheme = ''
379
233
380
234
# The unique identifier of the text. This can be a ISBN number
381
235
# or the project homepage.
382
236
#epub_identifier = ''
383
237
384
238
# A unique identification for the text.
385
239
#epub_uid = ''
386
240
387
241
# HTML files that should be inserted before the pages created by sphinx.
388
242
# The format is a list of tuples containing the path and title.
389
243
#epub_pre_files = []
390
244
391
245
# HTML files shat should be inserted after the pages created by sphinx.
392
246
# The format is a list of tuples containing the path and title.
393
247
#epub_post_files = []
394
248
395
249
# A list of files that should not be packed into the epub file.
396
250
#epub_exclude_files = []
397
251
398
252
# The depth of the table of contents in toc.ncx.
399
253
#epub_tocdepth = 3
400
254
401
255
# Allow duplicate toc entries.
402
256
#epub_tocdup = True
403
diff --git a/doc.es/source/index.rst b/doc.es/source/index.rst
404
0
new file mode 100644
257
new file mode 100644
405
index 0000000..53c47f5
406
--- /dev/null
407
+++ b/doc.es/source/index.rst
408
@@ -0,0 +1,3709 @@
409
1
.. _manual:
410
2
411
3
=================================
412
4
 Documentación de Beautiful Soup
413
5
=================================
414
6
415
7
.. py:module:: bs4
416
8
417
9
.. image:: 6.1.jpg
418
10
   :align: right
419
11
   :alt: "El lacayo-pez empezó por sacarse de debajo del brazo una gran carta,
420
12
	 casi tan grande como él."
421
13
422
14
`Beautiful Soup <http://www.crummy.com/software/BeautifulSoup/>`_ es una
423
15
librería de Python para extraer datos de archivos en formato HTML y XML.
424
16
Trabaja con tu analizador favorito para ofrecer maneras bien definidas
425
17
de navegar, buscar y modificar el árbol analizado. Puede llegar a ahorrar
426
18
horas o días de trabajo a los programadores. 
427
19
428
20
Este manual ilustra con ejemplos la funcionalidades más importantes
429
21
de Beautiful Soup 4. Te muestro las cosas para las que la librería es buena,
430
22
cómo funciona, cómo usarla, cómo hacer lo que quieres y qué hacer cuando
431
23
no se cumplen tus expectativas.
432
24
433
25
Este documento cubre Beautiful Soup versión 4.12.1. Los ejemplos en este
434
26
documento fueron escritos para Python 3.8.
435
27
436
28
Podrías estar buscando la documentación de `Beautiful Soup 3
437
29
<http://www.crummy.com/software/BeautifulSoup/bs3/documentation.html>`_.
438
30
Si es así, debes saber que Beautiful Soup 3 ya no se desarrolla y
439
31
su soporte fue abandonado el 31 de diciembre de 2020. Si quieres
440
32
conocer la diferencias entre Beautiful Soup 3 y Beautiful Soup 4,
441
33
mira `Actualizar el código a BS4`_.
442
34
443
35
Esta documentación ha sido traducida a otras lenguas por los usuarios
444
36
de Beautiful Soup:
445
37
446
38
* `这篇文档当然还有中文版. <https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/>`_
447
39
* このページは日本語で利用できます(`外部リンク <http://kondou.com/BS4/>`_)
448
40
* `이 문서는 한국어 번역도 가능합니다. <https://www.crummy.com/software/BeautifulSoup/bs4/doc.ko/>`_
449
41
* `Este documento também está disponível em Português do Brasil. <https://www.crummy.com/software/BeautifulSoup/bs4/doc.ptbr>`_
450
42
* `Эта документация доступна на русском языке. <https://www.crummy.com/software/BeautifulSoup/bs4/doc.ru/>`_
451
43
 
452
44
Cómo conseguir ayuda
453
45
====================
454
46
Si tienes alguna pregunta sobre BeautifulSoup, o si tienes problemas,
455
47
`envía un correo electrónico al grupo de discusión
456
48
<https://groups.google.com/forum/?fromgroups#!forunm/beautifulsoup>`_.
457
49
Si tienes algún problema relacionado con el análisis de un documento HTML,
458
50
asegúrate de mencionar :ref:`lo que la función diagnose() dice <diagnose>`
459
51
sobre dicho documento.
460
52
461
53
Cuando informes de algún error en esta documentación, por favor,
462
54
indica la traducción que estás leyendo.
463
55
464
56
===============
465
57
 Inicio rápido
466
58
===============
467
59
468
60
Este es un documento HTML que usaré como ejemplo a lo largo de este
469
61
documento. Es parte de una historia de `Alicia en el país de las maravillas`::
470
62
471
63
 html_doc = """<html><head><title>The Dormouse's story</title></head>
472
64
 <body>
473
65
 <p class="title"><b>The Dormouse's story</b></p>
474
66
475
67
 <p class="story">Once upon a time there were three little sisters; and their names were
476
68
 <a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
477
69
 <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
478
70
 <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
479
71
 and they lived at the bottom of a well.</p>
480
72
481
73
 <p class="story">...</p>
482
74
 """
483
75
484
76
Al procesar el documento de "Las tres hermanas" en Beautiful Soup, se nos
485
77
devuelve un objeto :py:class:`BeautifulSoup`, que representa el
486
78
documento como una estructura de datos anidada::
487
79
488
80
 from bs4 import BeautifulSoup
489
81
 soup = BeautifulSoup(html_doc, 'html.parser')
490
82
491
83
 print(soup.prettify())
492
84
 # <html>
493
85
 #  <head>
494
86
 #   <title>
495
87
 #    The Dormouse's story
496
88
 #   </title>
497
89
 #  </head>
498
90
 #  <body>
499
91
 #   <p class="title">
500
92
 #    <b>
501
93
 #     The Dormouse's story
502
94
 #    </b>
503
95
 #   </p>
504
96
 #   <p class="story">
505
97
 #    Once upon a time there were three little sisters; and their names were
506
98
 #    <a class="sister" href="http://example.com/elsie" id="link1">
507
99
 #     Elsie
508
100
 #    </a>
509
101
 #    ,
510
102
 #    <a class="sister" href="http://example.com/lacie" id="link2">
511
103
 #     Lacie
512
104
 #    </a>
513
105
 #    and
514
106
 #    <a class="sister" href="http://example.com/tillie" id="link3">
515
107
 #     Tillie
516
108
 #    </a>
517
109
 #    ; and they lived at the bottom of a well.
518
110
 #   </p>
519
111
 #   <p class="story">
520
112
 #    ...
521
113
 #   </p>
522
114
 #  </body>
523
115
 # </html>
524
116
525
117
Estas son algunas de las maneras sencillas para navegar
526
118
por la estructura de datos::
527
119
528
120
 soup.title
529
121
 # <title>The Dormouse's story</title>
530
122
531
123
 soup.title.name
532
124
 # u'title'
533
125
534
126
 soup.title.string
535
127
 # u'The Dormouse's story'
536
128
537
129
 soup.title.parent.name
538
130
 # u'head'
539
131
540
132
 soup.p
541
133
 # <p class="title"><b>The Dormouse's story</b></p>
542
134
543
135
 soup.p['class']
544
136
 # u'title'
545
137
546
138
 soup.a
547
139
 # <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
548
140
549
141
 soup.find_all('a')
550
142
 # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
551
143
 #  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
552
144
 #  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
553
145
554
146
 soup.find(id="link3")
555
147
 # <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>
556
148
557
149
Una tarea frecuente es extraer todas las URL encontradas en las etiquetas
558
150
<a> de una página::
559
151
560
152
 for link in soup.find_all('a'):
561
153
     print(link.get('href'))
562
154
 # http://example.com/elsie
563
155
 # http://example.com/lacie
564
156
 # http://example.com/tillie
565
157
566
158
Otra tarea habitual es extraer todo el texto de una página::
567
159
568
160
 print(soup.get_text())
569
161
 # The Dormouse's story
570
162
 #
571
163
 # The Dormouse's story
572
164
 #
573
165
 # Once upon a time there were three little sisters; and their names were
574
166
 # Elsie,
575
167
 # Lacie and
576
168
 # Tillie;
577
169
 # and they lived at the bottom of a well.
578
170
 #
579
171
 # ...
580
172
581
173
¿Esto se parece a lo que necesitas? Si es así, sigue leyendo.
582
174
583
175
=========================
584
176
 Instalar Beautiful Soup
585
177
=========================
586
178
Si usas una versión reciente de Debian o Ubuntu Linux, puedes instalar
587
179
Beautiful Soup con el gestor de paquetes del sistema:
588
180
589
181
:kbd:`$ apt-get install python3-bs4`
590
182
591
183
Beautiful Soup 4 está publicado en Pypi, así que si no puedes instalarlo
592
184
con el gestor de paquetes, puedes instalarlo con ``easy_install`` o
593
185
``pip``. El nombre del paquete es ``beautifulsoup4``. Asegúrate de que
594
186
usas la versión correcta de ``pip`` o ``easy_install`` para tu versión
595
187
de Python (podrían llamarse ``pip3`` y ``easy_install3``, respectivamente):
596
188
597
189
:kbd:`$ easy_install beautifulsoup4`
598
190
599
191
:kbd:`$ pip install beautifulsoup4`
600
192
601
193
(El paquete :py:class:`BeautifulSoup` ``no`` es el que quieres. Ese es
602
194
el lanzamiento anterior `Beautiful Soup 3`_. Muchos *software* utilizan
603
195
BS3, así que aún está disponible, pero si estás escribiendo nuevo código,
604
196
deberías instalar ``beautifulsoup4``).
605
197
606
198
Si no tienes ``easy_install`` o ``pip`` instalados, puedes
607
199
`descargar el código de Beautiful Soup 4 comprimido en un tarball
608
200
<http://www.crummy.com/software/BeautifulSoup/download/4.x/>`_ e
609
201
instalarlo con ``setup.py``:
610
202
611
203
:kbd:`$ python setup.py install`
612
204
613
205
Si aún así todo falla, la licencia de Beautiful Soup te permite
614
206
empaquetar la librería completa con tu aplicación. Puedes descargar
615
207
el *tarball*, copiar su directorio ``bs4`` en tu base de código y
616
208
usar Beautiful Soup sin instalarlo en absoluto.
617
209
618
210
Yo empleo Python 3.10 para desarrollar Beautiful Soup, aunque debería
619
211
funcionar con otras versiones recientes.
620
212
621
213
.. _parser-installation:
622
214
623
215
624
216
Instalar un analizador
625
217
======================
626
218
627
219
Beautiful Soup soporta el analizador de HTML incluido en la librería
628
220
estándar de Python, aunque también soporta varios analizadores de
629
221
Python de terceros. Uno de ellos es el `analizador de lxml <http://lxml.de/>`_.
630
222
Dependiendo de tu instalación, puedes instalar lxml con uno de los
631
223
siguientes comandos:
632
224
633
225
:kbd:`$ apt-get install python-lxml`
634
226
635
227
:kbd:`$ easy_install lxml`
636
228
637
229
:kbd:`$ pip install lxml`
638
230
639
231
Otra alternativa es usar el analizador de Python de
640
232
`html5lib <http://code.google.com/p/html5lib/>`_,
641
233
el cual analiza HTML de la misma manera en la que lo haría
642
234
un navegador web. Dependiendo de tu instalación, puedes instalar
643
235
html5lib con uno de los siguientes comandos:
644
236
645
237
:kbd:`$ apt-get install python-html5lib`
646
238
647
239
:kbd:`$ easy_install html5lib`
648
240
649
241
:kbd:`$ pip install html5lib`
650
242
651
243
Esta tabla resume las ventajas e inconvenientes de cada librería de los analizadores:
652
244
653
245
+-----------------------+--------------------------------------------+-----------------------------------+-----------------------------+
654
246
| Analizador            | Uso típico                                 | Ventajas                          | Desventajas                 |
655
247
+-----------------------+--------------------------------------------+-----------------------------------+-----------------------------+
656
248
| html.parser de Python | ``BeautifulSoup(markup, "html.parser")``   | * Ya incluido                     | * No tan rápido como lxml,  |
657
249
|                       |                                            | * Rapidez decente                 |   menos tolerante que       |
658
250
|                       |                                            | * Tolerante (en Python 3.2)       |   html5lib.                 |
659
251
+-----------------------+--------------------------------------------+-----------------------------------+-----------------------------+
660
252
| Analizador HTML de    | ``BeautifulSoup(markup, "lxml")``          | * Muy rápido                      | * Dependencia externa de C  |
661
253
| lxml                  |                                            | * Tolerante                       |                             |
662
254
+-----------------------+--------------------------------------------+-----------------------------------+-----------------------------+
663
255
| Analizador XML de     | ``BeautifulSoup(markup, "lxml-xml")``      | * Muy rápido                      | * Dependencia externa de C  |
664
256
| lxml                  | ``BeautifulSoup(markup, "xml")``           | * El único analizador XML         |                             |
665
257
|                       |                                            |   actualmente soportado           |                             |
666
258
+-----------------------+--------------------------------------------+-----------------------------------+-----------------------------+
667
259
| html5lib              | ``BeautifulSoup(markup, "html5lib")``      | * Extremadamente tolerante        | * Muy lento                 |
668
260
|                       |                                            | * Analiza las páginas de la misma | * Dependencia externa de    |
669
261
|                       |                                            |   manera que un navegador web     |   Python                    |
670
262
|                       |                                            | * Crea HTML5 válido               |                             |
671
263
+-----------------------+--------------------------------------------+-----------------------------------+-----------------------------+
672
264
673
265
Si puedes, te recomiendo que instales y uses lxml para mayor velocidad.
674
266
675
267
Ten en cuenta que si un documento es inválido, analizadores diferentes
676
268
generarán árboles de Beautiful Soup diferentes para él. Mira
677
269
`Diferencias entre analizadores`_ para más detalle.
678
270
679
271
==================
680
272
 Haciendo la sopa
681
273
==================
682
274
683
275
Para analizar un documento pásalo al constructor de :py:class:`BeautifulSoup`.
684
276
Puedes pasar una cadena de caracteres o abrir un manejador de archivos::
685
277
686
278
 from bs4 import BeautifulSoup
687
279
688
280
 with open("index.html") as fp:
689
281
     soup = BeautifulSoup(fp, 'html.parser')
690
282
691
283
 soup = BeautifulSoup("<html>a web page</html>", 'html.parser')
692
284
693
285
Primero, el documento se convierte a Unicode, y las entidades HTML se
694
286
convierten a caracteres Unicode::
695
287
696
288
 print(BeautifulSoup("<html><head></head><body>Sacr&eacute; bleu!</body></html>", "html.parser"))
697
289
 # <html><head></head><body>Sacré bleu!</body></html>
698
290
699
291
Entonces Beautiful Soup analiza el documento usando el mejor analizador
700
292
disponible. Usará un analizador HTML a no ser que se especifique que se
701
293
use un analizador XML (ver `Analizar XML`_).
702
294
703
295
==================
704
296
 Tipos de objetos
705
297
==================
706
298
707
299
Beautiful Soup transforma un complejo documento HTML en un complejo árbol de objetos
708
300
de Python. Pero tan solo tendrás que lidiar con cuatro `tipos` de objetos: :py:class:`Tag`,
709
301
:py:class:`NavigableString`, :py:class:`BeautifulSoup` y :py:class:`Comment`.
710
302
711
303
.. py:class:: Tag
712
304
713
305
 Un objeto :py:class:`Tag` corresponde a una etiqueta XML o HTML en el documento
714
306
 original.
715
307
716
308
 ::
717
309
718
310
  soup = BeautifulSoup('<b class="boldest">Extremely bold</b>', 'html.parser')
719
311
  tag = soup.b
720
312
  type(tag)
721
313
  # <class 'bs4.element.Tag'>
722
314
723
315
 Las etiquetas tienen muchos atributos y métodos, y cubriré la mayoría de ellos en
724
316
 `Navegar por el árbol`_ y `Buscar en el árbol`_. Por ahora, las características
725
317
 más importantes de una etiqueta son su nombre y sus atributos.
726
318
727
319
 .. py:attribute:: name
728
320
729
321
  Toda etiqueta tiene un nombre::
730
322
731
323
   tag.name
732
324
   # 'b'
733
325
734
326
735
327
  Si cambias el nombre de una etiqueta, el cambio se verá reflejado en
736
328
  cualquier especificación generada por Beautiful Soup a partir de entonces::
737
329
738
330
   tag.name = "blockquote"
739
331
   tag
740
332
   # <blockquote class="boldest">Extremely bold</blockquote>
741
333
742
334
 .. py:attribute:: attrs
743
335
744
336
  Una etiqueta HTML o XML puede tener cualquier cantidad de atributos.
745
337
  La etiqueta ``<b id="boldest">`` tiene un atributo "id" cuyo valor
746
338
  es "boldest". Puedes acceder a los atributos de una etiqueta
747
339
  usándola como un diccionario::
748
340
749
341
   tag = BeautifulSoup('<b id="boldest">bold</b>', 'html.parser').b
750
342
   tag['id']
751
343
   # 'boldest'
752
344
753
345
  Puedes acceder a los atributos del diccionario directamente con ``.attrs``::
754
346
755
347
   tag.attrs
756
348
   # {'id': 'boldest'}
757
349
758
350
  Puedes añadir, quitar y modificar los atributos de una etiqueta. De nuevo, esto
759
351
  se realiza usando la etiqueta como un diccionario::
760
352
761
353
   tag['id'] = 'verybold'
762
354
   tag['another-attribute'] = 1
763
355
   tag
764
356
   # <b another-attribute="1" id="verybold"></b>
765
357
766
358
   del tag['id']
767
359
   del tag['another-attribute']
768
360
   tag
769
361
   # <b>bold</b>
770
362
771
363
   tag['id']
772
364
   # KeyError: 'id'
773
365
   tag.get('id')
774
366
   # None
775
367
776
368
  .. _multivalue:
777
369
778
370
  Atributos multivaluados
779
371
  -----------------------
780
372
781
373
  HTML 4 define algunos atributos que pueden tomar múltiples valores. HTML 5
782
374
  elimina un par de ellos, pero define unos cuantos más. El atributo multivaluado
783
375
  más común es ``class`` (esto es, una etiqueta puede tener más de una clase de CSS).
784
376
  Otros incluyen ``rel``, ``rev``, ``accept-charset``, ``headers`` y ``accesskey``.
785
377
  Por defecto, Beautiful Soup transforma los valores de un atributo multivaluado en
786
378
  una lista::
787
379
788
380
   css_soup = BeautifulSoup('<p class="body"></p>', 'html.parser')
789
381
   css_soup.p['class']
790
382
   # ['body']
791
383
  
792
384
   css_soup = BeautifulSoup('<p class="body strikeout"></p>', 'html.parser')
793
385
   css_soup.p['class']
794
386
   # ['body', 'strikeout']
795
387
796
388
  Si un atributo `parece` que tiene más de un valor, pero no es un atributo
797
389
  multivaluado definido como tal por ninguna versión del estándar de HTML,
798
390
  Beautiful Soup no modificará el atributo::
799
391
800
392
   id_soup = BeautifulSoup('<p id="my id"></p>', 'html.parser')
801
393
   id_soup.p['id']
802
394
   # 'my id'
803
395
804
396
  Cuando transformas una etiqueta en una cadena de caracteres, muchos atributos
805
397
  se combinan::
806
398
807
399
   rel_soup = BeautifulSoup('<p>Back to the <a rel="index first">homepage</a></p>', 'html.parser')
808
400
   rel_soup.a['rel']
809
401
   # ['index', 'first']
810
402
   rel_soup.a['rel'] = ['index', 'contents']
811
403
   print(rel_soup.p)
812
404
   # <p>Back to the <a rel="index contents">homepage</a></p>
813
405
814
406
  Puedes forzar que todos los atributos sean analizados como cadenas
815
407
  de caracteres pasando ``multi_valued_attributes=None`` como argumento
816
408
  clave en el constructor de :py:class:`BeautifulSoup`::
817
409
818
410
   no_list_soup = BeautifulSoup('<p class="body strikeout"></p>', 'html.parser', multi_valued_attributes=None)
819
411
   no_list_soup.p['class']
820
412
   # 'body strikeout'
821
413
822
414
  Puedes usar  ``get_attribute_list`` para obtener un valor que siempre sea una lista,
823
415
  sin importar si es un atributo multivaluado::
824
416
825
417
   id_soup.p.get_attribute_list('id')
826
418
   # ["my id"]
827
419
 
828
420
  Si analizas un documento como XML, no hay atributos multivaluados::
829
421
830
422
   xml_soup = BeautifulSoup('<p class="body strikeout"></p>', 'xml')
831
423
   xml_soup.p['class']
832
424
   # 'body strikeout'
833
425
834
426
  Una vez más, puedes configurar esto usando el argumento ``multi_valued_attributes`` ::
835
427
836
428
   class_is_multi= { '*' : 'class'}
837
429
   xml_soup = BeautifulSoup('<p class="body strikeout"></p>', 'xml', multi_valued_attributes=class_is_multi)
838
430
   xml_soup.p['class']
839
431
   # ['body', 'strikeout']
840
432
841
433
  Probablemente no tengas que hacer esto, pero si lo necesitas, usa los
842
434
  parámetros por defecto como guía. Implementan las reglas descritas en la
843
435
  especificación de HTML::
844
436
845
437
   from bs4.builder import builder_registry
846
438
   builder_registry.lookup('html').DEFAULT_CDATA_LIST_ATTRIBUTES
847
439
  
848
440
.. py:class:: NavigableString
849
441
850
442
-----------------------------
851
443
852
444
Un *string* corresponde a un trozo de texto en una etiqueta. Beautiful Soup usa la clase
853
445
:py:class:`NavigableString` para contener estos trozos de texto::
854
446
855
447
 soup = BeautifulSoup('<b class="boldest">Extremely bold</b>', 'html.parser')
856
448
 tag = soup.b
857
449
 tag.string
858
450
 # 'Extremely bold'
859
451
 type(tag.string)
860
452
 # <class 'bs4.element.NavigableString'>
861
453
862
454
Un :py:class:`NavigableString` es como una cadena de caracteres de Python Unicode,
863
455
exceptuando que también soporta algunas de las características descritas en
864
456
`Navegar por el árbol`_ y `Buscar en el árbol`_. Puedes convertir un objeto
865
457
:py:class:`NavigableString` a una cadena de caracteres Unicode usando ``str``::
866
458
867
459
 unicode_string = str(tag.string)
868
460
 unicode_string
869
461
 # 'Extremely bold'
870
462
 type(unicode_string)
871
463
 # <type 'str'>
872
464
873
465
No puedes editar dicha cadena, pero puedes reemplazar una cadena por otra, usando
874
466
:ref:`replace_with()`::
875
467
876
468
 tag.string.replace_with("No longer bold")
877
469
 tag
878
470
 # <b class="boldest">No longer bold</b>
879
471
880
472
:py:class:`NavigableString` soporta la mayoría de las características descritas en
881
473
`Navegar por el árbol`_ y `Buscar en el árbol`_, pero no todas.
882
474
En particular, como una cadena no puede contener nada (la manera en la que
883
475
una etiqueta contiene una cadena de caracteres u otra etiqueta), *strings* no
884
476
admiten los atributos `.contents`` o ``.string``, o el método ``find()``.
885
477
886
478
Si quieres usar un :py:class:`NavigableString` fuera de Beautiful Soup,
887
479
deberías llamar ``unicode()`` sobre él para convertirlo en una cadena de caracteres
888
480
de Python Unicode. Si no, tu cadena arrastrará una referencia a todo el árbol analizado
889
481
de Beautiful Soup, incluso cuando hayas acabado de utilizar Beautiful Soup. Esto es un
890
482
gran malgasto de memoria.
891
483
892
484
.. py:class:: BeautifulSoup
893
485
894
486
---------------------------
895
487
896
488
El objeto :py:class:`BeautifulSoup` representa el documento analizado
897
489
en su conjunto. Para la mayoría de propósitos, puedes usarlo como un objeto
898
490
:py:class:`Tag`. Esto significa que soporta la mayoría de métodos descritos
899
491
en `Navegar por el árbol`_ and `Buscar en el árbol`_.
900
492
901
493
Puedes también pasar un objeto :py:class:`BeautifulSoup` en cualquiera de
902
494
los métodos definidos en `Modificar el árbol`_, como si fuese un :py:class:`Tag`.
903
495
Esto te permite hacer cosas como combinar dos documentos analizados::
904
496
905
497
 doc = BeautifulSoup("<document><content/>INSERT FOOTER HERE</document", "xml")
906
498
 footer = BeautifulSoup("<footer>Here's the footer</footer>", "xml")
907
499
 doc.find(text="INSERT FOOTER HERE").replace_with(footer)
908
500
 # 'INSERT FOOTER HERE'
909
501
 print(doc)
910
502
 # <?xml version="1.0" encoding="utf-8"?>
911
503
 # <document><content/><footer>Here's the footer</footer></document>
912
504
913
505
Como un objeto :py:class:`BeautifulSoup` no corresponde realmente con una
914
506
etiqueta HTML o XML, no tiene nombre ni atributos. Aún así, es útil
915
507
comprobar su ``.name``, así que se le ha dado el ``.name`` especial
916
508
"[document]"::
917
509
918
510
 soup.name
919
511
 # '[document]'
920
512
921
513
Cadenas especiales
922
514
==================
923
515
924
516
:py:class:`Tag`, :py:class:`NavigableString` y
925
517
:py:class:`BeautifulSoup` cubren la mayoría de todo lo que verás en
926
518
un archivo HTML o XML, aunque aún quedan algunos remanentes. El principal
927
519
que probablemente encuentres es el :py:class:`Comment`.
928
520
929
521
.. py:class:: Comment
930
522
931
523
::
932
524
933
525
 markup = "<b><!--Hey, buddy. Want to buy a used parser?--></b>"
934
526
 soup = BeautifulSoup(markup, 'html.parser')
935
527
 comment = soup.b.string
936
528
 type(comment)
937
529
 # <class 'bs4.element.Comment'>
938
530
939
531
El objeto :py:class:`Comment` es solo un tipo especial de :py:class:`NavigableString`::
940
532
941
533
 comment
942
534
 # 'Hey, buddy. Want to buy a used parser'
943
535
944
536
Pero cuando aparece como parte de un documento HTML, un :py:class:`Comment`
945
537
se muestra con un formato especial::
946
538
947
539
 print(soup.b.prettify())
948
540
 # <b>
949
541
 #  <!--Hey, buddy. Want to buy a used parser?-->
950
542
 # </b>
951
543
952
544
Para documentos HTML
953
545
--------------------
954
546
955
547
Beautiful Soup define algunas subclases de :py:class:`NavigableString`
956
548
para contener cadenas de caracteres encontradas dentro de etiquetas
957
549
HTML específicas. Esto hace más fácil tomar el cuerpo principal de la
958
550
página, ignorando cadenas que probablemente representen directivas de
959
551
programación encontradas dentro de la página. `(Estas clases son nuevas
960
552
en Beautiful Soup 4.9.0, y el analizador html5lib no las usa)`.
961
553
962
554
.. py:class:: Stylesheet
963
555
964
556
Una subclase de :py:class:`NavigableString` que representa hojas de estilo
965
557
CSS embebidas; esto es, cualquier cadena en una etiqueta
966
558
``<style>`` durante el análisis del documento.
967
559
968
560
.. py:class:: Script
969
561
970
562
Una subclase de :py:class:`NavigableString` que representa
971
563
JavaScript embebido; esto es, cualquier cadena en una etiqueta
972
564
``<script>`` durante el análisis del documento.
973
565
974
566
.. py:class:: Template
975
567
976
568
Una subclase de :py:class:NavigableString` que representa plantillas
977
569
HTML embebidas; esto es, cualquier cadena en una etiqueta ``<template>``
978
570
durante el análisis del documento.
979
571
980
572
Para documentos XML
981
573
-------------------
982
574
983
575
Beautiful Soup define algunas clases :py:class:`NavigableString`
984
576
para contener tipos especiales de cadenas de caracteres que pueden
985
577
ser encontradas en documentos XML. Como :py:class:`Comment`, estas
986
578
clases son subclases de :py:class:`NavigableString` que añaden
987
579
algo extra a la cadena de caracteres en la salida.
988
580
989
581
.. py:class:: Declaration
990
582
991
583
Una subclase de :py:class:`NavigableString` que representa la
992
584
`declaración <https://www.w3.org/TR/REC-xml/#sec-prolog-dtd>`_ al
993
585
principio de un documento XML.
994
586
995
587
.. py:class:: Doctype
996
588
997
589
Una subclase de :py:class:`NavigableString` que representa la
998
590
`declaración del tipo de documento <https://www.w3.org/TR/REC-xml/#dt-doctype>`_
999
591
que puede encontrarse cerca del comienzo de un documento XML.
1000
592
1001
593
.. py:class:: CData
1002
594
1003
595
Una subclase de :py:class:`NavigableString` que representa una
1004
596
`sección CData <https://www.w3.org/TR/REC-xml/#sec-cdata-sect>`_.
1005
597
1006
598
.. py:class:: ProcessingInstruction
1007
599
1008
600
Una subclase de :py:class:`NavigableString` que representa el contenido de
1009
601
una `instrucción de procesamiento XML <https://www.w3.org/TR/REC-xml/#sec-pi>`_.
1010
602
1011
603
1012
604
======================
1013
605
 Navegar por el árbol
1014
606
======================
1015
607
1016
608
Aquí está el documento HTML de las "Tres hermanas" de nuevo::
1017
609
1018
610
 html_doc = """
1019
611
 <html><head><title>The Dormouse's story</title></head>
1020
612
 <body>
1021
613
 <p class="title"><b>The Dormouse's story</b></p>
1022
614
1023
615
 <p class="story">Once upon a time there were three little sisters; and their names were
1024
616
 <a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
1025
617
 <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
1026
618
 <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
1027
619
 and they lived at the bottom of a well.</p>
1028
620
1029
621
 <p class="story">...</p>
1030
622
 """
1031
623
1032
624
 from bs4 import BeautifulSoup
1033
625
 soup = BeautifulSoup(html_doc, 'html.parser')
1034
626
1035
627
Usaré este como ejemplo para enseñarte cómo mover una parte de un
1036
628
documento a otra.
1037
629
1038
630
Bajar
1039
631
=====
1040
632
1041
633
Las etiquetas pueden contener cadenas u otras etiquetas. Estos elementos
1042
634
son los hijos (`children`) de la etiqueta. Beautiful Soup ofrece muchos
1043
635
atributos para navegar e iterar por los hijos de una etiqueta.
1044
636
1045
637
Debe notarse que las cadenas de Beautiful Soup no soportan ninguno
1046
638
de estos atributos, porque una cadena no puede tener hijos.
1047
639
1048
640
Navegar usando nombres de etiquetas
1049
641
-----------------------------------
1050
642
1051
643
La manera más simple de navegar por el árbol analizado es indicar
1052
644
el nombre de la etiqueta que quieres. Si quieres la etiqueta <head>,
1053
645
tan solo indica ``soup.head``::
1054
646
1055
647
 soup.head
1056
648
 # <head><title>The Dormouse's story</title></head>
1057
649
1058
650
 soup.title
1059
651
 # <title>The Dormouse's story</title>
1060
652
1061
653
Puedes usar este truco una y otra vez para acercarte a una parte concreta
1062
654
del árbol analizado. Este código obtiene la primera etiqueta <b> dentro
1063
655
de la etiqueta <body>::
1064
656
1065
657
 soup.body.b
1066
658
 # <b>The Dormouse's story</b>
1067
659
1068
660
Usar el nombre de la etiqueta como atributo te dará solo la `primera`
1069
661
etiqueta con ese nombre::
1070
662
1071
663
 soup.a
1072
664
 # <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
1073
665
1074
666
Si necesitas obtener `todas` las etiquetas <a>, o cualquier
1075
667
cosa más complicada que la primera etiqueta con cierto nombre, tendrás
1076
668
que usar uno de los métodos descritos en `Buscar en el árbol`_, como
1077
669
`find_all()`::
1078
670
1079
671
 soup.find_all('a')
1080
672
 # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
1081
673
 #  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
1082
674
 #  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
1083
675
1084
676
``.contents`` y ``.children``
1085
677
-----------------------------
1086
678
1087
679
Los hijos de una etiqueta están disponibles en una lista llamada
1088
680
``.contents``::
1089
681
1090
682
 head_tag = soup.head
1091
683
 head_tag
1092
684
 # <head><title>The Dormouse's story</title></head>
1093
685
1094
686
 head_tag.contents
1095
687
 # [<title>The Dormouse's story</title>]
1096
688
1097
689
 title_tag = head_tag.contents[0]
1098
690
 title_tag
1099
691
 # <title>The Dormouse's story</title>
1100
692
 title_tag.contents
1101
693
 # ['The Dormouse's story']
1102
694
1103
695
El objeto :py:class:`BeautifulSoup` por sí solo ya tiene hijos. En este caso,
1104
696
la etiqueta <html> is hija del objeto :py:class:`BeautifulSoup`.::
1105
697
1106
698
 len(soup.contents)
1107
699
 # 1
1108
700
 soup.contents[0].name
1109
701
 # 'html'
1110
702
1111
703
Una cadena no tiene ``.contents``, porque no puede contener nada::
1112
704
1113
705
 text = title_tag.contents[0]
1114
706
 text.contents
1115
707
 # AttributeError: 'NavigableString' object has no attribute 'contents'
1116
708
1117
709
En lugar de obtenerlos como una lista, puedes iterar sobre los hijos
1118
710
de una etiqueta usando el generador ``.children``::
1119
711
1120
712
 for child in title_tag.children:
1121
713
     print(child)
1122
714
 # The Dormouse's story
1123
715
1124
716
Si quieres modificar los hijos de una etiqueta, emplea los métodos
1125
717
descritos en `Modificar el árbol`_. No modifiques la lista
1126
718
``.contents`` directamente: eso podría ocasionar problemas que pueden
1127
719
ser sutiles y difíciles de detectar.
1128
720
1129
721
 
1130
722
``.descendants``
1131
723
----------------
1132
724
1133
725
Los atributos ``.contents`` y ``.children`` tan solo consideran los
1134
726
hijos `directos` de una etiqueta. Por ejemplo, la etiqueta <head>
1135
727
tiene un único hijo directo--la etiqueta <title>::
1136
728
1137
729
 head_tag.contents
1138
730
 # [<title>The Dormouse's story</title>]
1139
731
1140
732
Pero la etiqueta <title> tiene un hijo: la cadena "The Dormouse's
1141
733
story". Puede dar la sensación de que esa cadena es también hija de
1142
734
la etiqueta <head>. El atributo ``.descendants`` te permite iterar
1143
735
sobre `todos` los hijos de una etiqueta recursivamente: sus hijos,
1144
736
hijos de sus hijos directos, y así sucesivamente::
1145
737
1146
738
 for child in head_tag.descendants:
1147
739
     print(child)
1148
740
 # <title>The Dormouse's story</title>
1149
741
 # The Dormouse's story
1150
742
1151
743
La etiqueta <head> tiene un solo hijo, pero tiene dos descendientes:
1152
744
la etiqueta <title> y el hijo de la etiqueta <title>. El objeto
1153
745
:py:class:`BeautifulSoup` tiene un hijo directo (la etiqueta <html>), pero
1154
746
tiene otros muchos descendientes::
1155
747
1156
748
 len(list(soup.children))
1157
749
 # 1
1158
750
 len(list(soup.descendants))
1159
751
 # 26
1160
752
1161
753
.. _.string:
1162
754
1163
755
``.string``
1164
756
-----------
1165
757
1166
758
Si una etiqueta tiene solo un hijo, y dicho hijo es un :py:class:`NavigableString`,
1167
759
el hijo se obtiene mediante ``.string``::
1168
760
1169
761
 title_tag.string
1170
762
 # 'The Dormouse's story'
1171
763
1172
764
Si el único hijo de una etiqueta es otra etiqueta, y `esa`
1173
765
etiqueta tiene un ``.string``, entonces se considera que
1174
766
la etiqueta madre tiene el mismo ``.string`` que su hijo::
1175
767
1176
768
 head_tag.contents
1177
769
 # [<title>The Dormouse's story</title>]
1178
770
1179
771
 head_tag.string
1180
772
 # 'The Dormouse's story'
1181
773
1182
774
Si una etiqueta contiene más una cadena, entonces no está claro
1183
775
a qué se debería referir ``.string``, así que ``.string``
1184
776
pasa a valer ``None``::
1185
777
1186
778
 print(soup.html.string)
1187
779
 # None
1188
780
1189
781
.. _string-generators:
1190
782
1191
783
``.strings`` y ``stripped_strings``
1192
784
-----------------------------------
1193
785
1194
786
Si hay más de una cosa dentro de una etiqueta, puedes seguir
1195
787
obteniendo las cadenas. Usa el generador ``.string``::
1196
788
1197
789
 for string in soup.strings:
1198
790
     print(repr(string))
1199
791
     '\n'
1200
792
 # "The Dormouse's story"
1201
793
 # '\n'
1202
794
 # '\n'
1203
795
 # "The Dormouse's story"
1204
796
 # '\n'
1205
797
 # 'Once upon a time there were three little sisters; and their names were\n'
1206
798
 # 'Elsie'
1207
799
 # ',\n'
1208
800
 # 'Lacie'
1209
801
 # ' and\n'
1210
802
 # 'Tillie'
1211
803
 # ';\nand they lived at the bottom of a well.'
1212
804
 # '\n'
1213
805
 # '...'
1214
806
 # '\n'
1215
807
1216
808
Estas cadenas tienden a tener muchos espacios en blanco extra, los
1217
809
cuales puedes quitar usando el generador ``.stripped_strings``::
1218
810
1219
811
 for string in soup.stripped_strings:
1220
812
     print(repr(string))
1221
813
 # "The Dormouse's story"
1222
814
 # "The Dormouse's story"
1223
815
 # 'Once upon a time there were three little sisters; and their names were'
1224
816
 # 'Elsie'
1225
817
 # ','
1226
818
 # 'Lacie'
1227
819
 # 'and'
1228
820
 # 'Tillie'
1229
821
 # ';\n and they lived at the bottom of a well.'
1230
822
 # '...'
1231
823
1232
824
Aquí, las cadenas que consisten completamente en espacios en blanco
1233
825
se ignoran, y espacios en blanco al principio y final de las cadenas
1234
826
se eliminan.
1235
827
1236
828
Subir
1237
829
=====
1238
830
1239
831
Continuando con la analogía del árbol genealógico, toda etiqueta
1240
832
tiene una `madre`: la etiqueta que la contiene.
1241
833
1242
834
.. _.parent:
1243
835
1244
836
``.parent``
1245
837
-----------
1246
838
1247
839
Puedes acceder a la madre de una etiqueta con el atributo ``.parent``. En
1248
840
el ejemplo de "Las tres hermanas", la etiqueta <head> es la madre
1249
841
de la etiqueta <title>::
1250
842
1251
843
 title_tag = soup.title
1252
844
 title_tag
1253
845
 # <title>The Dormouse's story</title>
1254
846
 title_tag.parent
1255
847
 # <head><title>The Dormouse's story</title></head>
1256
848
1257
849
El texto de título tiene una madre: la etiqueta <title> que lo
1258
850
contiene::
1259
851
1260
852
 title_tag.string.parent
1261
853
 # <title>The Dormouse's story</title>
1262
854
1263
855
La madre de una etiqueta de alto nivel como <html> es el objeto :py:class:`BeautifulSoup`
1264
856
mismo::
1265
857
1266
858
 html_tag = soup.html
1267
859
 type(html_tag.parent)
1268
860
 # <class 'bs4.BeautifulSoup'>
1269
861
1270
862
Y el ``.parent`` de un objeto :py:class:`BeautifulSoup` se define como ``None``::
1271
863
1272
864
 print(soup.parent)
1273
865
 # None
1274
866
1275
867
.. _.parents:
1276
868
1277
869
``.parents``
1278
870
------------
1279
871
1280
872
Puedes iterar sobre todas las madres de los elementos con
1281
873
``.parents``. Este ejemplo usa ``.parent`` para moverse' de una
1282
874
etiqueta <a> en medio del documento a lo más alto del documento::
1283
875
1284
876
 link = soup.a
1285
877
 link
1286
878
 # <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
1287
879
 for parent in link.parents:
1288
880
     print(parent.name)
1289
881
 # p
1290
882
 # body
1291
883
 # html
1292
884
 # [document]
1293
885
1294
886
Hacia los lados
1295
887
===============
1296
888
1297
889
Considera un documento sencillo como este::
1298
890
1299
891
 sibling_soup = BeautifulSoup("<a><b>text1</b><c>text2</c></a>", 'html.parser')
1300
892
 print(sibling_soup.prettify())
1301
893
 #   <a>
1302
894
 #    <b>
1303
895
 #     text1
1304
896
 #    </b>
1305
897
 #    <c>
1306
898
 #     text2
1307
899
 #    </c>
1308
900
 #   </a>
1309
901
1310
902
Las etiquetas <b> y <c> están al mismo nivel: son hijas directas de la misma
1311
903
etiqueta. Las llamamos `hermanas`. Cuando un documento está bien formateado,
1312
904
las hermanas están al mismo nivel de sangría. Puedes usar también esta
1313
905
relación en el código que escribas.
1314
906
1315
907
``.next_sibling`` y ``.previous_sibling``
1316
908
-----------------------------------------
1317
909
1318
910
Puedes usar ``.next_sibling`` y ``.previous_sibling`` para navegar
1319
911
entre elementos de la página que están al mismo nivel del árbol
1320
912
analizado::
1321
913
1322
914
 sibling_soup.b.next_sibling
1323
915
 # <c>text2</c>
1324
916
1325
917
 sibling_soup.c.previous_sibling
1326
918
 # <b>text1</b>
1327
919
1328
920
La etiqueta <b> tiene un ``.next_sibling``, pero no ``.previous_sibling``,
1329
921
porque no hay nada antes de la etiqueta <b> `al mismo nivel del árbol`.
1330
922
Por la misma razón, la etiqueta <c> tiene un ``.previous_sibling`` pero no
1331
923
un ``.next_sibling``::
1332
924
1333
925
 print(sibling_soup.b.previous_sibling)
1334
926
 # None
1335
927
 print(sibling_soup.c.next_sibling)
1336
928
 # None
1337
929
1338
930
Las cadenas "text1" y "text2" `no` son hermanas, porque no tienen la misma
1339
931
madre::
1340
932
1341
933
 sibling_soup.b.string
1342
934
 # 'text1'
1343
935
1344
936
 print(sibling_soup.b.string.next_sibling)
1345
937
 # None
1346
938
1347
939
En documentos reales, los ``.next_sibling`` o ``.previous_sibling`` de
1348
940
una etiqueta normalmente serán cadenas que contengan espacios en blanco.
1349
941
Retomando el documento de "Las tres hermanas"::
1350
942
1351
943
 # <a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
1352
944
 # <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
1353
945
 # <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
1354
946
1355
947
Podrías pensar que la ``.next_sibling`` de la primera etiqueta <a> podría
1356
948
ser la segunda etiqueta <a>. Pero realmente es una cadena de caracteres:
1357
949
la coma y el salto de línea que separan la primera etiqueta <a> de la
1358
950
segunda::
1359
951
1360
952
 link = soup.a
1361
953
 link
1362
954
 # <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
1363
955
1364
956
 link.next_sibling
1365
957
 # ',\n '
1366
958
1367
959
La segunda etiqueta <a> es realmente la ``.next_sibling`` de la coma::
1368
960
1369
961
 link.next_sibling.next_sibling
1370
962
 # <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>
1371
963
1372
964
.. _sibling-generators:
1373
965
1374
966
``.next_siblings`` y ``.previous_siblings``
1375
967
-------------------------------------------
1376
968
1377
969
Puedes iterar sobre las hermanas de una etiqueta con ``.next_siblings`` o
1378
970
``.previuos_siblings``::
1379
971
1380
972
 for sibling in soup.a.next_siblings:
1381
973
     print(repr(sibling))
1382
974
 # ',\n'
1383
975
 # <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>
1384
976
 # ' and\n'
1385
977
 # <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>
1386
978
 # '; and they lived at the bottom of a well.'
1387
979
1388
980
 for sibling in soup.find(id="link3").previous_siblings:
1389
981
     print(repr(sibling))
1390
982
 # ' and\n'
1391
983
 # <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>
1392
984
 # ',\n'
1393
985
 # <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
1394
986
 # 'Once upon a time there were three little sisters; and their names were\n'
1395
987
1396
988
Hacia delante y hacia atrás
1397
989
===========================
1398
990
1399
991
Échale un vistazo al comienzo del documento de "Las tres hermanas"::
1400
992
1401
993
 # <html><head><title>The Dormouse's story</title></head>
1402
994
 # <p class="title"><b>The Dormouse's story</b></p>
1403
995
1404
996
Un analizador HTML toma esta cadena de caracteres y la convierte en
1405
997
una serie de eventos: "se abre una etiqueta <html>", "se abre una
1406
998
etiqueta <head>", "se abre una etiqueta <title>", "se añade una cadena",
1407
999
"se cierra la etiqueta <title>", "se abre una etiqueta <p>" y así
1408
1000
sucesivamente. Beautiful Soup ofrece herramientas para reconstruir
1409
1001
el análisis inicial del documento.
1410
1002
1411
1003
.. _element-generators:
1412
1004
1413
1005
``.next_element`` y ``.previous_element``
1414
1006
-----------------------------------------
1415
1007
1416
1008
El atributo ``.next_element`` de una cadena o etiqueta apunta a cualquiera
1417
1009
que fue analizado inmediatamente después. Podría ser igual que ``.next_sibling``,
1418
1010
pero normalmente es drásticamente diferente.
1419
1011
1420
1012
Aquí está la etiqueta final <a> en el documento de "Las tres hermanas".
1421
1013
Su ``..next_sibling`` es una cadena: la terminación de la oración fue
1422
1014
interrumpida por el comienzo de la etiqueta <a>.::
1423
1015
1424
1016
 last_a_tag = soup.find("a", id="link3")
1425
1017
 last_a_tag
1426
1018
 # <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>
1427
1019
1428
1020
 last_a_tag.next_sibling
1429
1021
 # ';\nand they lived at the bottom of a well.'
1430
1022
1431
1023
Pero el ``.next_element`` de esa etiqueta <a>, lo que fue analizado
1432
1024
inmediatamente después de la etiqueta <a>, `no` es el resto de la
1433
1025
oración: es la palabra "Tillie"::
1434
1026
1435
1027
 last_a_tag.next_element
1436
1028
 # 'Tillie'
1437
1029
1438
1030
Esto se debe a que en el marcado original, la palabra "Tillie"
1439
1031
aparece antes del punto y coma. El analizador se encontró con
1440
1032
una etiqueta <a>, después la palabra "Tillie", entonces la etiqueta
1441
1033
de cierre </a>, después el punto y coma y el resto de la oración.
1442
1034
El punto y coma está al mismo nivel que la etiqueta <a>, pero
1443
1035
la palabra "Tillie" se encontró primera.
1444
1036
1445
1037
El atributo ``.previous_element`` es exactamente el opuesto
1446
1038
de ``.next_element``. Apunta a cualquier elemento que
1447
1039
fue analizado inmediatamente antes que este::
1448
1040
1449
1041
 last_a_tag.previous_element
1450
1042
 # ' and\n'
1451
1043
 last_a_tag.previous_element.next_element
1452
1044
 # <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>
1453
1045
1454
1046
``.next_elements`` y ``.previous_elements``
1455
1047
-------------------------------------------
1456
1048
1457
1049
Ya te estarás haciendo a la idea. Puedes usar estos iteradores
1458
1050
para moverte hacia delante y hacia atrás en el documento tal y como
1459
1051
fue analizado::
1460
1052
1461
1053
 for element in last_a_tag.next_elements:
1462
1054
     print(repr(element))
1463
1055
 # 'Tillie'
1464
1056
 # ';\nand they lived at the bottom of a well.'
1465
1057
 # '\n'
1466
1058
 # <p class="story">...</p>
1467
1059
 # '...'
1468
1060
 # '\n'
1469
1061
1470
1062
======================
1471
1063
 Buscar en el árbol
1472
1064
======================
1473
1065
1474
1066
Beautiful Soup define una gran cantidad de métodos para buscar en
1475
1067
el árbol analizado, pero todos son muy similares. Dedicaré mucho
1476
1068
tiempo explicando los dos métodos más populares: ``find()`` y
1477
1069
``find_all()``. Los otros métodos toman casi los mismos argumentos,
1478
1070
así que los cubriré brevemente.
1479
1071
1480
1072
De nuevo, usaré el documento de "Las tres hermanas" como ejemplo::
1481
1073
1482
1074
 html_doc = """
1483
1075
 <html><head><title>The Dormouse's story</title></head>
1484
1076
 <body>
1485
1077
 <p class="title"><b>The Dormouse's story</b></p>
1486
1078
1487
1079
 <p class="story">Once upon a time there were three little sisters; and their names were
1488
1080
 <a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
1489
1081
 <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
1490
1082
 <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
1491
1083
 and they lived at the bottom of a well.</p>
1492
1084
1493
1085
 <p class="story">...</p>
1494
1086
 """
1495
1087
1496
1088
 from bs4 import BeautifulSoup
1497
1089
 soup = BeautifulSoup(html_doc, 'html.parser')
1498
1090
1499
1091
Empleando en un filtro un argumento como ``find_all()``, puedes
1500
1092
"acercar" aquellas partes del documento en las que estés interesado.
1501
1093
1502
1094
Tipos de filtros
1503
1095
================
1504
1096
1505
1097
Antes de entrar en detalle sobre ``find_all()`` y métodos similares,
1506
1098
me gustaría mostrar ejemplos de diferentes filtros que puedes
1507
1099
utilizar en estos métodos. Estos filtros aparecen una y otra vez a lo
1508
1100
largo de la API. Puedes usarlos para filtrar basándote en el nombre de
1509
1101
una etiqueta, en sus atributos, en el texto de una cadena, o en alguna
1510
1102
combinación de estos.
1511
1103
1512
1104
.. _a string:
1513
1105
1514
1106
Una cadena
1515
1107
----------
1516
1108
1517
1109
El filtro más simple es una cadena. Pasa una cadena a un método de
1518
1110
búsqueda y Beautiful Soup buscará un resultado para esa cadena
1519
1111
exactamente. Este código encuentra todas las etiquetas <b> en el
1520
1112
documento::
1521
1113
1522
1114
 soup.find_all('b')
1523
1115
 # [<b>The Dormouse's story</b>]
1524
1116
1525
1117
Si pasas un cadena de *bytes*, Beautiful Soup asumirá que la cadena
1526
1118
está codificada como UTF-8. Puedes evitar esto pasando una cadena
1527
1119
Unicode.
1528
1120
1529
1121
.. _a regular expression:
1530
1122
1531
1123
Una expresión regular
1532
1124
---------------------
1533
1125
1534
1126
Si pasas un objeto que sea una expresión regular, Beautiful Soup filtrará
1535
1127
mediante dicho expresión regular usando si su método ``search()``. Este
1536
1128
código encuentra todas las etiquetas cuyo nombre empiece por la letra
1537
1129
"b"; en este caso, las etiquetas <body> y <b>::
1538
1130
1539
1131
 import re
1540
1132
 for tag in soup.find_all(re.compile("^b")):
1541
1133
     print(tag.name)
1542
1134
 # body
1543
1135
 # b
1544
1136
1545
1137
Este código encuentra todas las etiquetas cuyo nombre contiene
1546
1138
la letra 't'::
1547
1139
1548
1140
 for tag in soup.find_all(re.compile("t")):
1549
1141
     print(tag.name)
1550
1142
 # html
1551
1143
 # title
1552
1144
1553
1145
.. _a list:
1554
1146
1555
1147
Una lista
1556
1148
---------
1557
1149
1558
1150
Si pasas una lista, Beautiful Soup hará una búsqueda por cadenas
1559
1151
con `cualquier` elemento en dicha lista. Este código encuentra
1560
1152
todas las etiquetas <a> `y` todas las etiquetas <b>::
1561
1153
1562
1154
 soup.find_all(["a", "b"])
1563
1155
 # [<b>The Dormouse's story</b>,
1564
1156
 #  <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
1565
1157
 #  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
1566
1158
 #  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
1567
1159
1568
1160
.. _the value True:
1569
1161
1570
1162
``True``
1571
1163
--------
1572
1164
1573
1165
El valor ``True`` empareja todo lo que pueda. Este código encuentra
1574
1166
``todas`` las etiquetas del documento, pero ninguna de las cadenas
1575
1167
de texto::
1576
1168
1577
1169
 for tag in soup.find_all(True):
1578
1170
     print(tag.name)
1579
1171
 # html
1580
1172
 # head
1581
1173
 # title
1582
1174
 # body
1583
1175
 # p
1584
1176
 # b
1585
1177
 # p
1586
1178
 # a
1587
1179
 # a
1588
1180
 # a
1589
1181
 # p
1590
1182
1591
1183
.. a function:
1592
1184
1593
1185
Una función
1594
1186
-----------
1595
1187
1596
1188
Si ninguna de las formas de búsqueda anteriores te sirven, define
1597
1189
una función que tome un elemento como su único argumento. La función
1598
1190
debería devolver ``True`` si el argumento se corresponde con lo indicado
1599
1191
en la función, y ``Falso`` en cualquier otro caso.
1600
1192
1601
1193
Esta es una función que devuelve ``True`` si una etiqueta tiene
1602
1194
definida el atributo "class" pero no el atributo "id"::
1603
1195
1604
1196
 def has_class_but_no_id(tag):
1605
1197
     return tag.has_attr('class') and not tag.has_attr('id')
1606
1198
1607
1199
Pasa esta función a ``find_all()`` y obtendrás todas las etiquetas
1608
1200
<p>::
1609
1201
1610
1202
 soup.find_all(has_class_but_no_id)
1611
1203
 # [<p class="title"><b>The Dormouse's story</b></p>,
1612
1204
 #  <p class="story">Once upon a time there were…bottom of a well.</p>,
1613
1205
 #  <p class="story">...</p>]
1614
1206
1615
1207
Esta función solo devuelve las etiquetas <p>. No obtiene las etiquetas
1616
1208
<a>, porque esas etiquetas definen ambas "class" y "id". No devuelve
1617
1209
etiquetas como <html> y <title> porque dichas etiquetas no definen
1618
1210
"class".
1619
1211
1620
1212
Si pasas una función para filtrar un atributo en específico como
1621
1213
``href``, el argumento que se pasa a la función será el valor de
1622
1214
dicho atributo, no toda la etiqueta. Esta es una función que
1623
1215
encuentra todas las etiquetas <a> cuyo atributo ``href`` *no*
1624
1216
empareja con una expresión regular::
1625
1217
1626
1218
 import re
1627
1219
 def not_lacie(href):
1628
1220
     return href and not re.compile("lacie").search(href)
1629
1221
 
1630
1222
 soup.find_all(href=not_lacie)
1631
1223
 # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
1632
1224
 #  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
1633
1225
1634
1226
La función puede ser tan complicada como la necesites. Esta es una
1635
1227
función que devuelve ``True`` si una etiqueta está rodeada por
1636
1228
objetos *string*::
1637
1229
1638
1230
 from bs4 import NavigableString
1639
1231
 def surrounded_by_strings(tag):
1640
1232
     return (isinstance(tag.next_element, NavigableString)
1641
1233
             and isinstance(tag.previous_element, NavigableString))
1642
1234
1643
1235
 for tag in soup.find_all(surrounded_by_strings):
1644
1236
     print(tag.name)
1645
1237
 # body
1646
1238
 # p
1647
1239
 # a
1648
1240
 # a
1649
1241
 # a
1650
1242
 # p
1651
1243
1652
1244
Ahora ya estamos listos para entrar en detalle en los métodos
1653
1245
de búsqueda.
1654
1246
1655
1247
``find_all()``
1656
1248
==============
1657
1249
1658
1250
Firma del método: find_all(:ref:`name <name>`, :ref:`attrs <attrs>`, :ref:`recursive
1659
1251
<recursive>`, :ref:`string <string>`, :ref:`limit <limit>`, :ref:`**kwargs <kwargs>`)
1660
1252
1661
1253
El método ``find_all()`` busca por los descendientes de una etiqueta y
1662
1254
obtiene `todos` aquellos que casan con tus filtros. He mostrado varios
1663
1255
ejemplos en `Tipos de filtros`_, pero aquí hay unos cuantos más::
1664
1256
1665
1257
 soup.find_all("title")
1666
1258
 # [<title>The Dormouse's story</title>]
1667
1259
1668
1260
 soup.find_all("p", "title")
1669
1261
 # [<p class="title"><b>The Dormouse's story</b></p>]
1670
1262
1671
1263
 soup.find_all("a")
1672
1264
 # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
1673
1265
 #  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
1674
1266
 #  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
1675
1267
1676
1268
 soup.find_all(id="link2")
1677
1269
 # [<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]
1678
1270
1679
1271
 import re
1680
1272
 soup.find(string=re.compile("sisters"))
1681
1273
 # 'Once upon a time there were three little sisters; and their names were\n'
1682
1274
1683
1275
Algunos de estos deberían ser familiares, pero otros son nuevos.
1684
1276
¿Qué significa pasar un valor para ``string``, o ``id``? ¿Por qué
1685
1277
``find_all("p", "title")`` encuentra una etiqueta <p> con la clase
1686
1278
CSS "title"? Echemos un vistazo a los argumentos de ``find_all()``.
1687
1279
1688
1280
.. _name:
1689
1281
1690
1282
El argumento ``name``
1691
1283
---------------------
1692
1284
1693
1285
Pasa un valor para ``name`` y notarás que Beautiful Soup solo
1694
1286
considera etiquetas con ciertos nombres. Las cadenas de texto se
1695
1287
ignorarán, como aquellas etiquetas cuyo nombre no emparejen.
1696
1288
1697
1289
Este es el uso más simple::
1698
1290
1699
1291
 soup.find_all("title")
1700
1292
 # [<title>The Dormouse's story</title>]
1701
1293
1702
1294
Recuerda de `Tipos de filtros`_ que el valor para ``name`` puede ser
1703
1295
`una cadena`_, `una expresión regular`_, `una lista`_, `una función`_,
1704
1296
o el valor `True`_.
1705
1297
1706
1298
.. _kwargs:
1707
1299
1708
1300
El argumento palabras-clave
1709
1301
---------------------------
1710
1302
1711
1303
Cualquier argumento que no se reconozca se tomará como un filtro para alguno
1712
1304
de los atributos de una etiqueta. Si pasas un valor para un argumento llamado
1713
1305
``id``, Beautiful Soup filtrará el atributo 'id' de cada una de las etiquetas::
1714
1306
1715
1307
 soup.find_all(id='link2')
1716
1308
 # [<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]
1717
1309
1718
1310
Si pasas un valor para ``href``, Beautiful Soup filtrará
1719
1311
el atributo ``href`` de cada uno de las etiquetas::
1720
1312
1721
1313
 soup.find_all(href=re.compile("elsie"))
1722
1314
 # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]
1723
1315
1724
1316
Puedes filtrar un atributo basándote en `una cadena`_,
1725
1317
`una expresión regular`_, `una lista`_, `una función`_, o el valor
1726
1318
`True`_.
1727
1319
1728
1320
Este código busca todas las etiquetas cuyo atributo ``id`` tiene
1729
1321
un valor, sin importar qué valor es::
1730
1322
1731
1323
 soup.find_all(id=True)
1732
1324
 # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
1733
1325
 #  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
1734
1326
 #  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
1735
1327
1736
1328
Puedes filtrar varios atributos al mismo tiempo pasando más de un argumento
1737
1329
palabra-clave::
1738
1330
1739
1331
 soup.find_all(href=re.compile("elsie"), id='link1')
1740
1332
 # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]
1741
1333
1742
1334
Algunos atributos, como los atributos data-* en HTML5, tienen nombres que
1743
1335
no pueden ser usados como nombres de argumentos palabra-clave::
1744
1336
1745
1337
 data_soup = BeautifulSoup('<div data-foo="value">foo!</div>', 'html.parser')
1746
1338
 data_soup.find_all(data-foo="value")
1747
1339
 # SyntaxError: keyword can't be an expression
1748
1340
1749
1341
Puedes usar estos atributos en búsquedas insertándolos en un diccionario
1750
1342
y pasándolo a ``find_all()`` como el argumento ``attrs``::
1751
1343
1752
1344
 data_soup.find_all(attrs={"data-foo": "value"})
1753
1345
 # [<div data-foo="value">foo!</div>]
1754
1346
1755
1347
No puedes usar un argumento palabra-clave para buscar por el nombre
1756
1348
HTML de un elemento, porque BeautifulSoup usa el argumento ``name``
1757
1349
para guardar el nombre de la etiqueta. En lugar de esto, puedes
1758
1350
darle valor a 'name' en el argumento ``attrs``::
1759
1351
1760
1352
 name_soup = BeautifulSoup('<input name="email"/>', 'html.parser')
1761
1353
 name_soup.find_all(name="email")
1762
1354
 # []
1763
1355
 name_soup.find_all(attrs={"name": "email"})
1764
1356
 # [<input name="email"/>]
1765
1357
1766
1358
.. _attrs:
1767
1359
1768
1360
Buscando por clase CSS
1769
1361
----------------------
1770
1362
1771
1363
Es muy útil para buscar una etiqueta que tenga una clase CSS específica,
1772
1364
pero el nombre del atributo CSS, "class", es una palabra reservada de
1773
1365
Python. Usar ``class`` como argumento ocasionaría un error sintáctico.
1774
1366
Desde Beautiful Soup 4.1.2, se puede buscar por una clase CSS usando
1775
1367
el argumento palabra-clave ``class_``::
1776
1368
1777
1369
 soup.find_all("a", class_="sister")
1778
1370
 # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
1779
1371
 #  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
1780
1372
 #  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
1781
1373
1782
1374
Como con cualquier argumento palabra-clave, puede pasar una cadena
1783
1375
de caracteres a ``class_``, una expresión regular, una función, o
1784
1376
``True``::
1785
1377
1786
1378
 soup.find_all(class_=re.compile("itl"))
1787
1379
 # [<p class="title"><b>The Dormouse's story</b></p>]
1788
1380
1789
1381
 def has_six_characters(css_class):
1790
1382
     return css_class is not None and len(css_class) == 6
1791
1383
1792
1384
 soup.find_all(class_=has_six_characters)
1793
1385
 # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
1794
1386
 #  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
1795
1387
 #  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
1796
1388
1797
1389
:ref:`Recuerda <multivalue>` que una sola etiqueta puede tener varios
1798
1390
valores para su atributo "class". Cuando se busca por una etiqueta
1799
1391
que case una cierta clase CSS, se está intentando emparejar por
1800
1392
`cualquiera` de sus clases CSS::
1801
1393
1802
1394
 css_soup = BeautifulSoup('<p class="body strikeout"></p>', 'html.parser')
1803
1395
 css_soup.find_all("p", class_="strikeout")
1804
1396
 # [<p class="body strikeout"></p>]
1805
1397
1806
1398
 css_soup.find_all("p", class_="body")
1807
1399
 # [<p class="body strikeout"></p>]
1808
1400
1809
1401
Puedes también buscar por la cadena de caracteres exacta del atributo
1810
1402
``class``::
1811
1403
1812
1404
 css_soup.find_all("p", class_="body strikeout")
1813
1405
 # [<p class="body strikeout"></p>]
1814
1406
1815
1407
Pero buscar por variantes de la cadena de caracteres no funcionará::
1816
1408
1817
1409
 css_soup.find_all("p", class_="strikeout body")
1818
1410
 # []
1819
1411
1820
1412
Si quieres buscar por las etiquetas que casen dos o más clases CSS,
1821
1413
deberías usar un selector CSS::
1822
1414
1823
1415
 css_soup.select("p.strikeout.body")
1824
1416
 # [<p class="body strikeout"></p>]
1825
1417
1826
1418
En versiones antiguas de Beautiful Soup, que no soportan el
1827
1419
atajo ``class_``, puedes usar el truco del ``attrs`` mencionado
1828
1420
arriba. Crea un diccionario cuyo valor para "class" sea la
1829
1421
cadena de caracteres (o expresión regular, o lo que sea) que
1830
1422
quieras buscar::
1831
1423
1832
1424
 soup.find_all("a", attrs={"class": "sister"})
1833
1425
 # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
1834
1426
 #  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
1835
1427
 #  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
1836
1428
1837
1429
.. _string:
1838
1430
1839
1431
El argumento ``string``
1840
1432
-----------------------
1841
1433
1842
1434
Con ``string`` puedes buscar por cadenas de caracteres en vez de
1843
1435
etiquetas. Como con ``name`` y argumentos palabras-clave, puedes
1844
1436
pasar `una cadena`_, `una expresión regular`_, `una lista`_, `una
1845
1437
función`_, o el valor `True`_.
1846
1438
Aquí hay algunos ejemplos::
1847
1439
1848
1440
 soup.find_all(string="Elsie")
1849
1441
 # ['Elsie']
1850
1442
1851
1443
 soup.find_all(string=["Tillie", "Elsie", "Lacie"])
1852
1444
 # ['Elsie', 'Lacie', 'Tillie']
1853
1445
1854
1446
 soup.find_all(string=re.compile("Dormouse"))
1855
1447
 # ["The Dormouse's story", "The Dormouse's story"]
1856
1448
1857
1449
 def is_the_only_string_within_a_tag(s):
1858
1450
     """Return True if this string is the only child of its parent tag."""
1859
1451
     return (s == s.parent.string)
1860
1452
1861
1453
 soup.find_all(string=is_the_only_string_within_a_tag)
1862
1454
 # ["The Dormouse's story", "The Dormouse's story", 'Elsie', 'Lacie', 'Tillie', '...']
1863
1455
1864
1456
1865
1457
Aunque ``string`` es para encontrar cadenas, puedes combinarlo
1866
1458
con argumentos que permitan buscar etiquetas: Beautiful Soup
1867
1459
encontrará todas las etiquetas cuyo ``.string`` case con tu valor
1868
1460
para ``string``. Este código encuentra las etiquetas <a> cuyo
1869
1461
``.string`` es "Elsie"::
1870
1462
1871
1463
 soup.find_all("a", string="Elsie")
1872
1464
 # [<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>]
1873
1465
1874
1466
El argumento ``string`` es nuevo en Beautiful Soup 4.4.0. En versiones
1875
1467
anteriores se llamaba ``text``::
1876
1468
1877
1469
 soup.find_all("a", text="Elsie")
1878
1470
 # [<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>]
1879
1471
1880
1472
.. _limit:
1881
1473
1882
1474
El argumento``limit``
1883
1475
---------------------
1884
1476
1885
1477
``find_all()`` devuelve todas las etiquetas y cadenas que emparejan
1886
1478
con tus filtros. Esto puede tardar un poco si el documento es grande.
1887
1479
Si no necesitas `todos` los resultados, puedes pasar un número para
1888
1480
``limit``. Esto funciona tal y como lo hace la palabra LIMIT en SQL.
1889
1481
Indica a Beautiful Soup dejar de obtener resultados después de
1890
1482
haber encontrado un cierto número.
1891
1483
1892
1484
Hay tres enlaces en el documento de "Las tres hermanas", pero este
1893
1485
código tan solo obtiene los dos primeros::
1894
1486
1895
1487
 soup.find_all("a", limit=2)
1896
1488
 # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
1897
1489
 #  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]
1898
1490
1899
1491
.. _recursive:
1900
1492
1901
1493
El argumento ``recursive``
1902
1494
--------------------------
1903
1495
1904
1496
Si llamas a ``mytag.find_all()``, Beautiful Soup examinará todos los
1905
1497
descendientes de ``mytag``: sus hijos, los hijos de sus hijos, y
1906
1498
así sucesivamente. Si solo quieres que Beautiful Soup considere
1907
1499
hijos directos, puedes pasar ``recursive=False``. Observa las
1908
1500
diferencias aquí::
1909
1501
1910
1502
 soup.html.find_all("title")
1911
1503
 # [<title>The Dormouse's story</title>]
1912
1504
1913
1505
 soup.html.find_all("title", recursive=False)
1914
1506
 # []
1915
1507
1916
1508
Aquí está esa parte del documento::
1917
1509
1918
1510
 <html>
1919
1511
  <head>
1920
1512
   <title>
1921
1513
    The Dormouse's story
1922
1514
   </title>
1923
1515
  </head>
1924
1516
 ...
1925
1517
1926
1518
La etiqueta <title> va después de la etiqueta <html>, pero no está
1927
1519
`directamente` debajo de la etiqueta <html>: la etiqueta <head>
1928
1520
está en medio de ambas. Beautiful Soup encuentra la etiqueta <title> cuando
1929
1521
se permite observar todos los descendientes de la etiqueta <html>,
1930
1522
pero cuando ``recursive=False`` restringe a los hijos directos
1931
1523
de la etiqueta <html>, no se encuentra nada.
1932
1524
1933
1525
Beautiful Soup ofrece mucho métodos de análisis del árbol (descritos
1934
1526
más adelante), y la mayoría toman los mismos argumentos que ``find_all()``:
1935
1527
``name``, ``attrs``, ``string``, ``limit``, y los argumentos
1936
1528
palabras-clave. Pero el argumento ``recursive`` es diferente:
1937
1529
``find_all()`` y ``find()`` son los únicos métodos que lo soportan.
1938
1530
Pasar ``recursive=False`` en un método como ``find_parents()`` no sería
1939
1531
muy útil.
1940
1532
1941
1533
Llamar a una etiqueta es como llamar a ``find_all()``
1942
1534
=====================================================
1943
1535
1944
1536
Como ``find_all()`` es el método más popular en la API de búsqueda
1945
1537
de Beautiful Soup, puedes usar un atajo para usarlo. Si utilizas
1946
1538
el objeto :py:class:`BeautifulSoup` o un objeto :py:class:`Tag`
1947
1539
como si fuesen una función, entonces es lo mismo que llamar a
1948
1540
``find_all()`` en esos objetos. Estos dos líneas de código son
1949
1541
equivalentes::
1950
1542
1951
1543
 soup.find_all("a")
1952
1544
 soup("a")
1953
1545
1954
1546
Estas dos líneas de código son también equivalentes::
1955
1547
1956
1548
 soup.title.find_all(string=True)
1957
1549
 soup.title(string=True)
1958
1550
1959
1551
``find()``
1960
1552
==========
1961
1553
1962
1554
Firma del método: find(:ref:`name <name>`, :ref:`attrs <attrs>`, :ref:`recursive
1963
1555
<recursive>`, :ref:`string <string>`, :ref:`**kwargs <kwargs>`)
1964
1556
1965
1557
El método ``find_all()`` examina todo el documento buscando por
1966
1558
resultados, pero a veces solo quieres encontrar un resultado.
1967
1559
Si sabes que un documento solo tiene una etiqueta <body>, es una
1968
1560
pérdida de tiempo examinar todo el documento buscando más
1969
1561
emparejamientos. En lugar de pasar ``limit=1`` siempre que se llame
1970
1562
a ``find_all(), puedes usar el método ``find()``. Estas dos líneas
1971
1563
de código son `casi` equivalentes::
1972
1564
1973
1565
 soup.find_all('title', limit=1)
1974
1566
 # [<title>The Dormouse's story</title>]
1975
1567
1976
1568
 soup.find('title')
1977
1569
 # <title>The Dormouse's story</title>
1978
1570
1979
1571
La única diferencia es que ``find_all()`` devuelve una lista
1980
1572
conteniendo un resultado, y ``find()`` devuelve solo el resultado.
1981
1573
1982
1574
Si ``find_all()`` no encuentra nada, devuelve una lista vacía. Si
1983
1575
``find()`` no encuentra nada, devuelve ``None``::
1984
1576
1985
1577
 print(soup.find("nosuchtag"))
1986
1578
 # None
1987
1579
1988
1580
¿Recuerdas el truco de ``soup.head.title`` de `Navegar usando nombres
1989
1581
de etiquetas`_? Ese truco funciona porque se llama repetidamente a
1990
1582
``find()``::
1991
1583
1992
1584
 soup.head.title
1993
1585
 # <title>The Dormouse's story</title>
1994
1586
1995
1587
 soup.find("head").find("title")
1996
1588
 # <title>The Dormouse's story</title>
1997
1589
1998
1590
``find_parents()`` y ``find_parent()``
1999
1591
======================================
2000
1592
2001
1593
Firma del método: find_parents(:ref:`name <name>`, :ref:`attrs <attrs>`, :ref:`string <string>`, :ref:`limit <limit>`, :ref:`**kwargs <kwargs>`)
2002
1594
2003
1595
Firma del método: find_parent(:ref:`name <name>`, :ref:`attrs <attrs>`, :ref:`string <string>`, :ref:`**kwargs <kwargs>`)
2004
1596
2005
1597
He pasado bastante tiempo cubriendo ``find_all()`` y ``find()``.
2006
1598
La API de Beautiful Soup define otros diez métodos para buscar por
2007
1599
el árbol, pero no te asustes. Cinco de estos métodos son básicamente
2008
1600
iguales a ``find_all()``, y los otros cinco son básicamente
2009
1601
iguales a ``find()``. La única diferencia reside en qué partes del
2010
1602
árbol buscan.
2011
1603
2012
1604
Primero consideremos ``find_parents()`` y ``find_paren()``. Recuerda
2013
1605
que ``find_all()`` y ``find()`` trabajan bajando por el árbol,
2014
1606
examinando a los descendientes de una etiqueta. Estos métodos realizan
2015
1607
lo contrario: trabajan `subiendo` por el árbol, buscando a las madres
2016
1608
de las etiquetas (o cadenas). Probémoslos, empezando por una cadena
2017
1609
de caracteres que esté bien enterrada en el documento de "Las tres
2018
1610
hermanas"::
2019
1611
2020
1612
 a_string = soup.find(string="Lacie")
2021
1613
 a_string
2022
1614
 # 'Lacie'
2023
1615
2024
1616
 a_string.find_parents("a")
2025
1617
 # [<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]
2026
1618
2027
1619
 a_string.find_parent("p")
2028
1620
 # <p class="story">Once upon a time there were three little sisters; and their names were
2029
1621
 #  <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
2030
1622
 #  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
2031
1623
 #  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
2032
1624
 #  and they lived at the bottom of a well.</p>
2033
1625
2034
1626
 a_string.find_parents("p", class_="title")
2035
1627
 # []
2036
1628
2037
1629
Una de la tres etiquetas <a> is la madre directa de la cadena
2038
1630
en cuestión, así que nuestra búsqueda la encuentra. Una de las
2039
1631
tres etiquetas <p> es una madre indirecta de la cadena, y nuestra
2040
1632
búsqueda también la encuentra. Hay una etiqueta <p> con la clase
2041
1633
CSS "title" `en algún sitio` del documento, pero no en ninguno
2042
1634
de las madres de la cadena, así que no podemos encontrarla con
2043
1635
``find_parents()``.
2044
1636
2045
1637
Puedes haber deducido la conexión entre ``find_parent()`` y
2046
1638
``find_parents()``, y los atributos `.parent`_ y `.parents`_
2047
1639
mencionados anteriormente. La conexión es muy fuerte. Estos
2048
1640
métodos de búsqueda realmente usan ``.parents`` para iterar
2049
1641
sobre todas las madres, y comprobar cada una con el filtro
2050
1642
provisto para ver si emparejan.
2051
1643
2052
1644
``find_next_siblings()`` y ``find_next_sibling()``
2053
1645
==================================================
2054
1646
2055
1647
Firma del método: find_next_siblings(:ref:`name <name>`, :ref:`attrs <attrs>`, :ref:`string <string>`, :ref:`limit <limit>`, :ref:`**kwargs <kwargs>`)
2056
1648
2057
1649
Firma del método: find_next_sibling(:ref:`name <name>`, :ref:`attrs <attrs>`, :ref:`string <string>`, :ref:`**kwargs <kwargs>`)
2058
1650
2059
1651
Estos métodos usan :ref:`next_siblings <sibling-generators>`
2060
1652
para iterar sobre el resto de los hermanos de un elemento en el
2061
1653
árbol. El método ``find_next_siblings()`` devuelve todos los
2062
1654
hermanos que casen, y ``find_next_sibling()`` solo devuelve
2063
1655
el primero de ellos::
2064
1656
2065
1657
 first_link = soup.a
2066
1658
 first_link
2067
1659
 # <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
2068
1660
2069
1661
 first_link.find_next_siblings("a")
2070
1662
 # [<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
2071
1663
 #  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
2072
1664
2073
1665
 first_story_paragraph = soup.find("p", "story")
2074
1666
 first_story_paragraph.find_next_sibling("p")
2075
1667
 # <p class="story">...</p>
2076
1668
2077
1669
``find_previous_siblings()`` y ``find_previous_sibling()``
2078
1670
==========================================================
2079
1671
2080
1672
Firma del método: find_previous_siblings(:ref:`name <name>`, :ref:`attrs <attrs>`, :ref:`string <string>`, :ref:`limit <limit>`, :ref:`**kwargs <kwargs>`)
2081
1673
2082
1674
Firma del método: find_previous_sibling(:ref:`name <name>`, :ref:`attrs <attrs>`, :ref:`string <string>`, :ref:`**kwargs <kwargs>`)
2083
1675
2084
1676
Estos métodos emplean :ref:`.previous_siblings <sibling-generators>` para iterar sobre
2085
1677
los hermanos de un elemento que les precede en el árbol. El método
2086
1678
``find_previous_siblings()`` devuelve todos los hermanos que emparejan, y
2087
1679
``find_previous_sibling()`` solo devuelve el primero de ellos::
2088
1680
2089
1681
 last_link = soup.find("a", id="link3")
2090
1682
 last_link
2091
1683
 # <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>
2092
1684
2093
1685
 last_link.find_previous_siblings("a")
2094
1686
 # [<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
2095
1687
 #  <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]
2096
1688
2097
1689
 first_story_paragraph = soup.find("p", "story")
2098
1690
 first_story_paragraph.find_previous_sibling("p")
2099
1691
 # <p class="title"><b>The Dormouse's story</b></p>
2100
1692
2101
1693
2102
1694
``find_all_next()`` y ``find_next()``
2103
1695
=====================================
2104
1696
2105
1697
Firma del método: find_all_next(:ref:`name <name>`, :ref:`attrs <attrs>`, :ref:`string <string>`, :ref:`limit <limit>`, :ref:`**kwargs <kwargs>`)
2106
1698
2107
1699
Firma del método: find_next(:ref:`name <name>`, :ref:`attrs <attrs>`, :ref:`string <string>`, :ref:`**kwargs <kwargs>`)
2108
1700
2109
1701
Estos métodos usan :ref:`.next_elements <element-generators>` para
2110
1702
iterar sobre cualesquiera etiquetas y cadenas que vayan después
2111
1703
de ella en el documento. El método ``find_all_next()`` devuelve
2112
1704
todos los resultados, y ``find_next()`` solo devuelve el primero::
2113
1705
2114
1706
 first_link = soup.a
2115
1707
 first_link
2116
1708
 # <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
2117
1709
2118
1710
 first_link.find_all_next(string=True)
2119
1711
 # ['Elsie', ',\n', 'Lacie', ' and\n', 'Tillie',
2120
1712
 #  ';\nand they lived at the bottom of a well.', '\n', '...', '\n']
2121
1713
2122
1714
 first_link.find_next("p")
2123
1715
 # <p class="story">...</p>
2124
1716
2125
1717
En el primer ejemplo, la cadena "Elsie" apareció, aunque estuviese
2126
1718
contenida en la etiqueta <a> desde la que comenzamos. En el segundo
2127
1719
ejemplo, la última etiqueta <p> en el documento apareció, aunque no
2128
1720
esté en la misma parte del árbol que la etiqueta <a> desde la que
2129
1721
comenzamos. Para estos métodos, todo lo que importa es que un
2130
1722
elemento cumple con el filtro, y que aparezca en el documento
2131
1723
después del elemento inicial.
2132
1724
2133
1725
``find_all_previous()`` y ``find_previous()``
2134
1726
=============================================
2135
1727
2136
1728
Firma del método: find_all_previous(:ref:`name <name>`, :ref:`attrs <attrs>`, :ref:`string <string>`, :ref:`limit <limit>`, :ref:`**kwargs <kwargs>`)
2137
1729
2138
1730
Firma del método: find_previous(:ref:`name <name>`, :ref:`attrs <attrs>`, :ref:`string <string>`, :ref:`**kwargs <kwargs>`)
2139
1731
2140
1732
Estos métodos usan :ref:`.previous_elements <element-generators>`
2141
1733
para iterar sobre las etiquetas y cadenas que iban antes en el
2142
1734
documento. El método ``find_all_previous()`` devuelve todos los
2143
1735
resultados, y ``find_previous()`` solo devuelve el primero::
2144
1736
2145
1737
 first_link = soup.a
2146
1738
 first_link
2147
1739
 # <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
2148
1740
2149
1741
 first_link.find_all_previous("p")
2150
1742
 # [<p class="story">Once upon a time there were three little sisters; ...</p>,
2151
1743
 #  <p class="title"><b>The Dormouse's story</b></p>]
2152
1744
2153
1745
 first_link.find_previous("title")
2154
1746
 # <title>The Dormouse's story</title>
2155
1747
2156
1748
La llamada a ``find_all_previous("p")`` encontró el primer
2157
1749
párrafo en el documento (el que tiene la clase="title"), pero
2158
1750
también encuentra el segundo párrafo, la etiqueta <p> que
2159
1751
contiene la etiqueta <a> con la que comenzamos. Esto no debería
2160
1752
ser demasiado sorprendente: estamos buscando todas las etiquetas
2161
1753
que aparecen en el documento después de la etiqueta con la que se
2162
1754
comienza. Una etiqueta <p> que contiene una <a> debe aparecer
2163
1755
antes de la etiqueta <a> que contiene.
2164
1756
2165
1757
Selectores CSS mediante la propiedad ``.css``
2166
1758
=============================================
2167
1759
2168
1760
Los objetos :py:class:`BeautifulSoup` y :py:class:`Tag` soportan los selectores
2169
1761
CSS a través de su atributo ``.css``. El paquete `Soup Sieve <https://facelessuser.github.io/soupsieve/>`_,
2170
1762
disponible a través de PyPI como ``soupsieve``, gestiona la implementación real
2171
1763
del selector. Si instalaste Beautiful Soup mediante ``pip``, Soup Sieve se
2172
1764
instaló al mismo tiempo, así que no tienes que hacer nada adicional.
2173
1765
2174
1766
La documentación de Soup Sieve lista `todos los selectores CSS soportados
2175
1767
actualmente <https://facelessuser.github.io/soupsieve/selectors/>`_, pero
2176
1768
estos son algunos de los básicos. Puedes encontrar etiquetas::
2177
1769
2178
1770
 soup.css.select("title")
2179
1771
 # [<title>The Dormouse's story</title>]
2180
1772
2181
1773
 soup.css.select("p:nth-of-type(3)")
2182
1774
 # [<p class="story">...</p>]
2183
1775
2184
1776
Encontrar etiquetas dentro de otras etiquetas::
2185
1777
2186
1778
 soup.css.select("body a")
2187
1779
 # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
2188
1780
 #  <a class="sister" href="http://example.com/lacie"  id="link2">Lacie</a>,
2189
1781
 #  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
2190
1782
2191
1783
 soup.css.select("html head title")
2192
1784
 # [<title>The Dormouse's story</title>]
2193
1785
2194
1786
Encontrar etiquetas `directamente` después de otras etiquetas::
2195
1787
2196
1788
 soup.css.select("head > title")
2197
1789
 # [<title>The Dormouse's story</title>]
2198
1790
2199
1791
 soup.css.select("p > a")
2200
1792
 # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
2201
1793
 #  <a class="sister" href="http://example.com/lacie"  id="link2">Lacie</a>,
2202
1794
 #  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
2203
1795
2204
1796
 soup.css.select("p > a:nth-of-type(2)")
2205
1797
 # [<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]
2206
1798
2207
1799
 soup.css.select("p > #link1")
2208
1800
 # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]
2209
1801
2210
1802
 soup.css.select("body > a")
2211
1803
 # []
2212
1804
2213
1805
Encontrar los hijos de etiquetas::
2214
1806
2215
1807
 soup.css.select("#link1 ~ .sister")
2216
1808
 # [<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
2217
1809
 #  <a class="sister" href="http://example.com/tillie"  id="link3">Tillie</a>]
2218
1810
2219
1811
 soup.css.select("#link1 + .sister")
2220
1812
 # [<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]
2221
1813
2222
1814
Encontrar etiquetas por su clase CSS::
2223
1815
2224
1816
 soup.css.select(".sister")
2225
1817
 # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
2226
1818
 #  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
2227
1819
 #  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
2228
1820
2229
1821
 soup.css.select("[class~=sister]")
2230
1822
 # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
2231
1823
 #  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
2232
1824
 #  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
2233
1825
2234
1826
Encontrar etiquetas por su ID::
2235
1827
2236
1828
 soup.css.select("#link1")
2237
1829
 # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]
2238
1830
2239
1831
 soup.css.select("a#link2")
2240
1832
 # [<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]
2241
1833
2242
1834
Encontrar etiquetas que casen con cualquier selector que estés en una
2243
1835
lista de selectores::
2244
1836
2245
1837
 soup.css.select("#link1,#link2")
2246
1838
 # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
2247
1839
 #  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]
2248
1840
2249
1841
Comprobar la existencia de un atributo::
2250
1842
2251
1843
 soup.css.select('a[href]')
2252
1844
 # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
2253
1845
 #  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
2254
1846
 #  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
2255
1847
2256
1848
Encontrar etiquetas por el valor de un atributo::
2257
1849
2258
1850
 soup.css.select('a[href="http://example.com/elsie"]')
2259
1851
 # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]
2260
1852
2261
1853
 soup.css.select('a[href^="http://example.com/"]')
2262
1854
 # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
2263
1855
 #  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
2264
1856
 #  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
2265
1857
2266
1858
 soup.css.select('a[href$="tillie"]')
2267
1859
 # [<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
2268
1860
2269
1861
 soup.css.select('a[href*=".com/el"]')
2270
1862
 # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]
2271
1863
2272
1864
Hay también un método llamado ``select_one()``, que encuentra solo
2273
1865
la primera etiqueta que case con un selector::
2274
1866
2275
1867
 soup.css.select_one(".sister")
2276
1868
 # <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
2277
1869
2278
1870
Por conveniencia, puedes llamar a ``select()`` y ``select_one()`` sobre
2279
1871
el objeto :py:class:`BeautifulSoup` o :py:class:`Tag`, omitiendo la
2280
1872
propiedad ``.css``::
2281
1873
2282
1874
 soup.select('a[href$="tillie"]')
2283
1875
 # [<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
2284
1876
2285
1877
 soup.select_one(".sister")
2286
1878
 # <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
2287
1879
2288
1880
El soporte de selectores CSS es conveniente para personas que ya conocen
2289
1881
la sintaxis de los selectores CSS. Puedes hacer todo esto con la API
2290
1882
de Beautiful Soup. Si todo lo que necesitas son los selectores CSS, deberías
2291
1883
saltarte Beautiful Soup y analizar el documento con ``lxml``: es mucho más
2292
1884
rápido. Pero Soup Sieve te permite `combinar` selectores CSS con la API
2293
1885
de Beautiful Soup. 
2294
1886
2295
1887
Características avanzadas de Soup Sieve
2296
1888
---------------------------------------
2297
1889
2298
1890
Soup Sieve ofrece una API más amplia más allá de los métodos ``select()``
2299
1891
y ``select_one()``, y puedes acceder a casi toda esa API a través del
2300
1892
atributo ``.css`` de :py:class:`Tag` o :py:class:`Beautiful Soup`. Lo que
2301
1893
sigue es solo una lista de los métodos soportados; ve a `la documentación de
2302
1894
Soup Sieve <https://facelessuser.github.io/soupsieve/>`_ para la documentación
2303
1895
completa.
2304
1896
2305
1897
El método ``iselect()`` funciona igualmente que ``select()``, solo que
2306
1898
devuelve un generador en vez de una lista::
2307
1899
2308
1900
 [tag['id'] for tag in soup.css.iselect(".sister")]
2309
1901
 # ['link1', 'link2', 'link3']
2310
1902
2311
1903
El método ``closest()`` devuelve la madre más cercana de una :py:class:`Tag` dada
2312
1904
que case con un selector CSS, similar al método ``find_parent()`` de
2313
1905
Beautiful Soup::
2314
1906
2315
1907
 elsie = soup.css.select_one(".sister")
2316
1908
 elsie.css.closest("p.story")
2317
1909
 # <p class="story">Once upon a time there were three little sisters; and their names were
2318
1910
 #  <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
2319
1911
 #  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
2320
1912
 #  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
2321
1913
 #  and they lived at the bottom of a well.</p>
2322
1914
2323
1915
El método ``match()`` devuelve un booleano dependiendo de si
2324
1916
una :py:class:`Tag` específica casa con un selector o no::
2325
1917
 
2326
1918
 # elsie.css.match("#link1")
2327
1919
 True
2328
1920
2329
1921
 # elsie.css.match("#link2")
2330
1922
 False
2331
1923
2332
1924
El método ``filter()`` devuelve un subconjunto de los hijos directos
2333
1925
de una etiqueta que casen con un selector::
2334
1926
 
2335
1927
 [tag.string for tag in soup.find('p', 'story').css.filter('a')]
2336
1928
 # ['Elsie', 'Lacie', 'Tillie']
2337
1929
2338
1930
El método ``escape()`` formatea los identificadores CSS que de otra
2339
1931
forma serían inválidos::
2340
1932
 
2341
1933
 soup.css.escape("1-strange-identifier")
2342
1934
 # '\\31 -strange-identifier'
2343
1935
2344
1936
Espacios de nombres en selectores CSS
2345
1937
-------------------------------------
2346
1938
Si has analizado XML que define espacios de nombres, puedes usarlos
2347
1939
en selectores CSS::
2348
1940
2349
1941
 from bs4 import BeautifulSoup
2350
1942
 xml = """<tag xmlns:ns1="http://namespace1/" xmlns:ns2="http://namespace2/">
2351
1943
  <ns1:child>I'm in namespace 1</ns1:child>
2352
1944
  <ns2:child>I'm in namespace 2</ns2:child>
2353
1945
 </tag> """
2354
1946
 namespace_soup = BeautifulSoup(xml, "xml")
2355
1947
2356
1948
 namespace_soup.css.select("child")
2357
1949
 # [<ns1:child>I'm in namespace 1</ns1:child>, <ns2:child>I'm in namespace 2</ns2:child>]
2358
1950
2359
1951
 namespace_soup.css.select("ns1|child")
2360
1952
 # [<ns1:child>I'm in namespace 1</ns1:child>]
2361
1953
2362
1954
Beautiful Soup intenta usar prefijos de espacios de nombres que tengan
2363
1955
sentido basándose en lo que vio al analizar el documento, pero siempre
2364
1956
puedes indicar tu propio diccionario de abreviaciones::
2365
1957
2366
1958
 namespaces = dict(first="http://namespace1/", second="http://namespace2/")
2367
1959
 namespace_soup.css.select("second|child", namespaces=namespaces)
2368
1960
 # [<ns1:child>I'm in namespace 2</ns1:child>]
2369
1961
2370
1962
Historia del soporte de selectores CSS
2371
1963
--------------------------------------
2372
1964
2373
1965
La propiedad ``.css`` fue añadida en Beautiful Soup 4.12.0. Anterior a esta,
2374
1966
solo los métodos convenientes ``.select()`` y ``select_one()`` se
2375
1967
soportaban.
2376
1968
2377
1969
La integración de Soup Sieve fue añadida en Beautiful Soup 4.7.0. Versiones
2378
1970
anteriores tenían el método ``.select()``, pero solo los selectores CSS
2379
1971
más comunes eran admitidos.
2380
1972
 
2381
1973
2382
1974
====================
2383
1975
 Modificar el árbol
2384
1976
====================
2385
1977
2386
1978
La mayor fortaleza de Beautiful Soup reside en buscar en el árbol
2387
1979
analizado, pero puedes también modificar el árbol y escribir tus
2388
1980
cambios como un nuevo documento HTML o XML.
2389
1981
2390
1982
Cambiar nombres de etiquetas y atributos
2391
1983
========================================
2392
1984
2393
1985
Cubrí esto anteriormente, en :py:class:`Tag.attrs`, pero vale la pena
2394
1986
repetirlo. Puedes renombrar una etiqueta, cambiar el valor de sus
2395
1987
atributos, añadir nuevos atributos, y eliminar atributos::
2396
1988
2397
1989
 soup = BeautifulSoup('<b class="boldest">Extremely bold</b>', 'html.parser')
2398
1990
 tag = soup.b
2399
1991
2400
1992
 tag.name = "blockquote"
2401
1993
 tag['class'] = 'verybold'
2402
1994
 tag['id'] = 1
2403
1995
 tag
2404
1996
 # <blockquote class="verybold" id="1">Extremely bold</blockquote>
2405
1997
2406
1998
 del tag['class']
2407
1999
 del tag['id']
2408
2000
 tag
2409
2001
 # <blockquote>Extremely bold</blockquote>
2410
2002
2411
2003
Modificar ``.string``
2412
2004
=====================
2413
2005
2414
2006
Si quieres establecer el ``.string`` de una etiqueta a una nueva cadena de
2415
2007
caracteres, los contenidos de la etiqueta se pueden reemplazar con esa cadena::
2416
2008
2417
2009
 markup = '<a href="http://example.com/">I linked to <i>example.com</i></a>'
2418
2010
 soup = BeautifulSoup(markup, 'html.parser')
2419
2011
2420
2012
 tag = soup.a
2421
2013
 tag.string = "New link text."
2422
2014
 tag
2423
2015
 # <a href="http://example.com/">New link text.</a>
2424
2016
2425
2017
Ten cuidado: si una etiqueta contiene otras, ellas y todo su contenido
2426
2018
serán destruidos.  
2427
2019
2428
2020
``append()``
2429
2021
============
2430
2022
2431
2023
Puedes añadir al contenido de una etiqueta con ``Tag.append()``.
2432
2024
Funciona como llamar a ``.append()`` en una lista de Python::
2433
2025
2434
2026
 soup = BeautifulSoup("<a>Foo</a>", 'html.parser')
2435
2027
 soup.a.append("Bar")
2436
2028
2437
2029
 soup
2438
2030
 # <a>FooBar</a>
2439
2031
 soup.a.contents
2440
2032
 # ['Foo', 'Bar']
2441
2033
2442
2034
``extend()``
2443
2035
============
2444
2036
2445
2037
Desde Beautiful Soup 4.7.0, :py:class:`Tag` también soporta un método
2446
2038
llamado ``.extend()``, el cual añade todos los elementos de una lista
2447
2039
a una :py:class:`Tag`, en orden::
2448
2040
2449
2041
 soup = BeautifulSoup("<a>Soup</a>", 'html.parser')
2450
2042
 soup.a.extend(["'s", " ", "on"])
2451
2043
2452
2044
 soup
2453
2045
 # <a>Soup's on</a>
2454
2046
 soup.a.contents
2455
2047
 # ['Soup', ''s', ' ', 'on']
2456
2048
   
2457
2049
``NavigableString()`` y ``.new_tag()``
2458
2050
======================================
2459
2051
2460
2052
Si necesitas añadir una cadena a un documento, sin problema--puedes
2461
2053
pasar una cadena de Python a ``append()``, o puedes llamar al constructor
2462
2054
de :py:class:`NavigableString`::
2463
2055
2464
2056
 from bs4 import NavigableString
2465
2057
 soup = BeautifulSoup("<b></b>", 'html.parser')
2466
2058
 tag = soup.b
2467
2059
 tag.append("Hello")
2468
2060
 new_string = NavigableString(" there")
2469
2061
 tag.append(new_string)
2470
2062
 tag
2471
2063
 # <b>Hello there.</b>
2472
2064
 tag.contents
2473
2065
 # ['Hello', ' there']
2474
2066
2475
2067
Si quieres crear un comentario o cualquier otra subclase
2476
2068
de :py:class:`NavigableString`, solo llama al constructor::
2477
2069
2478
2070
 from bs4 import Comment
2479
2071
 new_comment = Comment("Nice to see you.")
2480
2072
 tag.append(new_comment)
2481
2073
 tag
2482
2074
 # <b>Hello there<!--Nice to see you.--></b>
2483
2075
 tag.contents
2484
2076
 # ['Hello', ' there', 'Nice to see you.']
2485
2077
2486
2078
`(Esto es una nueva característica en Beautiful Soup 4.4.0.)`
2487
2079
2488
2080
¿Qué ocurre si necesitas crear una etiqueta totalmente nueva? La mejor
2489
2081
solución es llamar al método de construcción (`factory method`)
2490
2082
``BeautifulSoup.new_tag()``::
2491
2083
2492
2084
 soup = BeautifulSoup("<b></b>", 'html.parser')
2493
2085
 original_tag = soup.b
2494
2086
2495
2087
 new_tag = soup.new_tag("a", href="http://www.example.com")
2496
2088
 original_tag.append(new_tag)
2497
2089
 original_tag
2498
2090
 # <b><a href="http://www.example.com"></a></b>
2499
2091
2500
2092
 new_tag.string = "Link text."
2501
2093
 original_tag
2502
2094
 # <b><a href="http://www.example.com">Link text.</a></b>
2503
2095
2504
2096
Solo el primer argumento, el nombre de la etiqueta, es
2505
2097
obligatorio.
2506
2098
2507
2099
``insert()``
2508
2100
============
2509
2101
2510
2102
``Tag.insert()`` es justo como ``Tag.append()``, excepto que el nuevo
2511
2103
elemento no necesariamente va al final del ``.contents`` de su madre.
2512
2104
Se insertará en la posición numérica que le hayas indicado. Funciona
2513
2105
como ``.insert()`` es una lista de Python::
2514
2106
2515
2107
 markup = '<a href="http://example.com/">I linked to <i>example.com</i></a>'
2516
2108
 soup = BeautifulSoup(markup, 'html.parser')
2517
2109
 tag = soup.a
2518
2110
2519
2111
 tag.insert(1, "but did not endorse ")
2520
2112
 tag
2521
2113
 # <a href="http://example.com/">I linked to but did not endorse <i>example.com</i></a>
2522
2114
 tag.contents
2523
2115
 # ['I linked to ', 'but did not endorse', <i>example.com</i>]
2524
2116
2525
2117
``insert_before()`` y ``insert_after()``
2526
2118
========================================
2527
2119
2528
2120
El método ``insert_before()`` inserta etiquetas o cadenas
2529
2121
inmediatamente antes de algo en el árbol analizado::
2530
2122
2531
2123
 soup = BeautifulSoup("<b>leave</b>", 'html.parser')
2532
2124
 tag = soup.new_tag("i")
2533
2125
 tag.string = "Don't"
2534
2126
 soup.b.string.insert_before(tag)
2535
2127
 soup.b
2536
2128
 # <b><i>Don't</i>leave</b>
2537
2129
2538
2130
El método ``insert_after()`` inserta etiquetas o cadenas
2539
2131
inmediatamente después de algo en el árbol analizado::
2540
2132
2541
2133
 div = soup.new_tag('div')
2542
2134
 div.string = 'ever'
2543
2135
 soup.b.i.insert_after(" you ", div)
2544
2136
 soup.b
2545
2137
 # <b><i>Don't</i> you <div>ever</div> leave</b>
2546
2138
 soup.b.contents
2547
2139
 # [<i>Don't</i>, ' you', <div>ever</div>, 'leave']
2548
2140
2549
2141
``clear()``
2550
2142
===========
2551
2143
2552
2144
``Tag.clear()`` quita los contenidos de una etiqueta::
2553
2145
2554
2146
 markup = '<a href="http://example.com/">I linked to <i>example.com</i></a>'
2555
2147
 soup = BeautifulSoup(markup, 'html.parser')
2556
2148
 tag = soup.a
2557
2149
2558
2150
 tag.clear()
2559
2151
 tag
2560
2152
 # <a href="http://example.com/"></a>
2561
2153
2562
2154
``extract()``
2563
2155
=============
2564
2156
2565
2157
``PageElement.extract()`` elimina una etiqueta o una cadena de caracteres
2566
2158
del árbol. Devuelve la etiqueta o la cadena que fue extraída::
2567
2159
2568
2160
 markup = '<a href="http://example.com/">I linked to <i>example.com</i></a>'
2569
2161
 soup = BeautifulSoup(markup, 'html.parser')
2570
2162
 a_tag = soup.a
2571
2163
2572
2164
 i_tag = soup.i.extract()
2573
2165
2574
2166
 a_tag
2575
2167
 # <a href="http://example.com/">I linked to</a>
2576
2168
2577
2169
 i_tag
2578
2170
 # <i>example.com</i>
2579
2171
2580
2172
 print(i_tag.parent)
2581
2173
 # None
2582
2174
2583
2175
En este punto tienes realmente dos árboles analizados: uno anclado en el
2584
2176
objeto :py:class:`BeautifulSoup` que usaste para analizar el documento, y
2585
2177
uno anclado en la etiqueta que fue extraída. Puedes llamar a ``extract``
2586
2178
en el hijo del elemento que extrajiste::
2587
2179
2588
2180
 my_string = i_tag.string.extract()
2589
2181
 my_string
2590
2182
 # 'example.com'
2591
2183
2592
2184
 print(my_string.parent)
2593
2185
 # None
2594
2186
 i_tag
2595
2187
 # <i></i>
2596
2188
2597
2189
2598
2190
``decompose()``
2599
2191
===============
2600
2192
2601
2193
``Tag.decompose()`` quita una etiqueta del árbol, y luego `lo destruye
2602
2194
completamente y su contenido también`::
2603
2195
2604
2196
 markup = '<a href="http://example.com/">I linked to <i>example.com</i></a>'
2605
2197
 soup = BeautifulSoup(markup, 'html.parser')
2606
2198
 a_tag = soup.a
2607
2199
 i_tag = soup.i
2608
2200
2609
2201
 i_tag.decompose()
2610
2202
 a_tag
2611
2203
 # <a href="http://example.com/">I linked to</a>
2612
2204
2613
2205
El comportamiento de una :py:class:`Tag` o :py:class:`NavigableString` descompuesta
2614
2206
no está definido y no deberías usarlo para nada. Si no estás seguro si algo
2615
2207
ha sido descompuesto, puedes comprobar su propiedad ``.decomposed``
2616
2208
`(nuevo en Beautiful Soup 4.9.0)`::
2617
2209
2618
2210
 i_tag.decomposed
2619
2211
 # True
2620
2212
2621
2213
 a_tag.decomposed
2622
2214
 # False
2623
2215
2624
2216
2625
2217
.. _replace_with():
2626
2218
2627
2219
``replace_with()``
2628
2220
==================
2629
2221
2630
2222
``PageElement.replace_with()`` elimina una etiqueta o cadena del árbol,
2631
2223
y lo reemplaza con una o más etiquetas de tu elección::
2632
2224
2633
2225
 markup = '<a href="http://example.com/">I linked to <i>example.com</i></a>'
2634
2226
 soup = BeautifulSoup(markup, 'html.parser')
2635
2227
 a_tag = soup.a
2636
2228
2637
2229
 new_tag = soup.new_tag("b")
2638
2230
 new_tag.string = "example.com"
2639
2231
 a_tag.i.replace_with(new_tag)
2640
2232
2641
2233
 a_tag
2642
2234
 # <a href="http://example.com/">I linked to <b>example.com</b></a>
2643
2235
2644
2236
 bold_tag = soup.new_tag("b")
2645
2237
 bold_tag.string = "example"
2646
2238
 i_tag = soup.new_tag("i")
2647
2239
 i_tag.string = "net"
2648
2240
 a_tag.b.replace_with(bold_tag, ".", i_tag)
2649
2241
2650
2242
 a_tag
2651
2243
 # <a href="http://example.com/">I linked to <b>example</b>.<i>net</i></a>
2652
2244
2653
2245
2654
2246
``replace_with()`` devuelve la etiqueta o cadena que se reemplazó,
2655
2247
así que puedes examinarla o añadirla de nuevo a otra parte del árbol.
2656
2248
2657
2249
`La capacidad de pasar múltiples argumentos a replace_with() es nueva
2658
2250
en Beautiful Soup 4.10.0.`
2659
2251
2660
2252
2661
2253
``wrap()``
2662
2254
==========
2663
2255
2664
2256
``PageElement.wrap()`` envuelve un elemento en la etiqueta que especificas.
2665
2257
Devuelve la nueva envoltura::
2666
2258
2667
2259
 soup = BeautifulSoup("<p>I wish I was bold.</p>", 'html.parser')
2668
2260
 soup.p.string.wrap(soup.new_tag("b"))
2669
2261
 # <b>I wish I was bold.</b>
2670
2262
2671
2263
 soup.p.wrap(soup.new_tag("div"))
2672
2264
 # <div><p><b>I wish I was bold.</b></p></div>
2673
2265
2674
2266
`Este método es nuevo en Beautiful Soup 4.0.5.`
2675
2267
2676
2268
``unwrap()``
2677
2269
============
2678
2270
2679
2271
``Tag.unwrap()`` es el opuesto de ``wrap()``. Reemplaza una
2680
2272
etiqueta con lo que haya dentro de lo que haya en esa etiqueta.
2681
2273
Es bueno para eliminar anotaciones::
2682
2274
2683
2275
 markup = '<a href="http://example.com/">I linked to <i>example.com</i></a>'
2684
2276
 soup = BeautifulSoup(markup, 'html.parser')
2685
2277
 a_tag = soup.a
2686
2278
2687
2279
 a_tag.i.unwrap()
2688
2280
 a_tag
2689
2281
 # <a href="http://example.com/">I linked to example.com</a>
2690
2282
2691
2283
Como ``replace_with()``, ``unwrap()`` devuelve la etiqueta que fue
2692
2284
reemplazada.
2693
2285
2694
2286
``smooth()``
2695
2287
============
2696
2288
2697
2289
Tras llamar a un puñado de métodos que modifican el árbol analizado, puedes
2698
2290
acabar con dos o más objetos :py:class:`NavigableString` uno al lado del otro.
2699
2291
Beautiful Soup no tiene ningún problema con esto, pero como no puede ocurrir
2700
2292
en un documento recién analizado, puedes no esperar un comportamiento como
2701
2293
el siguiente::
2702
2294
2703
2295
 soup = BeautifulSoup("<p>A one</p>", 'html.parser')
2704
2296
 soup.p.append(", a two")
2705
2297
2706
2298
 soup.p.contents
2707
2299
 # ['A one', ', a two']
2708
2300
2709
2301
 print(soup.p.encode())
2710
2302
 # b'<p>A one, a two</p>'
2711
2303
2712
2304
 print(soup.p.prettify())
2713
2305
 # <p>
2714
2306
 #  A one
2715
2307
 #  , a two
2716
2308
 # </p>
2717
2309
2718
2310
Puedes llamar a ``Tag.smooth()`` para limpiar el árbol analizado consolidando
2719
2311
cadenas adyacentes::
2720
2312
2721
2313
 soup.smooth()
2722
2314
2723
2315
 soup.p.contents
2724
2316
 # ['A one, a two']
2725
2317
2726
2318
 print(soup.p.prettify())
2727
2319
 # <p>
2728
2320
 #  A one, a two
2729
2321
 # </p>
2730
2322
2731
2323
`Este método es nuevo en Beautiful Soup 4.8.0.`
2732
2324
2733
2325
========
2734
2326
 Salida
2735
2327
========
2736
2328
2737
2329
.. _.prettyprinting:
2738
2330
2739
2331
*Pretty-printing*
2740
2332
=================
2741
2333
2742
2334
El método ``prettify()`` convertirá un árbol analizado de Beautiful Soup
2743
2335
en una cadena de caracteres Unicode bien formateado, con una línea
2744
2336
para cada etiqueta y cada cadena::
2745
2337
2746
2338
 markup = '<html><head><body><a href="http://example.com/">I linked to <i>example.com</i></a>'
2747
2339
 soup = BeautifulSoup(markup, 'html.parser')
2748
2340
 soup.prettify()
2749
2341
 # '<html>\n <head>\n </head>\n <body>\n  <a href="http://example.com/">\n...'
2750
2342
2751
2343
 print(soup.prettify())
2752
2344
 # <html>
2753
2345
 #  <head>
2754
2346
 #  </head>
2755
2347
 #  <body>
2756
2348
 #   <a href="http://example.com/">
2757
2349
 #    I linked to
2758
2350
 #    <i>
2759
2351
 #     example.com
2760
2352
 #    </i>
2761
2353
 #   </a>
2762
2354
 #  </body>
2763
2355
 # </html>
2764
2356
2765
2357
Puedes llamar ``prettify()`` a alto nivel sobre el objeto :py:class:`BeautifulSoup`,
2766
2358
o sobre cualquiera de sus objetos :py:class:`Tag`::
2767
2359
2768
2360
 print(soup.a.prettify())
2769
2361
 # <a href="http://example.com/">
2770
2362
 #  I linked to
2771
2363
 #  <i>
2772
2364
 #   example.com
2773
2365
 #  </i>
2774
2366
 # </a>
2775
2367
2776
2368
Como añade un espacio en blanco (en la forma de saltos de líneas),
2777
2369
``prettify()`` cambia el sentido del documento HTML y no debe ser
2778
2370
usado para reformatearlo. El objetivo de ``prettify()`` es ayudarte
2779
2371
a entender visualmente la estructura del documento en el que trabajas.
2780
2372
  
2781
2373
*Non-pretty printing*
2782
2374
=====================
2783
2375
2784
2376
Si tan solo quieres una cadena, sin ningún formateo adornado,
2785
2377
puedes llamar a ``str()`` en un objeto :py:class:`BeautifulSoup`, o
2786
2378
sobre una :py:class:`Tag` dentro de él::
2787
2379
2788
2380
 str(soup)
2789
2381
 # '<html><head></head><body><a href="http://example.com/">I linked to <i>example.com</i></a></body></html>'
2790
2382
2791
2383
 str(soup.a)
2792
2384
 # '<a href="http://example.com/">I linked to <i>example.com</i></a>'
2793
2385
2794
2386
La función ``str()`` devuelve una cadena codificada en UTF-8. Mira
2795
2387
`Codificaciones`_ para otras opciones.
2796
2388
2797
2389
Puedes también llamar a ``encode()`` para obtener un bytestring, y
2798
2390
``decode()`` para obtener Unicode.
2799
2391
2800
2392
.. _output_formatters:
2801
2393
2802
2394
Formatos de salida
2803
2395
==================
2804
2396
2805
2397
Si le das a Beautiful Soup un documento que contenga entidades HTML
2806
2398
como "&lquot;", serán convertidas a caracteres Unicode::
2807
2399
2808
2400
 soup = BeautifulSoup("&ldquo;Dammit!&rdquo; he said.", 'html.parser')
2809
2401
 str(soup)
2810
2402
 # '“Dammit!” he said.'
2811
2403
2812
2404
Si después conviertes el documento a bytestring, los caracteres Unicode
2813
2405
serán convertidos a UTF-8. No obtendrás de nuevo las entidades HTML::
2814
2406
2815
2407
 soup.encode("utf8")
2816
2408
 # b'\xe2\x80\x9cDammit!\xe2\x80\x9d he said.'
2817
2409
2818
2410
Por defecto, los únicos caracteres que se formatean en la salida son
2819
2411
ampersands y comillas anguladas simples. Estas se transforman en
2820
2412
"&amp;", "&lt;" y "&gt;", así Beautiful Soup no genera inadvertidamente
2821
2413
HTML o XML inválido::
2822
2414
2823
2415
 soup = BeautifulSoup("<p>The law firm of Dewey, Cheatem, & Howe</p>", 'html.parser')
2824
2416
 soup.p
2825
2417
 # <p>The law firm of Dewey, Cheatem, &amp; Howe</p>
2826
2418
2827
2419
 soup = BeautifulSoup('<a href="http://example.com/?foo=val1&bar=val2">A link</a>', 'html.parser')
2828
2420
 soup.a
2829
2421
 # <a href="http://example.com/?foo=val1&amp;bar=val2">A link</a>
2830
2422
2831
2423
Puedes cambiar este comportamiento dando un valor al argumento
2832
2424
``formatter`` de ``prettify()``, ``encode()`` o ``decode()``.
2833
2425
Beautiful Soup reconoce cinco posibles valores para ``formatter``.
2834
2426
2835
2427
El valor por defecto es ``formatter="minimal"``. Las cadenas solo
2836
2428
serán procesadas lo suficiente como para asegurar que Beautiful Soup
2837
2429
genera HTML/XML válido::
2838
2430
2839
2431
 french = "<p>Il a dit &lt;&lt;Sacr&eacute; bleu!&gt;&gt;</p>"
2840
2432
 soup = BeautifulSoup(french, 'html.parser')
2841
2433
 print(soup.prettify(formatter="minimal"))
2842
2434
 # <p>
2843
2435
 #  Il a dit &lt;&lt;Sacré bleu!&gt;&gt;
2844
2436
 # </p>
2845
2437
2846
2438
Si pasas ``formatter="html"``, Beautiful Soup convertirá caracteres
2847
2439
Unicode a entidades HTML cuando sea posible::
2848
2440
2849
2441
 print(soup.prettify(formatter="html"))
2850
2442
 # <p>
2851
2443
 #  Il a dit &lt;&lt;Sacr&eacute; bleu!&gt;&gt;
2852
2444
 # </p>
2853
2445
2854
2446
Si pasas ``formatter="html5"``, es similar a
2855
2447
``formatter="html"``, pero Beautiful Soup omitirá la barra de
2856
2448
cierre en etiquetas HTML vacías como "br"::
2857
2449
2858
2450
 br = BeautifulSoup("<br>", 'html.parser').br
2859
2451
 
2860
2452
 print(br.encode(formatter="html"))
2861
2453
 # b'<br/>'
2862
2454
 
2863
2455
 print(br.encode(formatter="html5"))
2864
2456
 # b'<br>'
2865
2457
2866
2458
Además, cualquier atributo cuyos valores son la cadena de
2867
2459
caracteres vacía se convertirán en atributos booleanos al
2868
2460
estilo HTML::
2869
2461
2870
2462
 option = BeautifulSoup('<option selected=""></option>').option
2871
2463
 print(option.encode(formatter="html"))
2872
2464
 # b'<option selected=""></option>'
2873
2465
 
2874
2466
 print(option.encode(formatter="html5"))
2875
2467
 # b'<option selected></option>'
2876
2468
2877
2469
*(Este comportamiento es nuevo a partir de Beautiful Soup 4.10.0.)*
2878
2470
2879
2471
Si pasas ``formatter=None``, Beautiful Soup no modificará en absoluto
2880
2472
las cadenas a la salida. Esta es la opción más rápida, pero puede
2881
2473
ocasionar que Beautiful Soup genere HTML/XML inválido, como en estos
2882
2474
ejemplos::
2883
2475
2884
2476
 print(soup.prettify(formatter=None))
2885
2477
 # <p>
2886
2478
 #  Il a dit <<Sacré bleu!>>
2887
2479
 # </p>
2888
2480
2889
2481
 link_soup = BeautifulSoup('<a href="http://example.com/?foo=val1&bar=val2">A link</a>', 'html.parser')
2890
2482
 print(link_soup.a.encode(formatter=None))
2891
2483
 # b'<a href="http://example.com/?foo=val1&bar=val2">A link</a>'
2892
2484
2893
2485
*Objetos Formatter*
2894
2486
-------------------
2895
2487
2896
2488
Si necesitas un control más sofisticado sobre tu salida, puedes
2897
2489
instanciar uno de las clases *formatters* de Beautiful Soup y pasar
2898
2490
dicho objeto a ``formatter``.
2899
2491
2900
2492
.. py:class:: HTMLFormatter
2901
2493
2902
2494
Usado para personalizar las reglas de formato para documentos HTML.
2903
2495
2904
2496
Aquí está el *formatter* que convierte cadenas de caracteres a mayúsculas,
2905
2497
como si están en un nodo de texto o en el valor de un atributo::
2906
2498
2907
2499
 from bs4.formatter import HTMLFormatter
2908
2500
 def uppercase(str):
2909
2501
     return str.upper()
2910
2502
 
2911
2503
 formatter = HTMLFormatter(uppercase)
2912
2504
2913
2505
 print(soup.prettify(formatter=formatter))
2914
2506
 # <p>
2915
2507
 #  IL A DIT <<SACRÉ BLEU!>>
2916
2508
 # </p>
2917
2509
2918
2510
 print(link_soup.a.prettify(formatter=formatter))
2919
2511
 # <a href="HTTP://EXAMPLE.COM/?FOO=VAL1&BAR=VAL2">
2920
2512
 #  A LINK
2921
2513
 # </a>
2922
2514
2923
2515
Este es el *formatter* que incrementa la sangría cuando se realiza
2924
2516
*pretty-printing*::
2925
2517
2926
2518
 formatter = HTMLFormatter(indent=8)
2927
2519
 print(link_soup.a.prettify(formatter=formatter))
2928
2520
 # <a href="http://example.com/?foo=val1&bar=val2">
2929
2521
 #         A link
2930
2522
 # </a>
2931
2523
2932
2524
.. py:class:: XMLFormatter
2933
2525
2934
2526
Usado para personalizar las reglas de formateo para documentos XML.
2935
2527
2936
2528
Escribir tu propio *formatter*
2937
2529
------------------------------
2938
2530
2939
2531
Crear una subclase a partir de :py:class:`HTMLFormatter` p :py:class:`XMLFormatter`
2940
2532
te dará incluso más control sobre la salida. Por ejemplo, Beautiful Soup
2941
2533
ordena por defecto los atributos en cada etiqueta::
2942
2534
2943
2535
 attr_soup = BeautifulSoup(b'<p z="1" m="2" a="3"></p>', 'html.parser')
2944
2536
 print(attr_soup.p.encode())
2945
2537
 # <p a="3" m="2" z="1"></p>
2946
2538
2947
2539
Para detener esto, puedes modificar en la subclase creada
2948
2540
el método ``Formatter.attributes()``, que controla los atributos
2949
2541
que se ponen en la salida y en qué orden. Esta implementación también
2950
2542
filtra el atributo llamado "m" cuando aparezca::
2951
2543
2952
2544
 class UnsortedAttributes(HTMLFormatter):
2953
2545
     def attributes(self, tag):
2954
2546
         for k, v in tag.attrs.items():
2955
2547
             if k == 'm':
2956
2548
                 continue
2957
2549
             yield k, v
2958
2550
 
2959
2551
 print(attr_soup.p.encode(formatter=UnsortedAttributes())) 
2960
2552
 # <p z="1" a="3"></p>
2961
2553
2962
2554
Una última advertencia: si creas un objeto :py:class:`CData`, el texto
2963
2555
dentro de ese objeto siempre se muestra `exactamente como aparece, sin
2964
2556
ningún formato`. Beautiful Soup llamará a la función de sustitución de
2965
2557
entidad, por si hubieses escrito una función a medida que cuenta
2966
2558
todas las cadenas en el documento o algo así, pero ignorará el
2967
2559
valor de retorno::
2968
2560
2969
2561
 from bs4.element import CData
2970
2562
 soup = BeautifulSoup("<a></a>", 'html.parser')
2971
2563
 soup.a.string = CData("one < three")
2972
2564
 print(soup.a.prettify(formatter="html"))
2973
2565
 # <a>
2974
2566
 #  <![CDATA[one < three]]>
2975
2567
 # </a>
2976
2568
2977
2569
2978
2570
``get_text()``
2979
2571
==============
2980
2572
2981
2573
Si solo necesitas el texto legible dentro de un documento o etiqueta, puedes
2982
2574
usar el método ``get_text()``. Devuelve todo el texto dentro del documento o
2983
2575
dentro de la etiqueta, como una sola cadena caracteres Unicode::
2984
2576
2985
2577
 markup = '<a href="http://example.com/">\nI linked to <i>example.com</i>\n</a>'
2986
2578
 soup = BeautifulSoup(markup, 'html.parser')
2987
2579
2988
2580
 soup.get_text()
2989
2581
 '\nI linked to example.com\n'
2990
2582
 soup.i.get_text()
2991
2583
 'example.com'
2992
2584
2993
2585
Puedes especificar una cadena que usará para unir los trozos
2994
2586
de texto::
2995
2587
2996
2588
 # soup.get_text("|")
2997
2589
 '\nI linked to |example.com|\n'
2998
2590
2999
2591
Puedes indicar a Beautiful Soup que quite los espacios en blanco del
3000
2592
comienzo y el final de cada trozo de texto::
3001
2593
3002
2594
 # soup.get_text("|", strip=True)
3003
2595
 'I linked to|example.com'
3004
2596
3005
2597
Pero en ese punto puedas querer usar mejor el generador
3006
2598
:ref:`.stripped_strings <string-generators>`, y procesar el texto
3007
2599
por tu cuenta::
3008
2600
3009
2601
 [text for text in soup.stripped_strings]
3010
2602
 # ['I linked to', 'example.com']
3011
2603
3012
2604
*A partir de Beautiful Soup version 4.9.0, cuando lxml o html.parser
3013
2605
se usan, el contenido de las etiquetas <script>, <style>, y <template>
3014
2606
no se consideran texto, ya que esas etiquetas no son parte de la parte
3015
2607
legible del contenido de la página.*
3016
2608
3017
2609
*A partir de de Beautiful Soup version 4.10.0, puedes llamar a get_text(),
3018
2610
.strings, o .stripped_strings en un objeto NavigableString. Devolverá
3019
2611
el propio objeto, o nada, así que la única razón para hacerlo es cuando
3020
2612
estás iterando sobre una lista mixta.*
3021
2613
 
3022
2614
==================================
3023
2615
 Especificar el analizador a usar
3024
2616
==================================
3025
2617
3026
2618
Si lo único que necesitas es analizar algún HTML, puedes ponerlo en
3027
2619
el constructor de :py:class:`BeautifulSoup`, y probablemente irá bien.
3028
2620
Beautiful Soup elegirá un analizador por ti y analizará los datos.
3029
2621
Pero hay algunos argumentos adicionales que puedes pasar al constructor
3030
2622
para cambiar el analizador que se usa.
3031
2623
3032
2624
El primer argumento del constructor de :py:class:`BeautifulSoup` es una cadena
3033
2625
o un gestor de archivos abierto--el marcado que quieres analizar. El segundo
3034
2626
argumento es `cómo` quieres que el marcado analizado.
3035
2627
3036
2628
Si no especificas nada, obtendrás el mejor analizador HTML que tengas
3037
2629
instalado. Beautiful Soup clasifica al analizador de lxml como el mejor,
3038
2630
después el de html5lib, y luego el analizador integrado en Python. Puedes
3039
2631
sobrescribir esto especificando uno de los siguientes:
3040
2632
3041
2633
* El tipo de marcado que quieres analizar. Actualmente se soportan
3042
2634
  "html", "xml", y "html5".
3043
2635
3044
2636
* El nombre de la librería del analizador que quieras usar. Actualmente se
3045
2637
  soportan "lxml", "html5lib", y "html.parser" (el analizador HTML integrado
3046
2638
  de Python).
3047
2639
3048
2640
La sección `Instalar un analizador`_ contraste los analizadores admitidos.
3049
2641
3050
2642
Si no tienes un analizador apropiado instalado, Beautiful Soup ignorará
3051
2643
tu petición y elegirá un analizador diferente. Ahora mismo, el único
3052
2644
analizador XML es lxml. Si no tienes lxml instalado, solicitar un
3053
2645
analizador XML no te dará uno, y pedir por "lxml" tampoco funcionará.
3054
2646
3055
2647
Diferencias entre analizadores
3056
2648
==============================
3057
2649
3058
2650
Beautiful Soup presenta la misma interfaz que varios analizadores,
3059
2651
pero cada uno es diferente. Analizadores diferentes crearán
3060
2652
árboles analizados diferentes a partir del mismo documento. La mayores
3061
2653
diferencias están entre los analizadores HTML y los XML. Este es un
3062
2654
documento corto, analizado como HTML usando el analizador que viene
3063
2655
con Python::
3064
2656
3065
2657
 BeautifulSoup("<a><b/></a>", "html.parser")
3066
2658
 # <a><b></b></a>
3067
2659
3068
2660
Como una sola etiqueta <b/> no es HTML válido, html.parser lo convierte a
3069
2661
un par <b><b/>.
3070
2662
3071
2663
Aquí está el mismo documento analizado como XML (correr esto requiere que
3072
2664
tengas instalado lxml). Debe notarse que la etiqueta independiente
3073
2665
<b/> se deja sola, y que en el documento se incluye una declaración XML
3074
2666
en lugar de introducirlo en una etiqueta <html>::
3075
2667
3076
2668
 print(BeautifulSoup("<a><b/></a>", "xml"))
3077
2669
 # <?xml version="1.0" encoding="utf-8"?>
3078
2670
 # <a><b/></a>
3079
2671
3080
2672
Hay también diferencias entre analizadores HTML. Si le das a Beautiful
3081
2673
Soup un documento HTML perfectamente formado, esas diferencias no
3082
2674
importan. Un analizador será más rápido que otro, pero todos te darán
3083
2675
una estructura de datos que será exactamente como el documento HTML
3084
2676
original.
3085
2677
3086
2678
Pero si el documento no está perfectamente formado, analizadores
3087
2679
diferentes darán diferentes resultados. A continuación se presenta
3088
2680
un documento corto e incorrecto analizado usando el analizador
3089
2681
HTML de lxml. Debe considerarse que la etiqueta <a> es envuelta
3090
2682
en las etiquetas <body> y <html>, y que la etiqueta colgada </p>
3091
2683
simplemente se ignora::
3092
2684
3093
2685
 BeautifulSoup("<a></p>", "lxml")
3094
2686
 # <html><body><a></a></body></html>
3095
2687
3096
2688
Este es el mismo documento analizado usando html5lib::
3097
2689
3098
2690
 BeautifulSoup("<a></p>", "html5lib")
3099
2691
 # <html><head></head><body><a><p></p></a></body></html>
3100
2692
3101
2693
En lugar de ignorar la etiqueta colgada </p>, html5lib la empareja
3102
2694
con una etiqueta inicial <p>. html5lib también añade una etiqueta <head>
3103
2695
vacía; lxml no se molesta.
3104
2696
3105
2697
Este es el mismo documento analizado usando el analizador HTML integrado
3106
2698
en Python::
3107
2699
3108
2700
 BeautifulSoup("<a></p>", "html.parser")
3109
2701
 # <a></a>
3110
2702
3111
2703
Como lxml, este analizador ignora la etiqueta clausura </p>.
3112
2704
A diferencia de html5lib o lxml, este analizador no intenta
3113
2705
crear un documento HTML bien formado añadiendo las etiquetas
3114
2706
<html> o <body>.
3115
2707
3116
2708
Como el documento "<a></p>" es inválido, ninguna de estas técnicas
3117
2709
es la forma 'correcta' de gestionarlo. El analizador de html5lib usa
3118
2710
técnicas que son parte del estándar de HTML5, así que es la que más
3119
2711
se puede aproximar a ser la manera correcta, pero las tres técnicas
3120
2712
son legítimas.
3121
2713
3122
2714
Las diferencias entre analizadores pueden afectar a tu script. Si
3123
2715
estás planeando en distribuir tu script con otras personas, o
3124
2716
ejecutarlo en varias máquinas, deberías especificar un analizador
3125
2717
en el constructor de :py:class:`BeautifulSoup`. Eso reducirá
3126
2718
las probabilidad que tus usuarios analicen un documento diferentemente
3127
2719
de la manera en la que tú lo analizas.
3128
2720
3129
2721
================
3130
2722
 Codificaciones
3131
2723
================
3132
2724
3133
2725
Cualquier documento HTML o XML está escrito en una codificación
3134
2726
específica como ASCII o UTF-8. Pero cuando cargas ese documento en
3135
2727
Beautiful Soup, descubrirás que se convierte en Unicode::
3136
2728
3137
2729
 markup = "<h1>Sacr\xc3\xa9 bleu!</h1>"
3138
2730
 soup = BeautifulSoup(markup, 'html.parser')
3139
2731
 soup.h1
3140
2732
 # <h1>Sacré bleu!</h1>
3141
2733
 soup.h1.string
3142
2734
 # 'Sacr\xe9 bleu!'
3143
2735
3144
2736
No es magia (seguro que eso sería genial). Beautiful Soup usa una
3145
2737
sub-librería llamada `Unicode, Dammit`_ para detectar la codificación
3146
2738
de un documento y convertirlo a Unicode. La codificación auto detectada
3147
2739
está disponible con el atributo ``.original_encoding`` del objeto
3148
2740
:py:class:`Beautiful Soup`::
3149
2741
3150
2742
 soup.original_encoding
3151
2743
 'utf-8'
3152
2744
3153
2745
Unicode, Dammit estima correctamente la mayor parte del tiempo, pero
3154
2746
a veces se equivoca. A veces estima correctamente, pero solo después
3155
2747
de una búsqueda byte a byte del documento que tarda mucho tiempo.
3156
2748
Si ocurre que sabes a priori la codificación del documento, puedes
3157
2749
evitar errores y retrasos pasándola al constructor de :py:class:`BeautifulSoup`
3158
2750
con ``from_encoding``.
3159
2751
3160
2752
Este es un documento escrito es ISO-8859-8. El documento es tan corto que
3161
2753
Unicode, Dammit no da en el clave, y lo identifica erróneamente como
3162
2754
ISO-8859-7::
3163
2755
3164
2756
 markup = b"<h1>\xed\xe5\xec\xf9</h1>"
3165
2757
 soup = BeautifulSoup(markup, 'html.parser')
3166
2758
 print(soup.h1)
3167
2759
 # <h1>νεμω</h1>
3168
2760
 print(soup.original_encoding)
3169
2761
 # iso-8859-7
3170
2762
3171
2763
Podemos arreglarlo pasándole el correcto a ``from_encoding``::
3172
2764
3173
2765
 soup = BeautifulSoup(markup, 'html.parser', from_encoding="iso-8859-8")
3174
2766
 print(soup.h1)
3175
2767
 # <h1>םולש</h1>
3176
2768
 print(soup.original_encoding)
3177
2769
 # iso8859-8
3178
2770
3179
2771
Si no sabes cuál es la codificación correcta, pero sabes que Unicode, Dammit
3180
2772
está suponiendo mal, puedes pasarle las opciones mal estimadas con
3181
2773
``exclude_encodings``::
3182
2774
3183
2775
 soup = BeautifulSoup(markup, 'html.parser', exclude_encodings=["iso-8859-7"])
3184
2776
 print(soup.h1)
3185
2777
 # <h1>םולש</h1>
3186
2778
 print(soup.original_encoding)
3187
2779
 # WINDOWS-1255
3188
2780
3189
2781
Windows-1255 no es correcto al 100%, pero esa codificación es
3190
2782
una superconjunto compatible con ISO-8859-8, así que se acerca
3191
2783
lo suficiente. (``exlcude_encodings`` es una nueva característica
3192
2784
en Beautiful Soup 4.4.0).
3193
2785
3194
2786
En casos raros (normalmente cuando un documento UTF-8 contiene texto
3195
2787
escrito en una codificación completamente diferente), la única manera
3196
2788
para obtener Unicode es reemplazar algunos caracteres con el carácter
3197
2789
Unicode especial "REPLACEMENT CHARACTER" (U+FFFD, �). Si Unicode, Dammit
3198
2790
necesita hacer esto, establecerá el atributo ``.contains_replacement_characters``
3199
2791
a ``True`` en el objeto ``UnicodeDammit`` o :py:class:`BeautifulSoup`. Esto
3200
2792
te permite saber si la representación Unicode no es una representación
3201
2793
exacta de la original--algún dato se ha perdido. Si un documento contiene �,
3202
2794
pero ``contains_replacement_characteres`` es ``False``, sabrás que �
3203
2795
estaba allí originalmente (como lo está en este párrafo) y no implica
3204
2796
datos perdidos.
3205
2797
3206
2798
Codificación de salida
3207
2799
======================
3208
2800
3209
2801
Cuando escribas completamente un documento desde Beautiful Soup,
3210
2802
obtienes un documento UTF-8, incluso cuando el documento no está en UTF-8
3211
2803
por el que empezar. Este es un documento escrito con la codificación Latin-1::
3212
2804
3213
2805
 markup = b'''
3214
2806
  <html>
3215
2807
   <head>
3216
2808
    <meta content="text/html; charset=ISO-Latin-1" http-equiv="Content-type" />
3217
2809
   </head>
3218
2810
   <body>
3219
2811
    <p>Sacr\xe9 bleu!</p>
3220
2812
   </body>
3221
2813
  </html>
3222
2814
 '''
3223
2815
3224
2816
 soup = BeautifulSoup(markup, 'html.parser')
3225
2817
 print(soup.prettify())
3226
2818
 # <html>
3227
2819
 #  <head>
3228
2820
 #   <meta content="text/html; charset=utf-8" http-equiv="Content-type" />
3229
2821
 #  </head>
3230
2822
 #  <body>
3231
2823
 #   <p>
3232
2824
 #    Sacré bleu!
3233
2825
 #   </p>
3234
2826
 #  </body>
3235
2827
 # </html>
3236
2828
3237
2829
Fíjate bien que la etiqueta <meta> ha sido reescrita para reflejar el hecho
3238
2830
de que el documento está ahora en UTF-8.
3239
2831
3240
2832
Si no quieres UTF-8, puedes pasar una codificación a ``prettify()``::
3241
2833
3242
2834
 print(soup.prettify("latin-1"))
3243
2835
 # <html>
3244
2836
 #  <head>
3245
2837
 #   <meta content="text/html; charset=latin-1" http-equiv="Content-type" />
3246
2838
 # ...
3247
2839
3248
2840
También puedes llamar a encode() sobre el objeto :py:class:`BeautifulSoup`, o
3249
2841
cualquier elemento en el objeto, como si fuese una cadena de Python::
3250
2842
3251
2843
 soup.p.encode("latin-1")
3252
2844
 # b'<p>Sacr\xe9 bleu!</p>'
3253
2845
3254
2846
 soup.p.encode("utf-8")
3255
2847
 # b'<p>Sacr\xc3\xa9 bleu!</p>'
3256
2848
3257
2849
Cualesquiera caracteres que no puedan ser representados en la codificación
3258
2850
que has elegido se convierten en referencias a entidades numéricas XML.
3259
2851
Este es un documento que incluye el carácter Unicode SNOWMAN::
3260
2852
3261
2853
 markup = u"<b>\N{SNOWMAN}</b>"
3262
2854
 snowman_soup = BeautifulSoup(markup, 'html.parser')
3263
2855
 tag = snowman_soup.b
3264
2856
3265
2857
El carácter SNOWMAN puede ser parte de un documento UTF-8 (se parece a ☃),
3266
2858
pero no hay representación para ese carácter en ISO-Latin-1 o ASCII,
3267
2859
así que se convierte en "&#9731" para esas codificaciones::
3268
2860
3269
2861
 print(tag.encode("utf-8"))
3270
2862
 # b'<b>\xe2\x98\x83</b>'
3271
2863
3272
2864
 print(tag.encode("latin-1"))
3273
2865
 # b'<b>&#9731;</b>'
3274
2866
3275
2867
 print(tag.encode("ascii"))
3276
2868
 # b'<b>&#9731;</b>'
3277
2869
3278
2870
Unicode, Dammit
3279
2871
===============
3280
2872
3281
2873
Puedes usar Unicode, Dammit sin usar Beautiful Soup. Es útil cuando
3282
2874
tienes datos en una codificación desconocida y solo quieres convertirlo
3283
2875
a Unicode::
3284
2876
3285
2877
 from bs4 import UnicodeDammit
3286
2878
 dammit = UnicodeDammit(b"\xc2\xabSacr\xc3\xa9 bleu!\xc2\xbb")
3287
2879
 print(dammit.unicode_markup)
3288
2880
 # «Sacré bleu!»
3289
2881
 dammit.original_encoding
3290
2882
 # 'utf-8'
3291
2883
3292
2884
Los estimaciones de Unicode, Dammit será mucho más precisas si instalas
3293
2885
una de estas librerías de Python: ``charset-normalizer``, ``chardet``,
3294
2886
o ``cchardet``. Cuanto más datos le des a Unicode, Dammit, con mayor exactitud
3295
2887
estimará. Si tienes alguna sospecha sobre las codificaciones que podrían ser, puedes
3296
2888
pasárselas en una lista::
3297
2889
3298
2890
 dammit = UnicodeDammit("Sacr\xe9 bleu!", ["latin-1", "iso-8859-1"])
3299
2891
 print(dammit.unicode_markup)
3300
2892
 # Sacré bleu!
3301
2893
 dammit.original_encoding
3302
2894
 # 'latin-1'
3303
2895
3304
2896
Unicode, Dammit tiene dos características especiales que Beautiful Soup no usa.
3305
2897
3306
2898
Comillas inteligentes
3307
2899
---------------------
3308
2900
3309
2901
Puedes usar Unicode, Dammit para convertir las comillas inteligentes de Microsoft
3310
2902
a entidades HTML o XML::
3311
2903
3312
2904
 markup = b"<p>I just \x93love\x94 Microsoft Word\x92s smart quotes</p>"
3313
2905
3314
2906
 UnicodeDammit(markup, ["windows-1252"], smart_quotes_to="html").unicode_markup
3315
2907
 # '<p>I just &ldquo;love&rdquo; Microsoft Word&rsquo;s smart quotes</p>'
3316
2908
3317
2909
 UnicodeDammit(markup, ["windows-1252"], smart_quotes_to="xml").unicode_markup 
3318
2910
 # '<p>I just &#x201C;love&#x201D; Microsoft Word&#x2019;s smart quotes</p>'
3319
2911
3320
2912
Puedes también convertir las comillas inteligentes de Microsoft a comillas ASCII::
3321
2913
3322
2914
 UnicodeDammit(markup, ["windows-1252"], smart_quotes_to="ascii").unicode_markup
3323
2915
 # '<p>I just "love" Microsoft Word\'s smart quotes</p>'
3324
2916
3325
2917
Con suerte encontrarás esta característica útil, pero Beautiful Soup no la usa.
3326
2918
Beautiful Soup prefiere el comportamiento por defecto, el cual es convertir
3327
2919
las comillas inteligentes de Microsoft a caracteres Unicode junto al resto
3328
2920
de cosas::
3329
2921
3330
2922
 UnicodeDammit(markup, ["windows-1252"]).unicode_markup
3331
2923
 # '<p>I just “love” Microsoft Word’s smart quotes</p>'
3332
2924
3333
2925
Codificaciones inconsistentes
3334
2926
-----------------------------
3335
2927
3336
2928
A veces un documento está mayoritariamente en UTF-8, pero contiene
3337
2929
caracteres Windows-1252 como (de nuevo) comillas inteligentes de Microsoft.
3338
2930
Esto puede ocurrir cuando un sitio web incluye datos de múltiples fuentes.
3339
2931
Puedes usar ``UnicodeDammit.detwingle()`` para convertir dicho documento en
3340
2932
puro UTF-8. Este un ejemplo sencillo::
3341
2933
3342
2934
 snowmen = (u"\N{SNOWMAN}" * 3)
3343
2935
 quote = (u"\N{LEFT DOUBLE QUOTATION MARK}I like snowmen!\N{RIGHT DOUBLE QUOTATION MARK}")
3344
2936
 doc = snowmen.encode("utf8") + quote.encode("windows_1252")
3345
2937
3346
2938
Este documento es un desastre. Los muñecos de nieve están en UTF-8 y las
3347
2939
comillas están en Windows-1252. Puedes mostrar los muñecos de nieve o
3348
2940
las comillas, pero no ambos::
3349
2941
3350
2942
 print(doc)
3351
2943
 # ☃☃☃�I like snowmen!�
3352
2944
3353
2945
 print(doc.decode("windows-1252"))
3354
2946
 # â˜ƒâ˜ƒâ˜ƒ“I like snowmen!”
3355
2947
3356
2948
Decodificar el documento en UTF-8 provoca un ``UnicodeDecodeError``, y
3357
2949
decodificarlo como Windows-1252 te da un galimatías. Afortunadamente,
3358
2950
``UnicodeDammit.detwingle()`` convertirá la cadena en puro UTF-8,
3359
2951
permitiéndote decodificarlo en Unicode y mostrar el muñeco de nieve
3360
2952
y marcas de comillas simultáneamente::
3361
2953
3362
2954
 new_doc = UnicodeDammit.detwingle(doc)
3363
2955
 print(new_doc.decode("utf8"))
3364
2956
 # ☃☃☃“I like snowmen!”
3365
2957
3366
2958
``UnicodeDammit.detwingle()``  solo sabe cómo gestionar Windows-1252 embebido
3367
2959
en UTF-8 (o viceversa, supongo), pero este es el caso más común.
3368
2960
3369
2961
Fíjate que debes saber que debes llamar a ``UnicodeDammit.detwingle()``
3370
2962
en tus datos antes de pasarlo a :py:class:`BeautifulSoup` o el constructor
3371
2963
de ``UnicodeDammit``. Beautiful Soup asume que un documento tiene una
3372
2964
sola codificación, la que sea. Si quieres pasar un documento que contiene
3373
2965
ambas UTF-8 y Windows-1252, es probable que piense que todo el documento
3374
2966
es Windows-1252, y el documento se parecerá a ```â˜ƒâ˜ƒâ˜ƒ“I like snowmen!”``.
3375
2967
3376
2968
``UnicodeDammit.detwingle()`` es nuevo en Beautiful Soup 4.1.0.
3377
2969
3378
2970
==================
3379
2971
 Números de línea
3380
2972
==================
3381
2973
3382
2974
Los analizadores de ``html.parser`` y ``html5lib`` pueden llevar la cuenta
3383
2975
de los lugares en el documento original donde se han encontrado cada etiqueta.
3384
2976
Puedes acceder a esta información con ``Tag.sourceline`` (número de línea) y
3385
2977
``Tag.sourcepos`` (posición del comienzo de una etiqueta en una línea)::
3386
2978
3387
2979
 markup = "<p\n>Paragraph 1</p>\n    <p>Paragraph 2</p>"
3388
2980
 soup = BeautifulSoup(markup, 'html.parser')
3389
2981
 for tag in soup.find_all('p'):
3390
2982
     print(repr((tag.sourceline, tag.sourcepos, tag.string)))
3391
2983
 # (1, 0, 'Paragraph 1')
3392
2984
 # (3, 4, 'Paragraph 2')
3393
2985
3394
2986
Debe destacarse que los dos analizadores entienden cosas ligeramente
3395
2987
diferentes por ``sourceline`` y ``sourcepos``. Para html.parser, estos
3396
2988
números representan la posición del signo "menor" inicial. Para html5lib,
3397
2989
estos números representan la posición del signo "mayor" final::
3398
2990
   
3399
2991
 soup = BeautifulSoup(markup, 'html5lib')
3400
2992
 for tag in soup.find_all('p'):
3401
2993
     print(repr((tag.sourceline, tag.sourcepos, tag.string)))
3402
2994
 # (2, 0, 'Paragraph 1')
3403
2995
 # (3, 6, 'Paragraph 2')
3404
2996
3405
2997
Puedes interrumpir esta característica pasado ``store_line_numbers=False``
3406
2998
en el constructor de :py:class:`BeautifulSoup`::
3407
2999
3408
3000
 markup = "<p\n>Paragraph 1</p>\n    <p>Paragraph 2</p>"
3409
3001
 soup = BeautifulSoup(markup, 'html.parser', store_line_numbers=False)
3410
3002
 print(soup.p.sourceline)
3411
3003
 # None
3412
3004
3413
3005
`Esta característica es nueva en 4.8.1, y los analizadores basados en lxml no la
3414
3006
soportan.`
3415
3007
3416
3008
===============================
3417
3009
 Comparar objetos por igualdad
3418
3010
===============================
3419
3011
3420
3012
Beautiful Soup indica que dos objetos :py:class:`NavigableString` o :py:class:`Tag`
3421
3013
son iguales cuando representan al mismo marcado HTML o XML. En este ejemplo,
3422
3014
las dos etiquetas <b> son tratadas como iguales, aunque están en diferentes
3423
3015
partes del objeto árbol, porque ambas son "<b>pizza</b>"::
3424
3016
3425
3017
 markup = "<p>I want <b>pizza</b> and more <b>pizza</b>!</p>"
3426
3018
 soup = BeautifulSoup(markup, 'html.parser')
3427
3019
 first_b, second_b = soup.find_all('b')
3428
3020
 print(first_b == second_b)
3429
3021
 # True
3430
3022
3431
3023
 print(first_b.previous_element == second_b.previous_element)
3432
3024
 # False
3433
3025
3434
3026
Si quieres saber si dos variables se refieren a exactamente el mismo
3435
3027
objeto, usa `is`::
3436
3028
3437
3029
 print(first_b is second_b)
3438
3030
 # False
3439
3031
3440
3032
==================================
3441
3033
 Copiar objetos de Beautiful Soup
3442
3034
==================================
3443
3035
3444
3036
Puedes usar ``copy.copy()`` para crear una copia de cualquier
3445
3037
:py:class:`Tag` o :py:class:`NavigableString`::
3446
3038
3447
3039
 import copy
3448
3040
 p_copy = copy.copy(soup.p)
3449
3041
 print(p_copy)
3450
3042
 # <p>I want <b>pizza</b> and more <b>pizza</b>!</p>
3451
3043
3452
3044
La copia se considera igual que la original, ya que representa el mismo
3453
3045
marcado que el original, pero no son el mismo objeto::
3454
3046
3455
3047
 print(soup.p == p_copy)
3456
3048
 # True
3457
3049
3458
3050
 print(soup.p is p_copy)
3459
3051
 # False
3460
3052
3461
3053
La única diferencia real es que la copia está completamente desconectada
3462
3054
del objeto árbol de Beautiful Soup, como si ``extract()`` hubiese sido
3463
3055
llamada sobre ella::
3464
3056
3465
3057
 print(p_copy.parent)
3466
3058
 # None
3467
3059
3468
3060
Esto es porque dos diferentes objetos :py:class:`Tag` no pueden ocupar
3469
3061
el mismo espacio al mismo tiempo.
3470
3062
3471
3063
=========================================
3472
3064
 Personalización avanzada del analizador
3473
3065
=========================================
3474
3066
3475
3067
Beautiful Soup ofrece numerosas vías para personalizar la manera en la que
3476
3068
el analizador trata HTML o XML entrante. Esta sección cubre las técnicas
3477
3069
de personalizadas usadas más comúnmente.
3478
3070
3479
3071
Analizar solo parte del documento
3480
3072
=================================
3481
3073
3482
3074
Digamos que quieres usar Beautiful Soup para observar las etiquetas <a> de un
3483
3075
documento. Es un malgasto de tiempo y memoria analizar todo el documento y
3484
3076
después recorrerlo una y otra vez buscando etiquetas <a>. Sería mucho más
3485
3077
rápido ignorar todo lo que no sea una etiqueta <a> desde el principio.
3486
3078
La clase :py:class:`SoupStrainer` te permite elegir qué partes de un
3487
3079
documento entrante se analizan. Tan solo crea un :py:class:`SoupStrainer` y
3488
3080
pásalo al constructor de :py:class:`BeautifulSoup` en el argumento ``parse_only``.
3489
3081
3490
3082
(Debe notarse que *esta característica no funcionará si estás usando el
3491
3083
analizador de html5lib*. Si usas html5lib, todo el documento será analizado,
3492
3084
no importa el resto. Esto es porque html5lib constantemente reorganiza el
3493
3085
árbol analizado conforme trabaja, y si alguna parte del documento no
3494
3086
consigue introducirse en el árbol analizado, se quedará colgado. Para evitar
3495
3087
confusión en los ejemplos más abajo forzaré a Beautiful Soup a que use
3496
3088
el analizador integrado de Python).
3497
3089
3498
3090
.. py:class:: SoupStrainer
3499
3091
3500
3092
La clase :py:class:`SoupStrainer` toma los mismos argumentos que un típico
3501
3093
método de `Buscar en el árbol`_: :ref:`name <name>`, :ref:`attrs <attrs>`,
3502
3094
:ref:`string <string>`, y :ref:`**kwargs <kwargs>`. Estos son tres objetos
3503
3095
:py:class:`SoupStrainer`::
3504
3096
3505
3097
 from bs4 import SoupStrainer
3506
3098
3507
3099
 only_a_tags = SoupStrainer("a")
3508
3100
3509
3101
 only_tags_with_id_link2 = SoupStrainer(id="link2")
3510
3102
3511
3103
 def is_short_string(string):
3512
3104
     return string is not None and len(string) < 10
3513
3105
3514
3106
 only_short_strings = SoupStrainer(string=is_short_string)
3515
3107
3516
3108
Voy a traer de nuevo el documento de "Las tres hermanas" una vez más,
3517
3109
y veremos cómo parece el documento cuando es analizado con estos
3518
3110
tres objetos :py:class:`SoupStrainer`::
3519
3111
3520
3112
 html_doc = """<html><head><title>The Dormouse's story</title></head>
3521
3113
 <body>
3522
3114
 <p class="title"><b>The Dormouse's story</b></p>
3523
3115
3524
3116
 <p class="story">Once upon a time there were three little sisters; and their names were
3525
3117
 <a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
3526
3118
 <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
3527
3119
 <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
3528
3120
 and they lived at the bottom of a well.</p>
3529
3121
3530
3122
 <p class="story">...</p>
3531
3123
 """
3532
3124
3533
3125
 print(BeautifulSoup(html_doc, "html.parser", parse_only=only_a_tags).prettify())
3534
3126
 # <a class="sister" href="http://example.com/elsie" id="link1">
3535
3127
 #  Elsie
3536
3128
 # </a>
3537
3129
 # <a class="sister" href="http://example.com/lacie" id="link2">
3538
3130
 #  Lacie
3539
3131
 # </a>
3540
3132
 # <a class="sister" href="http://example.com/tillie" id="link3">
3541
3133
 #  Tillie
3542
3134
 # </a>
3543
3135
3544
3136
 print(BeautifulSoup(html_doc, "html.parser", parse_only=only_tags_with_id_link2).prettify())
3545
3137
 # <a class="sister" href="http://example.com/lacie" id="link2">
3546
3138
 #  Lacie
3547
3139
 # </a>
3548
3140
3549
3141
 print(BeautifulSoup(html_doc, "html.parser", parse_only=only_short_strings).prettify())
3550
3142
 # Elsie
3551
3143
 # ,
3552
3144
 # Lacie
3553
3145
 # and
3554
3146
 # Tillie
3555
3147
 # ...
3556
3148
 #
3557
3149
3558
3150
Puedes también pasar un :py:class:`SoupStrainer` en cualquiera de los métodos
3559
3151
cubiertos en `Buscar en el árbol`_. Esto probablemente no sea terriblemente útil,
3560
3152
pero pensé en mencionarlo::
3561
3153
3562
3154
 soup = BeautifulSoup(html_doc, 'html.parser')
3563
3155
 soup.find_all(only_short_strings)
3564
3156
 # ['\n\n', '\n\n', 'Elsie', ',\n', 'Lacie', ' and\n', 'Tillie',
3565
3157
 #  '\n\n', '...', '\n']
3566
3158
3567
3159
Personalizar atributos multivaluados
3568
3160
====================================
3569
3161
3570
3162
En un documento HTML, a un atributo como ``class`` se le da una lista
3571
3163
de valores, y a un atributo como ``id`` se le da un solo valor, porque
3572
3164
la especificación de HTML trata a esos atributos de manera diferente::
3573
3165
3574
3166
 markup = '<a class="cls1 cls2" id="id1 id2">'
3575
3167
 soup = BeautifulSoup(markup, 'html.parser')
3576
3168
 soup.a['class']
3577
3169
 # ['cls1', 'cls2']
3578
3170
 soup.a['id']
3579
3171
 # 'id1 id2'
3580
3172
3581
3173
Puedes interrumpir esto pasando ``multi_values_attributes=None``. Entonces
3582
3174
a todos los atributos se les dará un solo valor::
3583
3175
3584
3176
 soup = BeautifulSoup(markup, 'html.parser', multi_valued_attributes=None)
3585
3177
 soup.a['class']
3586
3178
 # 'cls1 cls2'
3587
3179
 soup.a['id']
3588
3180
 # 'id1 id2'
3589
3181
3590
3182
Puedes personalizar este comportamiento un poco pasando un diccionario
3591
3183
a ``multi_values_attributes``. Si lo necesitas, échale un vistazo a
3592
3184
``HTMLTreeBuilder.DEFAULT_CDATA_LIST_ATTRIBUTES`` para ver la configuración
3593
3185
que Beautiful Soup usa por defecto, que está basada en la especificación
3594
3186
HTML.
3595
3187
3596
3188
`(Esto es una nueva característica en Beautiful Soup 4.8.0).`
3597
3189
3598
3190
Gestionar atributos duplicados
3599
3191
==============================
3600
3192
3601
3193
Cuando se use el analizador de ``html.parser``, puedes usar
3602
3194
el argumento del constructor ``on_duplicate_attribute`` para personalizar
3603
3195
qué hace Beautiful Soup cuando encuentra una etiqueta que define el mismo
3604
3196
atributo más de una vez::
3605
3197
3606
3198
 markup = '<a href="http://url1/" href="http://url2/">'
3607
3199
3608
3200
El comportamiento por defecto es usar el último valor encontrado en la
3609
3201
etiqueta::
3610
3202
3611
3203
 soup = BeautifulSoup(markup, 'html.parser')
3612
3204
 soup.a['href']
3613
3205
 # http://url2/
3614
3206
3615
3207
 soup = BeautifulSoup(markup, 'html.parser', on_duplicate_attribute='replace')
3616
3208
 soup.a['href']
3617
3209
 # http://url2/
3618
3210
3619
3211
Con ``on_duplicate_attribute='ignore'`` puedes indicar a Beautiful Soup que
3620
3212
use el `primer` valor encontrado e ignorar el resto::
3621
3213
3622
3214
 soup = BeautifulSoup(markup, 'html.parser', on_duplicate_attribute='ignore')
3623
3215
 soup.a['href']
3624
3216
 # http://url1/
3625
3217
3626
3218
(lxml y html5lib siempre lo hacen así; su comportamiento no puede ser
3627
3219
configurado desde Beautiful Soup.)
3628
3220
3629
3221
Si necesitas más, puedes pasar una función que sea llamada en cada valor duplicado::
3630
3222
3631
3223
 def accumulate(attributes_so_far, key, value):
3632
3224
     if not isinstance(attributes_so_far[key], list):
3633
3225
         attributes_so_far[key] = [attributes_so_far[key]]
3634
3226
     attributes_so_far[key].append(value)
3635
3227
3636
3228
 soup = BeautifulSoup(markup, 'html.parser', on_duplicate_attribute=accumulate)
3637
3229
 soup.a['href']
3638
3230
 # ["http://url1/", "http://url2/"]
3639
3231
3640
3232
3641
3233
`(Esto es una nueva característica en Beautiful Soup 4.9.1.)`
3642
3234
3643
3235
Instanciar subclases personalizadas
3644
3236
===================================
3645
3237
3646
3238
Cuando un analizador indica a Beautiful Soup sobre una etiqueta o una cadena,
3647
3239
Beautiful Soup instanciará un objeto :py:class:`Tag` o :py:class:`NavigableString`
3648
3240
para contener esa información. En lugar de ese comportamiento por defecto,
3649
3241
puedes indicar a Beautiful Soup que instancia `subclases` de :py:class:`Tag` o
3650
3242
:py:class:`NavigableString`, subclases que defines con comportamiento
3651
3243
personalizado::
3652
3244
3653
3245
 from bs4 import Tag, NavigableString
3654
3246
 class MyTag(Tag):
3655
3247
     pass
3656
3248
3657
3249
3658
3250
 class MyString(NavigableString):
3659
3251
     pass
3660
3252
3661
3253
3662
3254
 markup = "<div>some text</div>"
3663
3255
 soup = BeautifulSoup(markup, 'html.parser')
3664
3256
 isinstance(soup.div, MyTag)
3665
3257
 # False
3666
3258
 isinstance(soup.div.string, MyString)
3667
3259
 # False 
3668
3260
3669
3261
 my_classes = { Tag: MyTag, NavigableString: MyString }
3670
3262
 soup = BeautifulSoup(markup, 'html.parser', element_classes=my_classes)
3671
3263
 isinstance(soup.div, MyTag)
3672
3264
 # True
3673
3265
 isinstance(soup.div.string, MyString)
3674
3266
 # True  
3675
3267
3676
3268
3677
3269
Esto puede ser útil cuando se incorpore Beautiful Soup en un *framework*
3678
3270
de pruebas.
3679
3271
3680
3272
`(Esto es una nueva característica de Beautiful Soup 4.8.1.)`
3681
3273
3682
3274
=========================
3683
3275
 Resolución de problemas
3684
3276
=========================
3685
3277
3686
3278
.. _diagnose:
3687
3279
3688
3280
``diagnose()``
3689
3281
==============
3690
3282
3691
3283
Si estás teniendo problemas para entender qué hace Beautiful Soup a un
3692
3284
documento, pasa el documento a la función ``diagnose()``. (Nuevo en
3693
3285
Beautiful Soup 4.2.0) Beautiful Soup imprimirá un informe mostrándote
3694
3286
cómo manejan el documento diferentes analizadores, y te dirán si
3695
3287
te falta un analizador que Beautiful Soup podría estar usando::
3696
3288
3697
3289
 from bs4.diagnose import diagnose
3698
3290
 with open("bad.html") as fp:
3699
3291
     data = fp.read()
3700
3292
3701
3293
 diagnose(data)
3702
3294
3703
3295
 # Diagnostic running on Beautiful Soup 4.2.0
3704
3296
 # Python version 2.7.3 (default, Aug  1 2012, 05:16:07)
3705
3297
 # I noticed that html5lib is not installed. Installing it may help.
3706
3298
 # Found lxml version 2.3.2.0
3707
3299
 #
3708
3300
 # Trying to parse your data with html.parser
3709
3301
 # Here's what html.parser did with the document:
3710
3302
 # ...
3711
3303
3712
3304
Tan solo mirando a la salida de diagnose() puede mostrate cómo resolver
3713
3305
el problema. Incluso si no, puedes pegar la salida de ``diagnose()``
3714
3306
cuando pidas ayuda.
3715
3307
3716
3308
Errores analizando un documento
3717
3309
===============================
3718
3310
3719
3311
Hay dos tipos diferentes de errores de análisis. Hay veces en que
3720
3312
se queda colgado, donde le das a Beautiful Soup un documento y
3721
3313
lanza una excepción, normalmente un ``HTMLParser.HTMLParseError``. Y hay
3722
3314
comportamientos inesperados, donde un árbol analizado de Beautiful Soup
3723
3315
parece muy diferente al documento usado para crearlo.
3724
3316
3725
3317
Casi ninguno de estos problemas resultan ser problemas con Beautiful Soup.
3726
3318
Esto no es porque Beautiful Soup sea una increíble y bien escrita pieza
3727
3319
de software. Es porque Beautiful Soup no incluye ningún código de
3728
3320
análisis. En lugar de eso, depende de análisis externos. Si un analizador
3729
3321
no está funcionando en un documento concreto, la mejor solución es probar
3730
3322
con otro analizador. Échale un vistazo a `Instalar un analizador`_ para
3731
3323
detalles y una comparativa de analizadores.
3732
3324
3733
3325
Los errores de análisis más comunes son ``HTMLParser.HTMLParseError:
3734
3326
malformed start tag`` y ``HTMLParser.HTMLParseError: bad end
3735
3327
tag``. Ambos son generados por la librería del analizador HTML
3736
3328
incluido en Python, y la solución es :ref:`instalar lxml o html5lib.
3737
3329
<parser-installation>`
3738
3330
3739
3331
El comportamiento inesperado más común es que no puedas encontrar
3740
3332
una etiqueta que sabes que está en el documento. La viste llegar, pero
3741
3333
``find_all()`` devuelve ``[]`` o ``find()`` devuelve ``None``. Esto
3742
3334
es otro problema común con el analizador HTML integrado en Python, el cual
3743
3335
a veces omite etiquetas que no entiende. De nuevo, la mejor solución es
3744
3336
:ref:`instalar lxml o html5lib. <parser-installation>`.
3745
3337
3746
3338
Problemas de incompatibilidad de versiones
3747
3339
==========================================
3748
3340
3749
3341
* ``SyntaxError: Invalid syntax`` (on the line ``ROOT_TAG_NAME =
3750
3342
  '[document]'``): Causado por ejecutar una version antigua de Beautiful
3751
3343
  Soup de Python 2 bajo Python 3, sin convertir el código.
3752
3344
3753
3345
* ``ImportError: No module named HTMLParser`` - Causado por ejecutar
3754
3346
  una version antigua de Beautiful Soup de Python 2 bajo Python 3.
3755
3347
3756
3348
* ``ImportError: No module named html.parser`` - Causado por ejecutar
3757
3349
  una version de Beautiful Soup de Python 3 bajo Python 2.
3758
3350
3759
3351
* ``ImportError: No module named BeautifulSoup`` - Causado por ejecutar
3760
3352
  código de Beautiful Soup 3 en un sistema que no tiene BS3 instalado. O
3761
3353
  al escribir código de Beautiful Soup 4 sin saber que el nombre del paquete
3762
3354
  se cambió a ``bs4``.
3763
3355
3764
3356
* ``ImportError: No module named bs4`` - Causado por ejecutar código de
3765
3357
  Beautiful Soup 4 en un sistema que no tiene BS4 instalado.
3766
3358
3767
3359
.. _parsing-xml:
3768
3360
3769
3361
Analizar XML
3770
3362
============
3771
3363
3772
3364
Por defecto, Beautiful Soup analiza documentos HTML. Para analizar
3773
3365
un documento como XML, pasa "xml" como el segundo argumento al
3774
3366
constructor :py:class:`BeautifulSoup`::
3775
3367
3776
3368
 soup = BeautifulSoup(markup, "xml")
3777
3369
3778
3370
Necesitarás :ref:`tener lxml instalado <parser-installation>`.
3779
3371
3780
3372
Otros problemas de análisis
3781
3373
===========================
3782
3374
3783
3375
* Si tu script funciona en un ordenador pero no en otro, o en un
3784
3376
  entorno virtual pero no en otro, o fuera del entorno virtual
3785
3377
  pero no dentro, es probable porque los dos entornos tienen
3786
3378
  diferentes librerías de analizadores disponibles. Por ejemplo,
3787
3379
  puedes haber desarrollado el script en un ordenador que solo
3788
3380
  tenga html5lib instalado. Mira `Diferencias entre analizadores`_
3789
3381
  por qué esto importa, y solucionar el problema especificando una
3790
3382
  librería de análisis en el constructor de :py:class:`Beautiful Soup`.
3791
3383
3792
3384
* Porque `las etiquetas y atributos de HTML son sensibles a mayúsculas
3793
3385
  y minúsculas <http://www.w3.org/TR/html5/syntax.html#syntax>`_,
3794
3386
  los tres analizadores HTML convierten los nombres de las etiquetas y
3795
3387
  atributos a minúscula. Esto es, el marcado <TAG></TAG> se convierte
3796
3388
  a <tag></tag>. Si quieres preservar la mezcla entre minúscula y
3797
3389
  mayúscula o mantener las mayúsculas en etiquetas y atributos,
3798
3390
  necesitarás :ref:`analizar el documento como XML. <parsing-xml>`
3799
3391
3800
3392
.. _misc:
3801
3393
3802
3394
Diversos
3803
3395
========
3804
3396
3805
3397
* ``UnicodeEncodeError: 'charmap' codec can't encode character
3806
3398
  '\xfoo' in position bar`` (o cualquier otro 
3807
3399
  ``UnicodeEncodeError``) - Este problema aparece principalmente
3808
3400
  en dos situaciones. Primero, cuando intentas mostrar un carácter
3809
3401
  Unicode que tu consola no sabe cómo mostrar (mira `esta página en la
3810
3402
  wiki de Python <http://wiki.python.org/moin/PrintFails>`_). Segundo,
3811
3403
  cuando estás escribiendo en un archivo y pasas un carácter Unicode
3812
3404
  que no se soporta en tu codificación por defecto. En este caso,
3813
3405
  la solución más simple es codificar explícitamente la cadena Unicode
3814
3406
  en UTF-8 con ``u.encode("utf8")``.
3815
3407
3816
3408
* ``KeyError: [attr]`` - Causado por acceder a ``tag['attr']`` cuando
3817
3409
  la etiqueta en cuestión no define el atributo ``'attr'``. Los
3818
3410
  errores más comunes son ``KeyError: 'href'`` y ``KeyError: 'class``.
3819
3411
  Usa ``tag.get('attr')`` si no estás seguro si ``attr`` está definido,
3820
3412
  tal y como harías con un diccionario de Python.
3821
3413
3822
3414
* ``AttributeError: 'ResultSet' object has no attribute 'foo'`` - Esto
3823
3415
  normalmente ocurre cuando esperas que ``find_all()`` devuelva
3824
3416
  una sola etiqueta o cadena. Pero ``find_all()`` devuelve una
3825
3417
  `lista` de etiquetas y cadenas--un objeto ``ResultSet``. Tienes que
3826
3418
  iterar sobre la lista y comprobar el ``.foo`` de cada uno, O, si solo
3827
3419
  quieres un resultado, tienes que usar ``find()`` en lugar de
3828
3420
  ``find_all()``. 
3829
3421
3830
3422
* ``AttributeError: 'NoneType' object has no attribute 'foo'`` - Esto
3831
3423
  normalmente ocurre porque llamaste a ``find()`` y después intentaste
3832
3424
  acceder al atributo ``.foo`` del resultado. Pero en tu caso, ``find()``
3833
3425
  no encontró nada, así que devolvió ``None``, en lugar de devolver
3834
3426
  una etiqueta o una cadena de caracteres. Necesitas averiguar por qué
3835
3427
  ``find()`` no está devolviendo nada.
3836
3428
3837
3429
* ``AttributeError: 'NavigableString' object has no attribute
3838
3430
  'foo'`` - Esto ocurre normalmente porque estás tratando una
3839
3431
  cadena de caracteres como si fuese una etiqueta. Puedes estar iterando
3840
3432
  sobre una lista, esperando que tan solo contenga etiquetas, pero en
3841
3433
  realidad contiene tanto etiquetas como cadenas.
3842
3434
3843
3435
3844
3436
Mejorar el rendimiento
3845
3437
======================
3846
3438
3847
3439
Beautiful Soup nunca será tan rápido como los analizadores en los que
3848
3440
se basa. Si el tiempo de respuesta es crítico, si estás pagando por
3849
3441
tiempo de uso por hora, o si hay alguna otra razón por la que el tiempo
3850
3442
de computación es más valioso que el tiempo del programador, deberías
3851
3443
olvidarte de Beautiful Soup y trabajar directamente sobre
3852
3444
`lxml <http://lxml.de/>`_.
3853
3445
3854
3446
Dicho esto, hay cosas que puedes hacer para aumentar la velocidad de
3855
3447
Beautiful Soup. Si no estás usando lxml como el analizador que hay
3856
3448
por debajo, mi consejo es que :ref:`empieces a usarlo <parser-installation>`.
3857
3449
Beautiful Soup analiza documentos significativamente más rápido usando
3858
3450
lxml que usando html.parser o html5lib.
3859
3451
3860
3452
Puedes aumentar la velocidad de detección de codificación significativamente
3861
3453
instalando la librería `cchardet <http://pypi.python.org/pypi/cchardet/>`_.
3862
3454
3863
3455
`Analizar solo parte del documento`_ no te ahorrará mucho tiempo de análisis, pero puede
3864
3456
ahorrar mucha memoria, y hará que `buscar` en el documento sea mucho más rápido.
3865
3457
3866
3458
==============================
3867
3459
 Traducir esta documentación
3868
3460
==============================
3869
3461
3870
3462
Nuevas traducciones de la documentación de Beautiful Soup se agradecen
3871
3463
enormemente. Las traducciones deberían estar bajo la licencia del MIT, tal
3872
3464
y como están Beautiful Soup y su documentación en inglés.
3873
3465
3874
3466
Hay dos maneras para que tu traducción se incorpore a la base de código
3875
3467
principal y al sitio de Beautiful Soup:
3876
3468
3877
3469
1. Crear una rama del repositorio de Beautiful Soup, añadir tus
3878
3470
   traducciones, y proponer una fusión (*merge*) con la rama principal, lo
3879
3471
   mismo que se haría con una propuesta de código del código fuente.
3880
3472
3881
3473
2. Enviar un mensaje al grupo de discusión de Beautiful Soup con un
3882
3474
   enlace a tu traducción, o adjuntar tu traducción al mensaje.
3883
3475
3884
3476
Utiliza la traducción china o portugués-brasileño como tu modelo. En
3885
3477
particular, por favor, traduce el archivo fuente ``doc/source/index.rst``,
3886
3478
en vez de la versión HTML de la documentación. Esto hace posible que la
3887
3479
documentación se pueda publicar en una variedad de formatos, no solo HTML.
3888
3480
3889
3481
==================
3890
3482
 Beautiful Soup 3
3891
3483
==================
3892
3484
3893
3485
Beautiful Soup 3 es la serie de lanzamientos anterior, y no está siendo
3894
3486
activamente desarrollada. Actualmente está empaquetada con las
3895
3487
distribuciones de Linux más grandes:
3896
3488
3897
3489
:kbd:`$ apt-get install python-beautifulsoup`
3898
3490
3899
3491
También está publicada a través de PyPI como :py:class:`BeautifulSoup`.:
3900
3492
3901
3493
:kbd:`$ easy_install BeautifulSoup`
3902
3494
3903
3495
:kbd:`$ pip install BeautifulSoup`
3904
3496
3905
3497
También puedes `descargar un tarball de Beautiful Soup 3.2.0
3906
3498
<http://www.crummy.com/software/BeautifulSoup/bs3/download/3.x/BeautifulSoup-3.2.0.tar.gz>`_.
3907
3499
3908
3500
Si ejecutaste ``easy_install beautifulsoup`` o ``easy_install BeautifulSoup``,
3909
3501
pero tu código no funciona, instalaste por error Beautiful Soup 3. Necesitas
3910
3502
ejecutar ``easy_install beautifulsoup4``.
3911
3503
3912
3504
`La documentación de Beautiful Soup 3 está archivada online
3913
3505
<http://www.crummy.com/software/BeautifulSoup/bs3/documentation.html>`_.
3914
3506
3915
3507
Actualizar el código a BS4
3916
3508
==========================
3917
3509
3918
3510
La mayoría del código escrito con Beautiful Soup 3 funcionará
3919
3511
con Beautiful Soup 4 con un cambio simple. Todo lo que debes hacer
3920
3512
es cambiar el nombre del paquete de :py:class:`BeautifulSoup` a
3921
3513
``bs4``. Así que esto::
3922
3514
3923
3515
 from BeautifulSoup import BeautifulSoup
3924
3516
3925
3517
se convierte en esto::
3926
3518
3927
3519
 from bs4 import BeautifulSoup
3928
3520
3929
3521
* Si obtienes el ``ImportError`` "No module named BeautifulSoup`", tu
3930
3522
  problema es que estás intentando ejecutar código de Beautiful Soup 3,
3931
3523
  pero solo tienes instalado Beautiful Soup 4.
3932
3524
3933
3525
* Si obtienes el ``ImportError`` "No module named bs4", tu problema
3934
3526
  es que estás intentando ejecutar código Beautiful Soup 4, pero solo
3935
3527
  tienes Beautiful Soup 3 instalado.
3936
3528
3937
3529
Aunque BS4 es mayormente compatible con la versión anterior BS3, la
3938
3530
mayoría de sus métodos han quedado obsoletos y dados nuevos nombres
3939
3531
para que `cumplan con PEP 8 <http://www.python.org/dev/peps/pep-0008/>`_.
3940
3532
Hay muchos otros renombres y cambios, y algunos de ellos rompen
3941
3533
con la compatibilidad hacia atrás.
3942
3534
3943
3535
Esto es todo lo que necesitarás saber para convertir tu código y hábitos BS3 a
3944
3536
BS4:
3945
3537
3946
3538
Necesitas un analizador
3947
3539
-----------------------
3948
3540
3949
3541
Beautiful Soup 3 usaba el ``SGMLParser`` de Python, un módulo que
3950
3542
fue obsoleto y quitado en Python 3.0. Beautiful Soup 4 usa
3951
3543
``html.parser`` por defecto, pero puedes conectar lxml o html5lib
3952
3544
y usar esos. Mira `Instalar un analizador`_ para una comparación.
3953
3545
3954
3546
Como ``html.parser`` no es el mismo analizador que ``SGMLParser``,
3955
3547
podrías encontrarte que Beautiful Soup 4 te de un árbol analizado
3956
3548
diferente al que te da Beautiful Soup 3 para el mismo marcado. Si
3957
3549
cambias ``html.parser`` por lxml o html5lib, puedes encontrarte
3958
3550
que el árbol analizado también cambia. Si esto ocurre, necesitarás
3959
3551
actualizar tu código de *scraping* para gestionar el nuevo árbol.
3960
3552
3961
3553
Nombre de los métodos
3962
3554
---------------------
3963
3555
3964
3556
* ``renderContents`` -> ``encode_contents``
3965
3557
* ``replaceWith`` -> ``replace_with``
3966
3558
* ``replaceWithChildren`` -> ``unwrap``
3967
3559
* ``findAll`` -> ``find_all``
3968
3560
* ``findAllNext`` -> ``find_all_next``
3969
3561
* ``findAllPrevious`` -> ``find_all_previous``
3970
3562
* ``findNext`` -> ``find_next``
3971
3563
* ``findNextSibling`` -> ``find_next_sibling``
3972
3564
* ``findNextSiblings`` -> ``find_next_siblings``
3973
3565
* ``findParent`` -> ``find_parent``
3974
3566
* ``findParents`` -> ``find_parents``
3975
3567
* ``findPrevious`` -> ``find_previous``
3976
3568
* ``findPreviousSibling`` -> ``find_previous_sibling``
3977
3569
* ``findPreviousSiblings`` -> ``find_previous_siblings``
3978
3570
* ``getText`` -> ``get_text``
3979
3571
* ``nextSibling`` -> ``next_sibling``
3980
3572
* ``previousSibling`` -> ``previous_sibling``
3981
3573
3982
3574
Algunos argumentos del constructor de Beautiful Soup fueron renombrados
3983
3575
por la misma razón:
3984
3576
3985
3577
* ``BeautifulSoup(parseOnlyThese=...)`` -> ``BeautifulSoup(parse_only=...)``
3986
3578
* ``BeautifulSoup(fromEncoding=...)`` -> ``BeautifulSoup(from_encoding=...)``
3987
3579
3988
3580
Renombré un método para compatibilidad con Python 3:
3989
3581
3990
3582
* ``Tag.has_key()`` -> ``Tag.has_attr()``
3991
3583
3992
3584
Renombré un atributo para usar terminología más precisa:
3993
3585
3994
3586
* ``Tag.isSelfClosing`` -> ``Tag.is_empty_element``
3995
3587
3996
3588
Renombré tres atributos para evitar usar palabras que tienen un significado
3997
3589
especial en Python. A diferencia de otros, estos cambios no soportan
3998
3590
*compatibilidad hacia atrás*. Si usaste estos atributos en BS3, tu código
3999
3591
se romperá en BS4 hasta que lo cambies.
4000
3592
4001
3593
* ``UnicodeDammit.unicode`` -> ``UnicodeDammit.unicode_markup``
4002
3594
* ``Tag.next`` -> ``Tag.next_element``
4003
3595
* ``Tag.previous`` -> ``Tag.previous_element``
4004
3596
4005
3597
Estos métodos sobras desde la API de Beautiful Soup 2. Han quedado
4006
3598
obsoletos desde 2006, y no deberían usarse en absoluto:
4007
3599
4008
3600
* ``Tag.fetchNextSiblings``
4009
3601
* ``Tag.fetchPreviousSiblings``
4010
3602
* ``Tag.fetchPrevious``
4011
3603
* ``Tag.fetchPreviousSiblings``
4012
3604
* ``Tag.fetchParents``
4013
3605
* ``Tag.findChild``
4014
3606
* ``Tag.findChildren``
4015
3607
4016
3608
4017
3609
Generadores
4018
3610
-----------
4019
3611
4020
3612
Le di a los generadores nombres que cumplan con PEP 8, y se transformaron
4021
3613
en propiedades:
4022
3614
4023
3615
* ``childGenerator()`` -> ``children``
4024
3616
* ``nextGenerator()`` -> ``next_elements``
4025
3617
* ``nextSiblingGenerator()`` -> ``next_siblings``
4026
3618
* ``previousGenerator()`` -> ``previous_elements``
4027
3619
* ``previousSiblingGenerator()`` -> ``previous_siblings``
4028
3620
* ``recursiveChildGenerator()`` -> ``descendants``
4029
3621
* ``parentGenerator()`` -> ``parents``
4030
3622
4031
3623
Así que en lugar de esto::
4032
3624
4033
3625
 for parent in tag.parentGenerator():
4034
3626
     ...
4035
3627
4036
3628
Puedes escribir esto::
4037
3629
4038
3630
 for parent in tag.parents:
4039
3631
     ...
4040
3632
4041
3633
(Pero el código antiguo seguirá funcionando).
4042
3634
4043
3635
Algunos de los generadores solían devolver ``None`` después de que hayan
4044
3636
terminado, y después paran. Eso era un error. Ahora el generador tan solo
4045
3637
para.
4046
3638
4047
3639
Hay dos nuevos generadores, :ref:`.strings y .stripped_strings
4048
3640
<string-generators>`. ``.strings`` devuelve objetos NavigableString,
4049
3641
y ``.stripped_strings`` devuelve cadenas de Python cuyos espacios
4050
3642
en blanco al comienzo y al final han sido quitados.
4051
3643
4052
3644
XML
4053
3645
---
4054
3646
4055
3647
Ya no hay una clase ``BeautifulStoneSoup`` para analizar XML. Para
4056
3648
analizar XML pasas "xml" como el segundo argumento del constructor
4057
3649
de :py:class:`BeautifulSoup`. Por la misma razón, el constructor
4058
3650
de :py:class:`BeautifulSoup` ya no reconoce el argumento ``isHTML``.
4059
3651
4060
3652
La gestión de Beautiful Soup sobre las etiquetas XML sin elementos ha sido
4061
3653
mejorada. Previamente cuando analizabas XML tenías que indicar
4062
3654
explícitamente qué etiquetas eran consideradas etiquetas sin elementos.
4063
3655
El argumento ``selfClosingTags`` al constructor ya no se reconoce.
4064
3656
En lugar de ello, Beautiful Soup considera cualquier etiqueta vacía como
4065
3657
una etiqueta sin elementos. Si añades un hijo a una etiqueta sin elementos,
4066
3658
deja de ser una etiqueta sin elementos.
4067
3659
4068
3660
Entidades
4069
3661
---------
4070
3662
4071
3663
Una entidad HTML o XML entrante siempre se convierte al correspondiente
4072
3664
carácter Unicode. Beautiful Soup 3 tenía varias formas solapadas para
4073
3665
gestionar entidades, las cuales se han eliminado. El constructor de
4074
3666
:py:class:`BeautifulSoup` ya no reconoce los argumentos ``smartQuotesTo``
4075
3667
o ``convertEntities`` (`Unicode, Dammit`_ aún tiene ``smart_quotes_to``,
4076
3668
pero por defecto ahora transforma las comillas inteligentes a Unicode).
4077
3669
Las constantes ``HTML_ENTITIES``, ``XML_ENTITIES``, y ``XHTML_ENTITIES``
4078
3670
han sido eliminadas, ya que configuran una característica (transformando
4079
3671
algunas pero no todas las entidades en caracteres Unicode) que ya no
4080
3672
existe.
4081
3673
4082
3674
Si quieres volver a convertir caracteres Unicode en entidades HTML
4083
3675
a la salida, en lugar de transformarlos a caracteres UTF-8, necesitas
4084
3676
usar un :ref:`*formatter* de salida <output_formatters>`.
4085
3677
4086
3678
Otro
4087
3679
----
4088
3680
4089
3681
:ref:`Tag.string <.string>` ahora funciona recursivamente. Si una
4090
3682
etiqueta A contiene una sola etiqueta B y nada más, entonces
4091
3683
A.string es el mismo que B.string (Antes, era ``None``).
4092
3684
4093
3685
Los `atributos multivaluados`_ como ``class`` tienen listas de cadenas
4094
3686
de caracteres como valores, no cadenas. Esto podría afectar la manera
4095
3687
en la que buscas por clases CSS.
4096
3688
4097
3689
Objetos :py:class:`Tag` ahora implementan el método ``__hash__``, de tal
4098
3690
manera que dos objetos :py:class:`Tag` se consideran iguales si generan
4099
3691
el mismo marcado. Esto puede cambiar el comportamiento de tus scripts
4100
3692
si insertas los objetos :py:class:`Tag` en un diccionario o conjunto.
4101
3693
4102
3694
Si pasas a unos de los métodos ``find*`` una :ref:`cadena <string>` y
4103
3695
un argumento específico de una etiqueta como :ref:`name <name>`, Beautiful
4104
3696
Soup buscará etiquetas que casen con tu criterio específico de la etiqueta
4105
3697
y cuyo :ref:`Tag.string <.string>` case con tu valor para la :ref:`cadena <string>`.
4106
3698
`No` encontrará las cadenas mismas. Anteriormente, Beautiful Soup ignoraba el
4107
3699
argumento específico de la etiqueta y buscaba por cadenas de caracteres.
4108
3700
4109
3701
El constructor de :py:class:`Beautiful Soup` ya no reconoce el argumento
4110
3702
`markupMassage`. Es ahora responsabilidad del analizador gestionar el marcado
4111
3703
correctamente.
4112
3704
4113
3705
Los analizadores alternativos, que rara vez se utilizaban, como
4114
3706
``ICantBelieveItsBeautifulSoup`` y ``BeautifulSOAP`` se han eliminado.
4115
3707
Ahora es decisión del analizador saber cómo gestionar marcado ambiguo.
4116
3708
4117
3709
El método ``prettify()`` ahora devuelve una cadena Unicode, no un bytestring.
Status:	Merged
Merged at revision:	c9fe6065804af362c1c65ea85fece3cac31c2e82
Proposed branch:	~phoenixsite/beautifulsoup:master
Merge into:	beautifulsoup:master
Diff against target:	4117 lines (+4095/-0) 3 files modified doc.es/Makefile (+130/-0) doc.es/source/conf.py (+256/-0) doc.es/source/index.rst (+3709/-0)
Related bugs:	Link a bug report
Reviewer	Review Type	Date Requested	Status
Leonard Richardson		2024-01-09	Approve on 2024-01-13
Review via email: mp+458246@code.launchpad.net