Manual de usuario de calibre, Publicación 2.73.0
enlaces. Puede usarse para efectuar un procesado arbitrario sobre el HTML. Debe devolver soup después del procesado.
Parámetros soup – Un objeto BeautifulSoup 17 que contiene el HTML descargado. first _ fetch – True si ésta es la primera página de un artículo.
preprocess _ html( soup) Este método se ejecuta con el código fuente de cada archivo HTML, antes de analizar sus imágenes y enlaces. Se ejecuta después de la limpieza especificada por remove _ tags, etc. Puede usarse para efectuar un preprocesado arbitrario sobre el HTML. Debe devolver soup después del procesado.
soup: Un objeto BeautifulSoup 18 que contiene el HTML descargado.
preprocess _ raw _ html( raw _ html, url) Este método se ejecuta con el código fuente de cada archivo HTML, antes de convertirlo en un árbol de objetos. raw _ html es un texto unicode que representa el HTML en bruto descargado de Internet. url es la dirección URL desde donde se descargó el HTML.
Tenga en cuenta que este método actúa antes de preprocess _ regexps. Este método debe devolver el archivo raw _ html procesado como un objeto unicode.
classmethod print _ version( url) Tomar un url que apunta a la página de Internet con el contenido del artículo y devuelve el URL de la versión para imprimir del artículo. De manera predeterminada no hace nada. Por ejemplo:
def print _ version( self, url): return url + '?& pagewanted = print '
skip _ ad _ pages( soup) Este método se ejecuta con el código fuente de cada archivo HTML descargado, antes de aplicar ningún atributo de limpieza como remove _ tags o keep _ only _ tags. Tenga en cuenta que preprocess _ regexps ya se habrá aplicado. Está pensado para permitir que la fórmula evite las páginas de publicidad. Si soup representa una página de publicidad, devuelve el HTML de la página real. De lo contrario devuelve None.
soup: Un objeto BeautifulSoup 19 que contiene el HTML descargado.
sort _ index _ by( index, weights) Método práctico para ordenar los títulos en index según weights. index se ordena en su lugar. Devuelve index.
index: Una lista de títulos.
weights: Un diccionario que asigna pesos a los títulos. Si un título del índice no está en weights, se asume que tiene un peso de 0.
classmethod tag _ to _ string( tag, use _ alt = True, normalize _ whitespace = True) Método práctico que toma un objeto Tag de BeautifulSoup 20 y extrae el texto recursivamente, incluyendo secciones CDATA y atributos « alt ». Devuelve un texto unicode posiblemente vacío.
use _ alt: Si es True intenta usar el atributo « alt » para las etiquetas que no poseen contenido textual tag: Un objeto Tag de BeautifulSoup 21
17 http:// www. crummy. com / software / BeautifulSoup / bs3 / documentation. html 18 http:// www. crummy. com / software / BeautifulSoup / bs3 / documentation. html 19 http:// www. crummy. com / software / BeautifulSoup / bs3 / documentation. html 20 http:// www. crummy. com / software / BeautifulSoup / bs3 / documentation. html 21 http:// www. crummy. com / software / BeautifulSoup / bs3 / documentation. html
50 Capítulo 1. Secciones