Manual de usuario de calibre, Publicación 2.73.0
devuelve un navegador ‘mechanize‘_ que soporta cookies, ignora robots.txt, tiene en cuenta los refrescos y tiene un agente de usuario de tipo mozilla firefox.
Si la fórmula requiere un inicio de sesión, reemplace este método en la subclase. Por ejemplo, el siguiente
código se usa en la fórmula del New York Times para iniciar la sesión y tener acceso total:
def get_browser(self):
br = BasicNewsRecipe.get_browser(self)
if self.username is not None and self.password is not None:
br.open('http://www.nytimes.com/auth/login')
br.select_form(name='login')
br['USERID']
= self.username
br['PASSWORD'] = self.password
br.submit()
return br
get_cover_url()
Devuelve un URL para la imagen de portada de este número o None. De manera predeterminada, devuelve
el valor del miembro self.cover_url que es normalmente None. Si quiere que la fórmula descargue una
portada para el libro electrónico reemplace este método en la subclase, o establezca la variable miembro
self.cover_url antes de utilizar este método.
get_extra_css()
De manera predeterminada devuelve self.extra_css. Reemplácelo si desea generar el archivo extra_css
mediante un programa.
get_feeds()
Devuelve una lista de canales RSS para obtener en este perfil. Cada elemento de la lista debe ser una tupla
de 2 elementos de la forma (título, url). Si el título es None o un texto vacío, se utiliza el título del canal
RSS. Este método es útil si la fórmula tiene que hacer algún tipo de procesado para obtener la lista de
canales RSS para descargar. Si es así, reemplácelo en la subclase.
get_masthead_title()
Reemplácelo en la subclase para usar algo distinto del título de la fórmula
get_masthead_url()
Devuelve un URL a la imagen de cabecera de este número o None. De manera predeterminada, devuelve
el valor del miembro self.masthead_url que es normalmente None. Si quiere que la fórmula descargue una
imagen de cabecera para el libro electrónico reemplace este método en la subclase, o establezca la variable
miembro self.masthead_url antes de utilizar este método. Las imágenes de cabecera se usan en los archivos
MOBI de Kindle.
get_obfuscated_article(url)
Si establece articles_are_obfuscated este método se usa con cada URL de artículo. Debe devolver la ruta
de acceso a un archivo en el sistema que contenga el código HTML del artículo. Este archivo es procesado
por el motor de recolección de HTML recursivo, por lo que puede contener enlaces a páginas o imágenes
en Internet.
Este método es normalmente útil para sitios que tratan de dificultar el acceso automático al contenido de
los artículos.
classmethod image_url_processor(baseurl, url)
Realiza algún procesado sobre las direcciones URL de las imágenes (tal vez eliminando restricciones de
tamaño para imágenes generadas dinámicamente, etc.) y devuelve la dirección URL procesada.
index_to_soup(url_or_raw, raw=False, as_tree=False)
Método práctico que toma el URL de una página de índice y devuelve un objeto BeautifulSoup16 que lo
representa.
16
48
http://www.crummy.com/software/BeautifulSoup/bs3/documentation.html
Capítulo 1. Secciones