Manual de usuario de calibre, Publicación 2.73.0
Convertir documentos PDF
Los documentos PDF son uno de los peores orígenes para la conversión. Se trata de un formato con tamaño de página
y posición de texto fijos. Esto significa que es muy difícil determinar dónde acaba un párrafo y empieza el siguiente.
calibre intentará unir los párrafos usando un Factor de unión de líneas configurable. Esto es una escala usada para
determinar la longitud requerida para unir los renglones. Los valores válidos son decimales entre 0 y 1. El valor
predeterminado es 0,45, algo por debajo de la longitud de renglón mediana. Reduzca el valor para incluir más texto en
la unión, auméntelo para incluir menos. Puede ajustar este valor en las opciones de conversión bajo Entrada PDF
Además, muchas veces tienen encabezados y pies de página como parte del documento, que aparece incluido con el
texto. Use el panel de búsqueda y sustitución para eliminar encabezados y pies de página y solucionar este problema.
Si los encabezados y pies de página no se eliminan del texto pueden afectar a la unión de párrafos. Para aprender
cómo usar las opciones de eliminación de encabezados y pies de página, vea Todo acerca de cómo utilizar expresiones
regulares en calibre (página 177).
Algunas limitaciones de la entrada de PDF son:
No soporta documentos complejos, con columnas múltiples o basados en imágenes.
Tampoco soporta la extracción de imágenes vectoriales y tablas incluidos en el documento.
Algunos PDF usan glifos especiales para representar «ll», «ff», «fi», etc. La conversión de éstos puede o no
funcionar dependiendo de cómo se representant internamente en el PDF.
No soporta enlaces e índices
Los PDF que utilizan fuentes incrustadas que no son unicode para representar caracteres no ingleses darán un
resultado incorrecto para dichos caracteres.
Algunos PDF están hechos de fotografías de la página con el texto resultante del OCR (reconocimiento óptico
de caracteres) oculto tras la imagen. En tales casos calibre utiliza el texto del OCR, que puede ser muy diferente
de lo que se ve al visualizar el archivo PDF.
Los PDF usados para mostrar texto complejo, como idiomas que se leen de derecha a izquierda y expresiones
matemáticas, no se convertirán correctamente.
Insisto, PDF es un formato muy, muy malo para usarlo como entrada. Si de todas formas tiene que usar PDF, esté
preparado para obtener una salida entre decente e inservible, según cómo sea el PDF de entrada.
Colecciones de libros de historietas
Una colección de libros de historietas es un archivo .cbc. Un archivo .cbc es un archivo zip que contiene otros archivos
CBZ o CBR. Además el archivo .cbc debe contener un archivo de texto llamado comics.txt, codificado en UTF8. El archivo comics.txt debe contener un listado de los archivos de historieta dentro del archivo .cbc, de la forma
nombredearchivo:titulo, como se muestra a continuación:
one.cbz:Chapter One
two.cbz:Chapter Two
three.cbz:Chapter Three
El archivo .cbc contendrá:
comics.txt
one.cbz
two.cbz
three.cbz
calibre convertirá automáticamente este archivo .cbc en un libro electrónico con un índice que apunta a cada entrada
en comicx.txt.
72
Capítulo 1. Secciones