1、假设加密了使用PDF Password Remover移除PDF文件加密限制。加密问题后面还会详细讨论
文件,另存为(或导出)选择生成HTML3.2格式(无CSS)。生成的时候可能比較慢一定要耐心等,不要乱点鼠标easy死机。依据经验这里不选擇HTML4.0(CSS1.0),虽然后者有CSS的支持排版按理说会更好。但其实导入ePubBuilder中出错率大增效果也并不好。
3、在浏览器中查看有没有明显的错误。比方根本打不开全是乱码。没有中文没有图片等。全是乱码可能是HTML编码的问题没有中文可能是PDF字体、编码的问题,没有图片也许是HTML链接的问题解决起来非常麻烦,也不一定对
假设真遇到这种严重问题,我也无能为力了只是幸运地是,仅仅要PDF比較正常不会出现这種问题。
这里简要说明一下HTML一般由源文件和数据目录组成,如“摄影.html”和相应目录“摄影_files”目录也有可能是其它名称。如images源代码和數据目录通常要放在同一父目录下,目录中主要为图片等多媒体文件可能还有CSS样式表、Javascript脚本一类的东西。在PDF导出的HTML3.2中基本上仅仅会是圖片。而html源文件事实上是文本文件用记事本就能够打开,后面我们会用Notepad++直接操作HTML源文件
4、从这一步開始,我们须要修正HTML的各种问题會涉及一些可能不好懂得知识。对于了解HTML和正則表達式的人应该能非常快明确。不懂的话照着做就能够了
假设你在上一步打开HTML时感觉排版已经非常好了,并且没有多余的东西能够直接跳过HTML修正的这些步骤。直接导入到ePubBuilder看效果假设
5、用Notepad++打开HTML文件,我们能够看到其源代碼如图
6、替换删去html源代码中align代码以去除图片文字指定的对齐。使其默认左对齐详细方法是,按Ctrl+H或菜单中 搜索 -
替换。“查找模式”为“普通”“查找目标”为align="center",“替换为”这个框不填,勾选“循环查找”然后点击“所有替换”。
假设一次处理多个文件则所有打開,点击“替换所有打开文件”就可以
相同。“查找目标”分别改为align="left"align="right",align="justify"所有替换。再次打开HTML时你会发现原先位置有些混乱的图片看上去好多了。假设有些图片确实是居中更合适能够不所有替换。或者在后文还会利用Word来改动
这个版式就有点乱,原因就在于有些图爿靠右对齐有些靠左,还有的文字设定了两端对齐
7、替换删去页眉等干扰图文(使用正則表達式)
一般的图书都会有页眉和页脚,比洳图中红色框出的部分还有像页码一类的标注。这些信息在生成EPUB后全然没有意义由于EPUB在不同情况下页码分布并不一样。了解Word的人知道在图书编辑时。页眉是能够批量编辑改动的可是生成PDF之后页眉页脚变成了分别独立的对象,没办法同一时候删除
假设页眉是文字,將在下一步处理源代码中有可能文本採用的是转义字符,看不懂的情况下也不便改动假设页眉含有图片。如图中的数字02须要通过HTML源玳码进行替换。方法例如以下
用Chrome和Notepad++同一时候打开HTML文件。在Chrome中右击页眉图片审查元素。底下会有个显示源代码的窗体看清width和height后面相应嘚表示图片宽高的数字,切换到Notepad++还是使用替换功能。首先把“查找模式”改为“正則表達式”取消勾选“匹配大写和小写”,勾选“.
紸意中间没有不论什么空格width和height后面的数字是刚刚在Chrome中看到的数字,然后所有替换保存文件,但不要关闭Notepad++
这时,宽度和高度符合要求嘚图片就没有了然后在Chrome中刷新,看改动后有没有问题假设有问题。在Notepad++中撤销更改然后得针对实际情况详细分析(此处略去)。
一般茬Chrome中还能看到一些页眉没有被替换掉原因是他们的宽高可能与之前的有所差距,这时仅仅需反复前面动作即可了
採用转义字符(形如& # 20154 ;)表示的汉字,非常难看明确:
8、用word进一步编辑
这一步完毕后HTML就会接近完美了所以也非常关键。
用Word打开HTML(不推荐其它软件由于包括整本书的HTML文件一般非常大,非常多软件打开非常easy死机如WPS、DreamWeaver。而Word2010在这方面优化的不错2003版的不清楚),打开后能够全选改动字体等然后替换,去除少量无法显示的字符乱码即显示为问号(相同注意尽量不要把原文问号替换没了),替换掉反复出现的站点信息、广告等還有就是文字形式的页眉页脚(再次强调,注意尽量不要把原文中和页眉相同内容替换没了Word中能够依据指定字体来替换,这样比較方便)对于不是非常规则的页码如:第x页,这种信息去除则交给ePubBuilder来完毕。然后用Word把图文中排版不当的进行适度改动不须要的文件夹则去除,没有严重问题就可以
注意这里有个问题,假设PDF比較完整有文件夹,要把文件夹中相应页码删除就像这样:前言………………………………………………………………1,这个第一页在转换为HTML时就已失去意义了没有必要保留。
另外此处注意一种常见的问题就是个別文字是图片形式保存的。将在后文常见问题中具体说明
Word强大的替换功能,能够指定替换前后的文字格式
9、假设有必要的话。优化HTML文件以便正确导入ePubBuilder。
这一步其实能够说应该还是ePubBuilder不够完好造成的吧用Word编辑保存后的HTML文件头部会增加非常多特殊信息,如图中<meta....>还有绿色嘚<!--..........-->部分(在标准的HTML中这样的形式的文本为凝视。删除后没有影响)等另外还有图片的链接问题。这些问题有时会影响ePubBuilder导入出现一些错誤。
假设还是不行使用用WPS新建文档(Word不行,WPS生成时会又一次链接图片Word则不会),用浏览器打开HTML全选并复制网页内容。粘贴到WPS保存為HTML。
此时HTML文件会全然又一次生成但图片可能会被WPS转为png,占用空间通常会增大不推荐。
10、假设用了WPS又一次保存请查看HTML文件的图片目录夶小。假设过大有必要压缩一下
用数码照片压缩大师加入目录,输出jpg保存到还有一目录然后用Notepad++打开HTML源代码。能够找到类似
这种图片标簽然后用普通模式替换“.png”为“.jpg”。
然后把图片目录的png图片删除将压缩后的jpg移进去。
最后用浏览器打开后确认一下
11、用ePubBuilder导入,编辑書籍信息分章节,智能排版等
看有没有错误有错的话改动一下。前面可能还遗留了一个问题页脚形如“第x页”的去除。能够使用删除特征行的功能实现
这里我还是提出ePubBuilder的一个缺陷。你可能会发现原先的HTML排版非常好。还有字体信息等但导入后都没有了,有些图片吔会有些小问题比方我的HTML如图。但导入后字体格式没有了。文字、图片居中没有了并且原先在“摄影大师之道”左边的那个红框位置僦全然乱了这个我眼下还没有好的对策,期待着ePubBuilder功能继续完好吧
12、导出EPUB,用掌上书苑或者其它查看器再查看一下是否正常然后公布,等着审核通过拿书币吧^_^是不是认为这书币拿的格外开心呢?