对PDF进行自动的目录识别和制作
由于本人在使用PDF电子教材时,偶尔会出现没有书签、书签信息简略、书签对应关系错误的情况,因此决定尝试制作PDF电子书签生成自动化,主要想解决书签缺失、书签格式错误、书签无法跳转、书签对应关系错误等问题
在查阅资料之后,一般PDF可分为:
- 在网上能直接找到书签文件的
- 无直接书签来源的
而一般书签文件的来源都是[超星](超星读书-电子书在线免费阅读网站-中文免费电子书阅读网站 (chaoxing.com)),第二种情况则需要去超星平台通过网页元素提取或下载单页PDZ(超星独有的PDF存储格式)来间接获取书签文件;而第一种情况则是,通过[书葵网](书葵网_海量图书检索下载 (shukui.net))来爬取相关书籍的目录文件,但这种目录文件是最原始的文本格式,因此还需要进一步通过第三方工具或python脚本将其添加到目标PDF中