Skip to content

oldyears/PDF-AddBookmark

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

11 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

PDF-Catalog-identification-and-production

对PDF进行自动的目录识别和制作

1. 背景

由于本人在使用PDF电子教材时,偶尔会出现没有书签、书签信息简略、书签对应关系错误的情况,因此决定尝试制作PDF电子书签生成自动化,主要想解决书签缺失、书签格式错误、书签无法跳转、书签对应关系错误等问题

1.1 不同的PDF处理方式

在查阅资料之后,一般PDF可分为:

  • 在网上能直接找到书签文件的
  • 无直接书签来源的

而一般书签文件的来源都是[超星](超星读书-电子书在线免费阅读网站-中文免费电子书阅读网站 (chaoxing.com)),第二种情况则需要去超星平台通过网页元素提取或下载单页PDZ(超星独有的PDF存储格式)来间接获取书签文件;而第一种情况则是,通过[书葵网](书葵网_海量图书检索下载 (shukui.net))来爬取相关书籍的目录文件,但这种目录文件是最原始的文本格式,因此还需要进一步通过第三方工具或python脚本将其添加到目标PDF中

About

对PDF进行自动的目录识别和制作

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages