问题描述
该笔记将记录:在 Linux 中,进行各种文件格式的互相转换操作,以及相关问题的解决办法。
pandoc
Pandoc – About pandoc
bash – HTML/PDF to DOC(X) in Linux command line? – Super User
该笔记将记录:在 Linux 中,通过 pandoc 转换文档的常用操作,及相关问题的解决方案。
在 Linux 中,多数文档格式的转换工作,都可以使用 pandoc 完成。在官方首页中,有张“很大的”图片,列出 pandoc 支持的全部文档转换。
HTML => DOCX
pandoc -o output.docx input.html
图片文字提取(OCR)
# 05/03/2022 我们使用 gImageReader 工具:
# apt install gimagereader # apt install tesseract-ocr-chi-*