HTML 转 TEXT
html2text
将HTML转化为TEXT。当时是和HTML显示格式一致的文本格式。使用-utf8选项来支持UTF-8文本。
Homepage: http://www.mbayer.de/html2text/
lynx
lynx -dump input.html > output.txt
lynx是一个文字界面的浏览器,但是其–dump选项,可以将页面转化为文本。
Homepage: http://lynx.invisible-island.net/
类似的工具还有Links:http://links.twibright.com/
w3m
w3m -dump input.html > output.txt
links
links -dump input.html > output.txt