HTML 格式化工具
使用 python 写的一个小工具,内嵌两个文件 html.py 和 html_parser.py,第一个是不依赖 HTMLParser 的,第二个是使用 HTMLParser 的,请尽量使用第二个版本,第一个还在完善中。目前复杂的 HTML 页面无法保证正常格式化,比如淘宝首页那种内嵌各种 script 的页面,无法正常格式化。内联的样式、脚本都保持原样,未进行任何格式化操作,下个版本会加入。
本地需要安装 python 2.5 或者 2.6 版本,3.0 或者 2.7 运行,九成会报错。win 下文件基本都抄自玉伯。
说明:
文件说明:
- 如果你使用的是 ubuntu 系统,只需要下载 html_parser.py 这个文件即可。
- 如果你使用的是 win 系统,则同时需要下载 format.cmd, install.cmd, install.inf, run.bat, uninstall.cmd 等文件
使用方法:
1.ubuntu:
运行: python html_parser.py test.html,生成test-order.html 运行: python html_parser.py test.html "w",则直接覆盖源文件 运行: python html_parser.py test.html test2.html,则格式化后文件将存储在 test2.html 中 如果要在 ipython 中运行可以使用 ipython …,或者 python -i …,后边与前相同
2.win:
运行 install.cmd 安装到右键,然后找到一个 html 文件,右键选择 format html 即可在同目录生成 *-order.html 文件
压缩包下载地址:http://code.google.com/p/html-format/downloads/detail?name=html-format.zip&can=2&q=
Google Code: http://code.google.com/p/html-format/
github: http://github.com/nanzhi/Html-Format
这篇文章发布于 2010年07月29日,星期四,11:47,归类于 编码。 您可以跟踪这篇文章的评论通过 RSS 2.0 feed。 您可以留下评论,或者从您的站点trackback。
小盆友,有空了到叔叔的blog里转转~
html_parser.py在格式化内联脚本的时候还是有问题,直接导致脚本报错~