1. 使用 html2md.py
脚本把网页转换成 Markdown
文本
./html2md.py 'https://www.ruyile.com/xuexiao/?a=183&t=3&p=1' >x01.txt
./html2md.py 'https://www.ruyile.com/xuexiao/?a=183&t=3&p=2' >x02.txt
...
./html2md.py 'https://www.ruyile.com/xuexiao/?a=183&t=3&p=14' >x14.txt
2. 因为脚本是在容器中运行,所以先打包,下载到Windows下合并
$ tar cvf x.tar x*.txt
# x01.txt + x02.txt + x03.txt + x04.txt + x05.txt + x06.txt + x07.txt + x08.txt + x09.txt + x10.txt + x11.txt + x12.txt + x13.txt + x14.txt
$ sz x.tar
# windows 下解压tar,cmd命令合并成一个文件
copy x01.txt + x02.txt + x03.txt + x04.txt + x05.txt + x06.txt + x07.txt + x08.txt + x09.txt + x10.txt + x11.txt + x12.txt + x13.txt + x14.txt new.txt
3. VS code 中使用 正则语法多行替换
####\s+\[(.*)\].*\n\n(电话.*)\n(邮编.*)\n(地址.*)\n
X选择X\t$1\t$2\t$3\t$4
4. 使用文本排序后,剔除垃圾信息,就可以复制到EXCEL使用
- Excel 里按邮编和名称排序,学校就按县级市分类整理好了
5. 转换成PDF打印使用
本原创文章自由转载,转载请注明本博来源及网址 | 当前页面:
兰雅sRGB个人笔记 »
提取学校地址信息到EXCEL表格整理打印