蘭雅sRGB 个人笔记 https://262235.xyz
提供编程和电脑应用视频教程,工具和源代码
C, C++, Python Programming, Source Code, Video

旧Hexo博客 | Github | 蘭雅小店 | IP定位WebAPI | Docker Hub
编程中文文档 | 公益中小学视频 | 网盘分享 | 中文Linux命令

提取学校地址信息到EXCEL表格整理打印

MK.png

1. 使用 html2md.py 脚本把网页转换成 Markdown 文本

./html2md.py  'https://www.ruyile.com/xuexiao/?a=183&t=3&p=1' >x01.txt
./html2md.py  'https://www.ruyile.com/xuexiao/?a=183&t=3&p=2' >x02.txt
...
./html2md.py  'https://www.ruyile.com/xuexiao/?a=183&t=3&p=14' >x14.txt

2. 因为脚本是在容器中运行,所以先打包,下载到Windows下合并

$ tar cvf x.tar x*.txt
# x01.txt + x02.txt + x03.txt + x04.txt + x05.txt + x06.txt + x07.txt + x08.txt + x09.txt + x10.txt + x11.txt + x12.txt + x13.txt + x14.txt
$ sz x.tar 
# windows 下解压tar,cmd命令合并成一个文件
copy x01.txt + x02.txt + x03.txt + x04.txt + x05.txt + x06.txt + x07.txt + x08.txt + x09.txt + x10.txt + x11.txt + x12.txt + x13.txt + x14.txt  new.txt

3. VS code 中使用 正则语法多行替换

####\s+\[(.*)\].*\n\n(电话.*)\n(邮编.*)\n(地址.*)\n
X选择X\t$1\t$2\t$3\t$4

REG.png

4. 使用文本排序后,剔除垃圾信息,就可以复制到EXCEL使用

  • Excel 里按邮编和名称排序,学校就按县级市分类整理好了

5. 转换成PDF打印使用

PDF.png

本原创文章自由转载,转载请注明本博来源及网址 | 当前页面:蘭雅sRGB 个人笔记 » 提取学校地址信息到EXCEL表格整理打印