如果我在网页上尝试wget,我将获取该页面为html.是否可以只检索没有关联html的文件的文本? (这是我需要的,因为一些HTML页面包含c程序正在下载html标签.我必须在浏览器中打开它并手动复制文本以生成.c文件.)解决方法:...

如果我在网页上尝试wget,我将获取该页面为html.是否可以只检索没有关联html的文件的文本? (这是我需要的,因为一些HTML页面包含c程序正在下载html标签.我必须在浏览器中打开它并手动复制文本以生成.c文件.)
解决方法:
wget只会检索文档.如果文档是HTML格式,那么您需要的是解析文档的结果.
例如,如果你有lynx,你可以使用lynx -dump -nolist.
lynx是一个轻量级,简单的Web浏览器,它具有-dump功能,用于输出解析过程的结果. -nolist避免最后的链接列表,如果页面有任何超链接,它将出现.
正如@Thor所提到的,elinks也可以用于此,因为它还有一个-dump选项(并且具有-no-引用以省略链接列表).如果您使用-sigh- frames(MTFBWY)走过某个站点,这可能特别有用.
另外,请记住,除非页面实际上只是带有HTML标记的C代码,否则您需要检查结果,以确保其中只有C代码.
本文标题为:linux – 如何使用没有html的wget获取页面文本?


- layui数据表格导入数据 2022-12-13
- 完美实现CSS垂直居中的11种方法 2022-11-13
- AJAX实现图片预览与上传及生成缩略图的方法 2023-01-21
- Vue+elementui防止重复提交 2023-10-08
- Javascript运行机制之Event Loop 2023-08-08
- TypeScript 类型编程之索引类型递归去掉可选修饰 2022-10-22
- HTML汉字编码标准介绍 2022-09-21
- vue-cli2 生成的项目打包优化(持续学习中) 2023-10-08
- vue项目打包分析 2023-10-08
- vue post application/x-www-form-urlencoded传参的解决方案 2023-10-08