linux – 如何使用没有html的wget获取页面文本？

沃梦达教程前端开发

2023-10-25

如果我在网页上尝试wget,我将获取该页面为html.是否可以只检索没有关联html的文件的文本？ (这是我需要的,因为一些HTML页面包含c程序正在下载html标签.我必须在浏览器中打开它并手动复制文本以生成.c文件.)解决方法:...

如果我在网页上尝试wget,我将获取该页面为html.是否可以只检索没有关联html的文件的文本？ (这是我需要的,因为一些HTML页面包含c程序正在下载html标签.我必须在浏览器中打开它并手动复制文本以生成.c文件.)

解决方法:

wget只会检索文档.如果文档是HTML格式,那么您需要的是解析文档的结果.

例如,如果你有lynx,你可以使用lynx -dump -nolist.

lynx是一个轻量级,简单的Web浏览器,它具有-dump功能,用于输出解析过程的结果. -nolist避免最后的链接列表,如果页面有任何超链接,它将出现.

正如@Thor所提到的,elinks也可以用于此,因为它还有一个-dump选项(并且具有-no-引用以省略链接列表).如果您使用-sigh- frames(MTFBWY)走过某个站点,这可能特别有用.

另外,请记住,除非页面实际上只是带有HTML标记的C代码,否则您需要检查结果,以确保其中只有C代码.

本文标题为：linux – 如何使用没有html的wget获取页面文本？

下一篇： docker+nginx部署静态网页(html)