ToolMill.io

HTML 到纯文本转换器

在清理电子邮件模板时将 HTML 转换为纯文本, 删除片段, CMS 导出, 支持内容, 或复制网页 。 它帮助您快速去除标记,同时为注释,文档,提示或下游处理保留可读文本. ToolMill 进行内浏览器的转换,当源 HTML 包含私有或客户端敏感的内容时,此功能是有用的.

文本

试试看

实例

文本基本 HTML
投入
<h1>Hello</h1><p>World</p>
产出
Hello
World
格式化 HTML 为纯文本
投入
<div><strong>Bold</strong> and <em>italic</em></div>
产出
Bold and italic

HTML 如何完成文本转换工作

这个工具取了被粘贴的 HTML,取出可读文本内容,去掉标记,并返回一个更简单的纯文本版本. 当您需要片段中的单词时, 不需要将标签、 内线样式、 或显示标记为注释、 提示或其他系统时, 会有帮助 。

哪些被删除,哪些被留下

标记、属性和格式化指令被剥去,而可读文本被留下。 目标不是保留准确的布局. 相反,它保留了文本本身,并放下主要控制浏览器或电子邮件客户端中的演示文稿的HTML结构.

何时使用 HTML 到文本转换器

典型的使用案例包括清理被复制的电子邮件模板,从CMS内容中取出措辞,从被刮去的片断中去掉标记,为纯文本注释或搜索索引准备网页内容. 如果格式层被完全取出,这也是一种快速的观察方法。

示例:链接、标题和段落

一个标题或被链接的短语通常成为可读取的文本,而不是带有可点击属性的样式块. 这使得结果更容易被粘贴到仅文本的目的地,但也意味着视觉分级和链接元数据不再以同一种形式存在.

示例:列表、换行符和额外间距

清单项目和换行符可能比手工编辑的转换更加平整。 这对轻量级的纯文本提取是正常的。 如果精确的间隔很重要, 请使用输出作为起点, 然后手动整理文本, 以您所关心的目的地 。

HTML 清理中常见的边缘大小写

HTML实体,非破解空格,嵌入标记,注释等被粘贴不当的标记都可能影响最终的平文字结果. 当源头混乱时,最安全的预期是可读取取出,而不是完美地取用原始视觉结构.

纯文本转换的限制

这不是保留格式的导出工具 。 表格,精确布局,CSS含义,以及一些文档结构可以被缩小或丢失. 对于许多可以接受的清理任务,但在依赖输出来发布或存档之前值得知道.

敏感 HTML 内容的隐私说明

在您重新使用用于出版或分析的摘录文本之前

在重用另一个系统中的输出之前, 请检查标题、 链接、 表格以及隐藏或重复的内容是否按照您的工作流程所期望的方式处理 。 快速本地转换对于清理和检查很有用,但重要的出版或分析任务仍然得益于最后的人工审查.

何为 HTML- to- Text 转换 May Omit, Flatten, 或重排

HTML 包含了纯文本无法精确保存的结构. 列表,表格,嵌入元素,造型,以及一些语义上的区别在输出时可能被平分或简化. 其结果对审查和再利用很有用,但不应把它作为每个工作流程中原始加价的完美替代品。

如何解释从 HTML 提取的文本

被取出的案文是对源 HTML 中所示内容的可读近似,而不是浏览器如何视像渲染每个元素的完美镜像. 换行时可以简化换行,间隔,隐藏内容,链接处理,以及结构提示等功能,因此结果应被读取为已清理的文本而不是布局忠实的输出.

如果您正在清理客户邮件, 内部模板, 或复制 admin-panel HTML, 将转换保存在浏览器内, 通常比粘贴内容到远程服务更舒适 。 这页是为快速本地工作流程设计的。

相关工具