Eliminar etiquetas HTML — Herramienta gratuita en línea
¿Qué es Eliminar etiquetas HTML?
La herramienta «Eliminar etiquetas HTML» es una utilidad de análisis que elimina por completo todo el lenguaje de marcado de un documento, dejando solo el texto plano puro y legible para el ser humano. Al copiar contenido del código fuente de sitios web, fuentes RSS o editores de correo electrónico de texto enriquecido, el texto suele quedar oculto bajo capas de etiquetas estructurales como <div>, <p> y <span>.
Esta herramienta elimina al instante los corchetes y el código que contienen, al tiempo que decodifica las entidades HTML (como & o ) para convertirlas de nuevo en sus caracteres estándar. Es fundamental para la limpieza de datos extraídos de la web.
¿Cuándo usar Eliminar etiquetas HTML?
Utiliza esta herramienta para extraer contenido de conjuntos de datos obtenidos mediante web scraping, descripciones de fuentes RSS o archivos de correo electrónico en formato HTML sin procesar. Los especialistas en SEO la utilizan para extraer texto sin formato del código fuente de la página de un competidor y analizarlo con un comprobador de densidad de palabras clave.
Los administradores de CMS la utilizan para corregir artículos en los que el código HTML defectuoso está afectando a la visualización. Si has copiado texto visualmente de una página web y solo quieres eliminar los artefactos de formato invisibles, el Convertidor de texto sin formato, de uso más general, podría ser más adecuado.
Cómo usar esta herramienta
- 1Paste your HTML code or HTML-laden text
- 2Click 'Remove HTML Tags'
- 3Copy the clean plain text output
La herramienta se centra en todo lo que se encuentre entre corchetes angulares (<tag>). Ten cuidado: si tienes texto matemático como «x < y», los extractores de HTML básicos podrían eliminar por error todo lo que haya después del signo menor que.
Ejemplos
| Input | Output |
|---|---|
| <p>Hello <b>World</b></p> | Hello World |
| <h1>Title</h1><p>Body text</p> | TitleBody text |
| Price & Tax: <$100> | Price & Tax: <$100> |
| <ul><li>Item 1</li><li>Item 2</li></ul> | Item 1Item 2 |
| <script>alert('xss')</script>safe text | safe text |
Reglas y comportamiento
- Cualquier texto entre corchetes angulares (por ejemplo, <p>, </a>, <img src='...'>) se identifica como una etiqueta HTML y se elimina por completo.
- La herramienta convierte las entidades HTML habituales en texto legible. Por ejemplo, & se convierte en &, < se convierte en < y © se convierte en ©.
- El texto que aparece fuera de los corchetes —el contenido real legible de la página web— se conserva con su formato original.
Herramientas relacionadas
Preguntas frecuentes
¿Por qué tengo que eliminar las etiquetas HTML?
Si copias el código fuente sin procesar de una página web o utilizas un script para extraer datos, el texto relevante viene repleto de instrucciones de formato (como <b> para la negrita o <a href='...'> para los enlaces). Al eliminar las etiquetas HTML, se suprime el «código» y te quedas con el artículo o los datos reales que deseas leer o analizar.
¿Decodifica entidades HTML?
Sí. Los navegadores web utilizan códigos específicos para mostrar caracteres especiales (por ejemplo, al escribir «&» en el código, se muestra el símbolo «&» en la página). Esta herramienta no solo elimina las etiquetas estructurales <>, sino que también convierte esas entidades codificadas en signos de puntuación normales y legibles.
¿Eliminará el JavaScript?
Un extractor de HTML de alta calidad elimina las etiquetas <script> y el código de programación que contienen, ya que el código JavaScript no es texto de artículo legible para los humanos. Del mismo modo, el código CSS que se encuentra entre las etiquetas <style> suele eliminarse.
¿En qué se diferencia esto de la generación de texto sin formato?
La conversión a texto sin formato suele trabajar con datos del portapapeles, eliminando el formato de negrita, cursiva y tamaño de fuente del texto que se ha copiado de Word o de una página web visualizada. La eliminación de etiquetas HTML sirve específicamente para limpiar la cadena de código fuente subyacente sin formato.
¿Se borrarán mis ecuaciones matemáticas?
Es posible. Dado que las etiquetas HTML utilizan los símbolos «menor que» (<) y «mayor que» (>), un programa básico de eliminación de caracteres podría interpretar «A < B y C > D» y pensar erróneamente que «< B y C >» es una extraña etiqueta HTML, por lo que la eliminaría. Revisa siempre los textos con fórmulas matemáticas o con mucho código después de aplicar la eliminación de caracteres.