TC

Αφαίρεση ετικετών HTML — Δωρεάν διαδικτυακό εργαλείο

Processed locally. No data stored. Free forever.
0 chars
Processing Settings

Τι είναι Αφαίρεση ετικετών HTML?

Το εργαλείο «Αφαίρεση ετικετών HTML» είναι ένα βοηθητικό πρόγραμμα ανάλυσης που αφαιρεί ριζικά όλες τις ετικέτες σήμανσης από ένα έγγραφο, αφήνοντας μόνο τον καθαρό, ευανάγνωστο απλό κείμενο. Κατά την αντιγραφή περιεχομένου από τον πηγαίο κώδικα ιστότοπων, ροές RSS ή επεξεργαστές email εμπλουτισμένου κειμένου, το κείμενο συχνά κρύβεται κάτω από στρώματα δομικών ετικετών όπως <div>, <p> και <span>.

Αυτό το εργαλείο αφαιρεί αμέσως τις αγκύλες και τον κώδικα που βρίσκεται μέσα σε αυτές, ενώ παράλληλα αποκωδικοποιεί τις οντότητες HTML (όπως &amp; ή &nbsp;) επαναφέροντάς τις στους τυπικούς τους χαρακτήρες. Είναι ζωτικής σημασίας για τον καθαρισμό δεδομένων που έχουν συλλεχθεί από το διαδίκτυο.

Πότε να χρησιμοποιήσετε Αφαίρεση ετικετών HTML?

Χρησιμοποιήστε αυτό το εργαλείο όταν εξάγετε περιεχόμενο από σύνολα δεδομένων που έχουν συλλεχθεί μέσω web scraping, περιγραφές RSS feed ή αρχεία email σε μορφή ακατέργαστου HTML. Οι ειδικοί SEO το χρησιμοποιούν για να εξάγουν καθαρό κείμενο από τον πηγαίο κώδικα της σελίδας ενός ανταγωνιστή, προκειμένου να το επεξεργαστούν με ένα Keyword Density Checker.

Οι διαχειριστές CMS το χρησιμοποιούν για να διορθώσουν άρθρα στα οποία ο κατεστραμμένος κώδικας HTML επηρεάζει την οπτική απεικόνιση. Εάν αντιγράψατε κείμενο οπτικά από μια ιστοσελίδα και θέλετε απλώς να αφαιρέσετε αόρατα στοιχεία μορφοποίησης, το ευρύτερο Plain Text Converter μπορεί να είναι πιο κατάλληλο.

Πώς να χρησιμοποιήσετε αυτό το εργαλείο

  1. 1Paste your HTML code or HTML-laden text
  2. 2Click 'Remove HTML Tags'
  3. 3Copy the clean plain text output

Το εργαλείο στοχεύει οτιδήποτε βρίσκεται μέσα σε αγκύλες (<tag>). Προσοχή: αν έχετε μαθηματικό κείμενο όπως «x < y», τα βασικά εργαλεία αφαίρεσης HTML ενδέχεται να διαγράψουν κατά λάθος ό,τι βρίσκεται μετά το σύμβολο «μικρότερο από».

Παραδείγματα

InputOutput
<p>Hello <b>World</b></p>Hello World
<h1>Title</h1><p>Body text</p>TitleBody text
Price &amp; Tax: &lt;$100&gt;Price & Tax: <$100>
<ul><li>Item 1</li><li>Item 2</li></ul>Item 1Item 2
<script>alert('xss')</script>safe textsafe text

Κανόνες & Συμπεριφορά

  • Οποιοδήποτε κείμενο περικλείεται σε αγκύλες (π.χ. <p>, </a>, <img src='...'>) αναγνωρίζεται ως ετικέτα HTML και διαγράφεται πλήρως.
  • Το εργαλείο μετατρέπει τις συνήθεις οντότητες HTML σε αναγνώσιμο κείμενο. Για παράδειγμα, το &amp; μετατρέπεται σε &, το &lt; σε < και το &copy; σε ©.
  • Το κείμενο που βρίσκεται εκτός των αγκυλών —το πραγματικό, αναγνώσιμο περιεχόμενο της ιστοσελίδας— διατηρείται στην αρχική του μορφή.

Σχετικά Εργαλεία

Συχνές Ερωτήσεις

Γιατί πρέπει να αφαιρέσω τις ετικέτες HTML;

Αν αντιγράψετε τον ακατέργαστο πηγαίο κώδικα από μια ιστοσελίδα ή χρησιμοποιήσετε ένα σενάριο για την εξαγωγή δεδομένων, το ουσιαστικό κείμενο είναι γεμάτο με εντολές μορφοποίησης (όπως <b> για έντονη γραφή ή <a href='...'> για συνδέσμους). Η αφαίρεση των ετικετών HTML εξαλείφει τον «κώδικα» και σας αφήνει με το πραγματικό άρθρο ή τα δεδομένα που θέλετε να διαβάσετε ή να αναλύσετε.

Αποκωδικοποιεί τις οντότητες HTML;

Ναι. Τα προγράμματα περιήγησης στο διαδίκτυο χρησιμοποιούν συγκεκριμένους κωδικούς για την εμφάνιση ειδικών χαρακτήρων (για παράδειγμα, όταν πληκτρολογείτε &amp; στον κώδικα, εμφανίζεται το σύμβολο «&» στη σελίδα). Αυτό το εργαλείο όχι μόνο αφαιρεί τις δομικές ετικέτες <tags>, αλλά μετατρέπει επίσης αυτές τις κωδικοποιημένες οντότητες σε κανονικά, αναγνώσιμα σημεία στίξης.

Θα αφαιρέσει το JavaScript;

Ένα υψηλής ποιότητας εργαλείο αφαίρεσης HTML αφαιρεί τις ετικέτες <script> και τον προγραμματιστικό κώδικα που περιέχεται μεταξύ τους, καθώς ο κώδικας JavaScript δεν αποτελεί κείμενο άρθρου αναγνώσιμο από τον άνθρωπο. Ομοίως, ο κώδικας CSS που βρίσκεται μεταξύ των ετικετών <style> συνήθως αφαιρείται.

Σε τι διαφέρει αυτό από τη δημιουργία απλού κειμένου;

Η μετατροπή σε απλό κείμενο αφορά συνήθως τα δεδομένα του προχείρου — αφαιρώντας τη μορφοποίηση (έντονη γραφή, πλάγια γραφή και μέγεθος γραμματοσειράς) από το κείμενο που αντιγράψατε από το Word ή από μια ιστοσελίδα που έχει εμφανιστεί στην οθόνη. Η αφαίρεση των ετικετών HTML γίνεται ειδικά για τον καθαρισμό της αρχικής συμβολοσειράς του υποκείμενου πηγαίου κώδικα.

Θα διαγραφούν οι μαθηματικές μου εξισώσεις;

Είναι πιθανό. Επειδή οι ετικέτες HTML βασίζονται στα σύμβολα «μικρότερο από» (<) και «μεγαλύτερο από» (>), ένα απλό πρόγραμμα απομάκρυνσης χαρακτήρων μπορεί να δει την έκφραση «A < B και C > D» και να θεωρήσει λανθασμένα ότι η έκφραση «< B και C >» είναι μια παράξενη ετικέτα HTML, διαγράφοντάς την. Να ελέγχετε πάντα τα μαθηματικά κείμενα ή τα κείμενα με πολύ κώδικα μετά την απομάκρυνση των χαρακτήρων.