HTML-címkék eltávolítása — Ingyenes online eszköz
Mi az HTML-címkék eltávolítása?
A „HTML-címkék eltávolítása” eszköz egy elemző segédprogram, amely hatékonyan eltávolítja a dokumentumból az összes jelölőnyelvet, és csak a tiszta, ember számára olvasható egyszerű szöveget hagyja meg. Amikor tartalmat másolunk weboldalak forráskódjából, RSS-hírcsatornákból vagy rich text e-mail szerkesztőkből, a szöveg gyakran el van temetve olyan strukturális címkék rétegei alatt, mint a <div>, <p> és <span>.
Ez az eszköz azonnal eltávolítja a zárójeleket és a bennük lévő kódot, miközben a HTML-entitásokat (például & vagy ) visszaalakítja standard karakterekké. Ez elengedhetetlen a webes adatgyűjtés utáni tisztításhoz.
Mikor használja HTML-címkék eltávolítása?
Használja ezt az eszközt, ha tartalmat szeretne kinyerni webes adatgyűjtésből származó adatkészletekből, RSS-hírcsatornák leírásaiból vagy nyers HTML-formátumú e-mail fájlokból. A SEO-szakemberek arra használják, hogy tiszta szöveget nyerjenek ki a versenytársak oldalainak forráskódjából, amelyet aztán egy kulcsszó-sűrűség-ellenőrzővel futtatnak át.
A CMS-rendszergazdák pedig arra használják, hogy kijavítsák azokat a cikkeket, amelyeknél a hibás HTML-kód átnyúlik a vizuális megjelenítésbe. Ha vizuálisan másolt szöveget egy weboldalról, és csak a láthatatlan formázási elemeket szeretné eltávolítani, akkor a szélesebb körű Plain Text Converter lehet a megfelelőbb.
Hogyan használja ezt az eszközt
- 1Paste your HTML code or HTML-laden text
- 2Click 'Remove HTML Tags'
- 3Copy the clean plain text output
Az eszköz a szögletes zárójelek (<tag>) között található összes elemet megcélozza. Vigyázz: ha olyan matematikai kifejezés van a szövegben, mint például „x < y”, az egyszerű HTML-tisztító programok tévesen törölhetik a kisebb-mint jel után található összes tartalmat.
Példák
| Input | Output |
|---|---|
| <p>Hello <b>World</b></p> | Hello World |
| <h1>Title</h1><p>Body text</p> | TitleBody text |
| Price & Tax: <$100> | Price & Tax: <$100> |
| <ul><li>Item 1</li><li>Item 2</li></ul> | Item 1Item 2 |
| <script>alert('xss')</script>safe text | safe text |
Szabályok és viselkedés
- A szögletes zárójelek közé tett szövegeket (pl. <p>, </a>, <img src='...'>) a rendszer HTML-címkének tekinti, és teljes egészében törli.
- Az eszköz a gyakori HTML-karakterkódokat újra olvasható szöveggé alakítja. Például az & karakterből & lesz, az < karakterből < lesz, az © karakterből pedig © lesz.
- A zárójeleken kívül található szöveg – vagyis a weboldal tényleges, olvasható tartalma – eredeti elrendezésében marad meg.
Kapcsolódó eszközök
Gyakran ismételt kérdések
Miért kell eltávolítanom a HTML-címkéket?
Ha nyers forráskódot másolsz egy weboldalról, vagy szkriptet használsz adatok lekérésére, az értékes szöveget rengeteg formázási utasítás tarkítja (például a <b> a félkövér betűkhez vagy az <a href='...'> a linkekhez). A HTML-címkék eltávolításával megszabadulsz a „kódtól”, és megmarad a tényleges cikk vagy adat, amelyet elolvasni vagy elemezni szeretnél.
Feldolgozza a HTML-karakterkódokat?
Igen. A böngészők speciális kódokat használnak a különleges karakterek megjelenítéséhez (például ha a kódban beírjuk az & karaktert, az oldalon egy „&” szimbólum jelenik meg). Ez az eszköz nemcsak eltávolítja a szerkezeti <címkéket>, hanem a kódolt karaktereket is visszaalakítja normál, olvasható írásjelekké.
Eltávolítja a JavaScriptet?
Egy kiváló minőségű HTML-tisztító eltávolítja a <script> címkéket és a közöttük található programkódot, mivel a JavaScript-kód nem ember számára olvasható cikk szöveg. Hasonlóképpen, a <style> címkék között található CSS-kódot is általában eltávolítja.
Miben különbözik ez a sima szöveg generálásától?
A szöveges konverter általában a vágólap adatait kezeli: eltávolítja a vastag, dőlt és betűméret-formázást a Wordből vagy egy megjelenített weboldalról másolt szövegből. A HTML-címkék eltávolítása kifejezetten a nyers forráskód-szöveg megtisztítását szolgálja.
Törlődnek a matematikai egyenleteim?
Lehetséges. Mivel a HTML-címkék a kisebb-mint (<) és nagyobb-mint (>) jelekre épülnek, egy egyszerű szűrőprogram az „A < B és C > D” kifejezést tévesen furcsa HTML-címkének véli, és törli azt. A szűrés után mindig ellenőrizd át a matematikai vagy kódokkal teli szövegeket.