TC

HTML-címkék eltávolítása — Ingyenes online eszköz

Processed locally. No data stored. Free forever.
0 chars
Processing Settings

Mi az HTML-címkék eltávolítása?

A „HTML-címkék eltávolítása” eszköz egy elemző segédprogram, amely hatékonyan eltávolítja a dokumentumból az összes jelölőnyelvet, és csak a tiszta, ember számára olvasható egyszerű szöveget hagyja meg. Amikor tartalmat másolunk weboldalak forráskódjából, RSS-hírcsatornákból vagy rich text e-mail szerkesztőkből, a szöveg gyakran el van temetve olyan strukturális címkék rétegei alatt, mint a <div>, <p> és <span>.

Ez az eszköz azonnal eltávolítja a zárójeleket és a bennük lévő kódot, miközben a HTML-entitásokat (például &amp; vagy &nbsp;) visszaalakítja standard karakterekké. Ez elengedhetetlen a webes adatgyűjtés utáni tisztításhoz.

Mikor használja HTML-címkék eltávolítása?

Használja ezt az eszközt, ha tartalmat szeretne kinyerni webes adatgyűjtésből származó adatkészletekből, RSS-hírcsatornák leírásaiból vagy nyers HTML-formátumú e-mail fájlokból. A SEO-szakemberek arra használják, hogy tiszta szöveget nyerjenek ki a versenytársak oldalainak forráskódjából, amelyet aztán egy kulcsszó-sűrűség-ellenőrzővel futtatnak át.

A CMS-rendszergazdák pedig arra használják, hogy kijavítsák azokat a cikkeket, amelyeknél a hibás HTML-kód átnyúlik a vizuális megjelenítésbe. Ha vizuálisan másolt szöveget egy weboldalról, és csak a láthatatlan formázási elemeket szeretné eltávolítani, akkor a szélesebb körű Plain Text Converter lehet a megfelelőbb.

Hogyan használja ezt az eszközt

  1. 1Paste your HTML code or HTML-laden text
  2. 2Click 'Remove HTML Tags'
  3. 3Copy the clean plain text output

Az eszköz a szögletes zárójelek (<tag>) között található összes elemet megcélozza. Vigyázz: ha olyan matematikai kifejezés van a szövegben, mint például „x < y”, az egyszerű HTML-tisztító programok tévesen törölhetik a kisebb-mint jel után található összes tartalmat.

Példák

InputOutput
<p>Hello <b>World</b></p>Hello World
<h1>Title</h1><p>Body text</p>TitleBody text
Price &amp; Tax: &lt;$100&gt;Price & Tax: <$100>
<ul><li>Item 1</li><li>Item 2</li></ul>Item 1Item 2
<script>alert('xss')</script>safe textsafe text

Szabályok és viselkedés

  • A szögletes zárójelek közé tett szövegeket (pl. <p>, </a>, <img src='...'>) a rendszer HTML-címkének tekinti, és teljes egészében törli.
  • Az eszköz a gyakori HTML-karakterkódokat újra olvasható szöveggé alakítja. Például az &amp; karakterből & lesz, az &lt; karakterből < lesz, az &copy; karakterből pedig © lesz.
  • A zárójeleken kívül található szöveg – vagyis a weboldal tényleges, olvasható tartalma – eredeti elrendezésében marad meg.

Kapcsolódó eszközök

Gyakran ismételt kérdések

Miért kell eltávolítanom a HTML-címkéket?

Ha nyers forráskódot másolsz egy weboldalról, vagy szkriptet használsz adatok lekérésére, az értékes szöveget rengeteg formázási utasítás tarkítja (például a <b> a félkövér betűkhez vagy az <a href='...'> a linkekhez). A HTML-címkék eltávolításával megszabadulsz a „kódtól”, és megmarad a tényleges cikk vagy adat, amelyet elolvasni vagy elemezni szeretnél.

Feldolgozza a HTML-karakterkódokat?

Igen. A böngészők speciális kódokat használnak a különleges karakterek megjelenítéséhez (például ha a kódban beírjuk az &amp; karaktert, az oldalon egy „&” szimbólum jelenik meg). Ez az eszköz nemcsak eltávolítja a szerkezeti <címkéket>, hanem a kódolt karaktereket is visszaalakítja normál, olvasható írásjelekké.

Eltávolítja a JavaScriptet?

Egy kiváló minőségű HTML-tisztító eltávolítja a <script> címkéket és a közöttük található programkódot, mivel a JavaScript-kód nem ember számára olvasható cikk szöveg. Hasonlóképpen, a <style> címkék között található CSS-kódot is általában eltávolítja.

Miben különbözik ez a sima szöveg generálásától?

A szöveges konverter általában a vágólap adatait kezeli: eltávolítja a vastag, dőlt és betűméret-formázást a Wordből vagy egy megjelenített weboldalról másolt szövegből. A HTML-címkék eltávolítása kifejezetten a nyers forráskód-szöveg megtisztítását szolgálja.

Törlődnek a matematikai egyenleteim?

Lehetséges. Mivel a HTML-címkék a kisebb-mint (<) és nagyobb-mint (>) jelekre épülnek, egy egyszerű szűrőprogram az „A < B és C > D” kifejezést tévesen furcsa HTML-címkének véli, és törli azt. A szűrés után mindig ellenőrizd át a matematikai vagy kódokkal teli szövegeket.