Har kikat runt lite för smarta sätt att plocka ut den rena texten som en sida innehåller. Du kan använda ett regular expression för att till exempel byta ut alla html-taggar mot mellanslag:
Det jag vill åstadkomma är att alla taggar som ligger i <body> taggen ska rensas från all html och presenteras i ren text. tex
<html>
<head>
<title></title>
</head>
<body>
------------Här ska den börja rensa-----------------
<h1>här har vi en rubrik<h1>
<font face="verdana">Här har vi lite text</font>
Pellesoft.se
--------------------Och sluta------------------
</body>
</html>
Resultatet ska då bli:
här
har
vi
en
rubrik
Här
har
vi
lite
text
Pellesoft.se
---------
Detta för att senare föra in den i någon typ av array med antal träffar varje ord har.
Någon som har några smarta ideér eller bra länkar att bistå med så skulle jag bli hemskt glad.
Tack på förhand.Sv:
<code>
With New RegExp
.Global = True
.Pattern = "<.*>"
strText = .Replace(strText, " ")
End With
</code>