Fetstil Fetstil Kursiv Understrykning linje färgläggning tabellverk Punktlista Nummerlista Vänster Centrerat högerställt Utfyllt Länk Bild htmlmode
  • Forum & Blog
    • Forum - översikt
      • .Net
        • asp.net generellt
        • c#
        • vb.net
        • f#
        • silverlight
        • microsoft surface
        • visual studio .net
      • databaser
        • sql-server
        • databaser
        • access
        • mysql
      • mjukvara klient
        • datorer och komponenter
        • nätverk, lan/wan
        • operativsystem
        • programvaror
        • säkerhet, inställningar
        • windows server
        • allmänt
        • crystal reports
        • exchange/outlook
        • microsoft office
      • mjukvara server
        • active directory
        • biztalk
        • exchange
        • linux
        • sharepoint
        • webbservers
        • sql server
      • appar (win/mobil)
      • programspråk
        • c++
        • delphi
        • java
        • quick basic
        • visual basic
      • scripting
        • asp 3.0
        • flash actionscript
        • html css
        • javascript
        • php
        • regular expresssion
        • xml
      • spel och grafik
        • DirectX
        • Spel och grafik
      • ledning
        • Arkitektur
        • Systemutveckling
        • krav och test
        • projektledning
        • ledningsfrågor
      • vb-sektioner
        • activeX
        • windows api
        • elektronik
        • internet
        • komponenter
        • nätverk
        • operativsystem
      • övriga forum
        • arbete karriär
        • erbjuda uppdrag och tjänster
        • juridiska frågor
        • köp och sälj
        • matematik och fysik
        • intern information
        • skrivklåda
        • webb-operatörer
    • Posta inlägg i forumet
    • Chatta med andra
  • Konto
    • Medlemssida
    • Byta lösenord
    • Bli bonsumedlem
    • iMail
  • Material
    • Tips & tricks
    • Artiklar
    • Programarkiv
  • JOBB
  • Student
    • Studentlicenser
  • KONTAKT
    • Om pellesoft
    • Grundare
    • Kontakta oss
    • Annonsering
    • Partners
    • Felanmälan
  • Logga in

Hem / Forum översikt / inlägg

Posta nytt inlägg


plocka ut data ur HTML

Postades av 2009-03-19 23:01:27 - Peter Andersson, i forum xml, Tråden har 5 Kommentarer och lästs av 2268 personer

Hej, finns det nån här som känner till om det existerar nåt bra verktyg för att "parsa och plocka ut" data ur HTML-dokument med tabeller. Gärna nåt generellt.
//Peter


Svara

Sv: plocka ut data ur HTML

Postades av 2009-03-20 09:29:25 - Henrik Malmberg

Ta gärna en titt på Regular Expressions, kan verka svårt till en början, men otroligt kraftfullt.

Är du enbart ute efter ett program som kan plocka ut data från webbsidor så kan Excel plocka ut tabeller från sidor och lägga in det i kolumner/rader i Excel automatiskt. Kan det vara något?


Svara

Sv:plocka ut data ur HTML

Postades av 2009-03-23 22:53:47 - Peter Andersson

Hej!

Tack. Jo det är ju regex man tänker på i första hand, det är bara det att jag har aldrig lyckats lära mig det ordentligt.... och nu hade jag 300 html-filer med lite data i tabeller som jag skulle vilja ha ut med minimalt arbete....

nån generisk "tool" som plockar ut tabeller ur XHTML till en textfil skulle vara OK, om det funnes nån...?


Svara

Sv: plocka ut data ur HTML

Postades av 2009-04-16 23:42:26 - Peter Andersson

Sista chansen att föreslå nåt verktyg innan jag stänger tråden!?


Svara

Sv:plocka ut data ur HTML

Postades av 2009-04-17 09:00:06 - Niklas Jansson

Det borde du kunna göra med regular expressions. Själv skulle jag nog försökt mig på det i Emacs.

Om man antar att alla html-filerna är korrekta (validerar), bara innehåller en tabell och inte innehåller några colspan eller rowspan borde det helt enkelt kunna göras som:

1. Plocka bort så att det bara finns mellan <table>...</table> finns kvar.
2. Ersätt <tr>(.*)</tr> med \1\n
3. Ersätt <td>(.*)</td> med \1' ' (mellanrum) eller \1\t
Sen kan du ju importera det till excel eller vad som helst.

Edit:
Och i övrigt funkar ju fortfarande google... http://www.google.se/search?q=extract+tables+from+html

De typ 10 första verkar vettiga...


Svara

Sv: plocka ut data ur HTML

Postades av 2009-04-24 14:43:29 - Peter Andersson

Tack för förslagen. Visst kan även jag googla, men om alla gjorde det skulle det inte finnas särskilt mycket att leta efter, eller hur? Det är konkreta frågor som den här, med konkreta svar som fyller på universum med lösningar som Google sen kan hitta.

Nu hittade jag iofs en C#-kod som jag inte sett förut, som just extraherar ut alla <table> element ur en fil och den kan jag använda som utgångspunkt för mitt specialhack. Jag har ju som sagt 300+ filer som skall hanteras, och det visade sig dessutom vara så att data jag ville ha ut låg i tabeller-i-tabeller osv vilket gjorde det krångligt att lösa med ett aldrig så generellt verktyg.

Jag har nu C#-kod som ger mig alla <table>-element till ett DataSet (tr blir rad och td blir en kolumn), vilket är mycket behändigt. Nu kan jag enkelt plocka ut de som jag vill ha.

återigen, tack för hjälpen.



Svara

Nyligen

  • 18:42 Hvor finder man håndlavede lamper
  • 18:41 Hvor finder man håndlavede lamper
  • 16:36 Allt du behöver veta om keramiskt
  • 16:14 Vem anlitar man egentligen när tak
  • 16:14 Vem anlitar man egentligen när tak
  • 16:13 Vem anlitar man egentligen när tak
  • 11:52 Noen erfaring med uttak hos Mostbe
  • 11:51 Noen erfaring med uttak hos Mostbe

Sidor

  • Hem
  • Bli bonusmedlem
  • Läs artiklar
  • Chatta med andra
  • Sök och erbjud jobb
  • Kontakta oss
  • Studentlicenser
  • Skriv en artikel

Statistik

Antal besökare:
Antal medlemmar:
Antal inlägg:
Online:
På chatten:
4 570 557
27 958
271 741
367
0

Kontakta oss

Frågor runt konsultation, rådgivning, uppdrag, rekrytering, annonsering och övriga ärenden. Ring: 0730-88 22 24 | pelle@pellesoft.se

© 1986-2013 PelleSoft AB. Last Build 4.1.7169.18070 (2019-08-18 10:02:21) 4.0.30319.42000
  • Om
  • Kontakta
  • Regler
  • Cookies