Daten auf Webseiten automatisch erfassen

Appleape

Appleape

Aktives Mitglied
Thread Starter
Dabei seit
30.09.2005
Beiträge
100
Reaktionspunkte
1
Hallo zusammen,

momentan arbeit ich an meiner Bachelor Arbeit. Ein nicht unwesentlicher Teil dafür ist es, eine bestimmte Webseite regelmäßig zu "crawlen" um Daten zu erfassen um auch später die Entwicklung nach zu vollziehen können.

Mein Programmier Kenntnisse halten sich in Grenzen. Meine Frage wäre, gibt es so eine Art Crawler (open Source) der Internet Seiten nach Daten abklappern kann und diese Daten festhält?

Hoffe bin hier richtig und es kann mir jemand da behilflich sein :)

Gruß
AppleApe
 
dast richtig ;)
 
Da Du nicht genau angegeben hast, was Du möchtest (Was sind Änderungen? Neue/Gelöschte Seiten oder auch Inhaltsänderungen, Hervorhebungen von vorher/nachher, welcher Zeitraum, auf eigenem Server oder als Service etc.) würde ich auf Google mal nach "monitor website changes" suchen. Da gibt’s einige gute Services.
 
danke für den Tip. Ich meine mit änderungen im Prinzip Clicks. Um genau zu sagen Die Anzahl der Klicks der Songs bei Myspace.

Sollte in einem Zeitraum von 3 Monaten sein. Das ganze als Service, sprich sollte halt alles opensource sein da ich keine finanziellen mittel dafür zur verfügung habe.
 
Anzahl der Klicks der Songs bei MySpace wird doch neben dem betreffenden Lied angezeigt?

Wenn Du einen normalen Besucherzähler meinst, den man auf dem eigenen Server installieren kann, empfehle ich Piwik (piwik.org) oder Google Analytics.

Verstehe immer noch nicht recht was Du eigentlich vorhast. Wenn die angegebenen Links Dir nicht weiterhelfen, gib bitte mal ein konkretes Beispiel.
 
ich möchte die entwicklung der Klicks nach vollziehen. Sprich, wenn nun plötzlich ein Künstler bekannt wird, steigen ja auch die Klicks der Songs rapide.
(in der regel)
Genau diesen Punkt möchte ich erkennen und auswerten.
 
Das weiß ich nicht, ob MySpace die Statistiken öffentlich rausgibt, sorry.
 
das brauchen sie ja nicht direkt. Ich könnte ja täglich einfach die Anzahl der Clicks messen und wenn diese aussergewöhnlich steigen, würde ich dies ja sehen und könnte es auswerten.
 
sofern die klicks im Quelltext von MySpace ersichtlich sind, könntest du:

ein PHP-Script programmieren, das die MySpace-Seite lädt, und die Anzahl Klicks aus dem Quelltext filtert.
Dieses Script als Cron-Job definieren, der regelmässig abläuft...

My 2 Cents
 
Schwer bis unmöglich, da der Kram im Flash-Teil drinsteht. Wenn man das überhaupt auslesen kann, musste das selber programmieren (lassen).
 
Poste doch mal einen Link, um welche Seite es genau geht.
Grundsätzlich lässt sich so etwas schon machen. Allerdings glaube ich kaum, dass es eine fertige Lösung dafür gibt.

Ich frage mich an dieser Stelle allerdings, warum man einen "nicht unwesentlicher Teil" einer Bachelor Arbeit auf etwas aufbaut, das man selbst gar nicht kann.
 
Also wenn du die Aufrufe der einzelnen Songs rechts in diesem Mediaplayer haben willst, sieht es schlecht aus. Hab mir grad mal angeschaut, was an das Flash-Objekt weitergegeben wird an Variablen, aber da stehen diese Aufrufe nicht drin. Denke die holt sich das Flashteil irgendwo selber her.

Könntest ja mal nett bei MySpace anfragen, ob die Stats irgendwo als XML oder so liegen.
 
jep danke, werde ich dann mal machen. Mal schauen was die sagen...:)
 
...
aber mein Prof meinte dass es keine große Arbeit wäre dies zu messen und man sich da schnell reinfuchsen könnte...
Das halte ich für ein Gerücht ;), aber vielleicht weiß Dein Prof. ja mehr als wir ;) (oder viel weniger, kann natürlich auch sein)

Darf ich fragen, was Du studierst?
 
Medien und Information.

Jo werde mein Prof darauf auch nochmal ansprechen, der müsste ja schliesslich genau wissen wie es geht wenn er sich soweit aus dem Fenster lehnt ;)
 
Vielleicht weiß er ja, wie man aus dem Flashplayer die Klicks herausdestillieren kann.
Vielleicht hat er aber einfach nur übersehen, dass die Liste nicht im HTML Quelltext steht.
Dann wär's nämlich nicht so problematisch (solange die Struktur der Seite im Messzeitraum nicht geändert wird).
 
Also wenn du die Aufrufe der einzelnen Songs rechts in diesem Mediaplayer haben willst, sieht es schlecht aus. Hab mir grad mal angeschaut, was an das Flash-Objekt weitergegeben wird an Variablen, aber da stehen diese Aufrufe nicht drin. Denke die holt sich das Flashteil irgendwo selber her.

Könntest ja mal nett bei MySpace anfragen, ob die Stats irgendwo als XML oder so liegen.

Wo siehst du da einen mediaplayer mit den stats?

Also die Profilaufrufe selber stehen im Klartext. Vielleicht hilft das ja auch, denn das zeigt ja wie oft der Künstler selbst aufgerufen wird und damit auch "seit wann er beliebter ist". Dafür müsstest du ja täglich die Seite parsen, die werte dir merken, dann auswerten und den zeitpunkt checken, wo überproportional oft zugegriffen wird.

Manche zähler stehen ja auch in einem Bild drin. Dafür müsste man das Bild analysieren. Geht im Flash auch, wenn du automatisch einen webscreenshots machst und logik reinbaust, wo im Bild nach der Zahl gesucht werden soll. Ist alles möglich, frägt sich nur wie aufwendig.

Ne, check das mal mit dem Profilaufruf ab.
 
Das hier habe ich mal eben schnell in PHP gemacht.
PHP:
<?
// Schritt 1: Wir laden die Website komplett in die Variable $content
$content=file_get_contents("http://profile.myspace.com/index.cfm?fuseaction=user.viewprofile&friendID=137149585");

// Schritt 2: Wir kappen alles, was links von dem eigentlichen Zähler steht weg.
$c_arr=explode("Profilaufrufe:&nbsp;",$content);

// Schritt 3: Wir kappen alles was rechts vom Zähler steht weg.
$a_arr=explode("<br>",$c_arr[1]);

// Schritt 4: Wir entfernen alle Whitespaces vom Zählestand
$aufrufe=trim($a_arr[0]);

// Wir können nun damit machen was wir wollen....
echo "Es gibt ".$aufrufe." Profilaufrufe";
?>

Läuft prima.
 
Interessante Herangehensweise. Ich hätte’s mit regulären Ausdrücken gemacht. Schön zu sehen, dass es auch viel einfacher geht.
 
Zurück
Oben Unten