#2 Autoblog – Artikelgenerierung – Content Scraping

AUTOBLOG - ARTIKELGENERIERUNG - CONTENT SCRAPING

Herzlich willkommen zu meinem zweiten Artikel der Reihe Autoblog. Im ersten Artikel habe ich die Grundidee sowie das Konzept hinter einem Autoblog erläutert und meine Gedanken ein wenig spielen lassen. Dabei bin ich auf viele interessante Ansätze und Ideen gestoßen und konnte diese inklusive einer Menge Gedankenspinnereien in einem ausführlichen und strukturierten Text ausformulieren.

Bei der Ausarbeitung des Konzepts bin ich bereits auf viele mögliche Probleme oder Fragezeichen gestoßen. 3 Monate später muss ich zugeben, dass einige der befürchteten Probleme bereits eingetreten sind.

 

Ich habe – trotz sehr wenig verfügbarer Zeit – die letzten 3 Monate dazu genutzt eine WordPress Testinstallation aufzusetzen. Diese habe ich mit unzähligen Plugins gefüllt, mir Funktionalitäten angeschaut und mögliche Vorangehensweisen überlegt.

Ich kann nur sagen: das war äußerst mühselig. Ca 90%! aller getesteten Plugins waren absolut unbrauchbar, hielten nicht das was sie versprachen oder waren für meinen Anwendungszweck ungeeignet.

Im folgenden Beitrag geht es um die Inhaltserstellung der Artikel. Wie bereits in #1 Autoblog – Die Idee erläutert, halte ich die automatische Erstellung von Inhalten für eine der größten Herausforderungen.

Aktueller Stand der Artikelgenerierung

Die Zusammenfassung als stichpunktartige Liste kurz zur Erinnerung:

  1. Artikelgenerierung
  2. hinzufügen von relevanten Informationen (Twitter, YouTube, Fragen, verwandte Artikel, Tags, etc. zum Artikel)
  3. Aufarbeitung des Contents
  4. bilden einer internen Verlinkung
  5. Suchmaschinenoptimierung des Contents
  6. Backlinkaufbau
  7. Vermarktung

Um ein wenig vorne weg zu greifen: Punkt 3 – Aufarbeitung des Contents ist nach meiner momentanen Einschätzung beinahe unmöglich. Bereits bei der Ausarbeitung des Konzepts sah ich hier Schwierigkeiten. Mein Optimismus hierfür etwas brauchbares zu finden ist seitdem weiterhin deutlich geschrumpft.

Kriterien für das Content-Scraping

Meine Kriterien an den Inhalt der Beiträge waren:

  1. Duplicate Content: Google darf die Artikel nicht als Duplicate Content werten.
  2. Urheberrechtsverletzungen: meine Artikel dürfen keine Urheberrechte verletzen.
  3. deutsche Datenquellen: Die Artikelsprache muss deutsch sein.
  4. korrektes Deutsch: Die Sätze müssen in vernünftigem deutsch lesbar sein.

Alle getesteten Spinning-Tools, Synonymersetzer etc. brachten derart schlechte Resultate hervor, dass die Option Artikel zu spinnen gerade erstmal vom Tisch ist. Wenn hier jemand eine wirklich nützliche und gut funktionierende Lösung hat, dann immer her damit.

Kein Artikelspinning = Duplicate Content?

Man könnte jetzt davon ausgehen, dass ich automatisch Duplicate Content erzeuge, wenn ich meine Artikel nicht spinnen lasse. Das ist zwar rein technisch korrekt, für mein Kriterium aber irrelevant.

Wichtig ist: Google darf die Artikel nicht als Duplicate Content werten!

Verschleierung von Duplicate Content

Aus diesem Grund versuche ich meinen Duplicate Content zu verschleiern. Durch das Hinzufügen von relevanten Inhalten wie Videos, Bildern, Tweets, usw. kann ich es schaffen den eigentlichen Inhalt so zu erweitern, dass Google ihn nicht mehr als Duplicate Content wertet.

Artikelgenerierung – so kann es funktionieren!

Da Articlespinning vom Tisch ist darf der erzeugte Inhalt nicht sonderlich groß sein. Zum Einen funktioniert sonst die Taktik des Verschleierns nicht. Zum Anderen konnte ich keine deutschen Datenquellen finden, deren Texte nicht urheberrechtlich geschützt sind.

Die Datenquelle

News-Portale brachten mich auf die Idee Auszüge zu Artikeln zu scrapen. Diese haben folgende Vorteile:

  1. sie sind kurz
  2. sie enthalten alle nennenswerten Informationen
  3. ich verletzte keine Rechte wenn ich sie auf meinem Blog einbinde

Google News hat sich dabei als eine sehr gute Datenquelle herausgestellt. Google News bietet über einen Feed die Möglichkeit an das Newsportal nach Inhalten zu durchsuchen. Über den Feed lassen sich bequem Keyword, Anzahl der Beiträge, Sprache und Ausgabeformat steuern.

Beispiel-Aufruf des Google News Feeds:

https://news.google.com/news/feeds?hl=de&gl=de&q=keyword&ie=UTF-8&output=rss&num=12&type=xml

Die fett markierten Stellen zeigen die wichtigsten Punkte im Feed. Die Sprache kann bequem auf deutsch gestellt werden. Der Parameter erwartet das Keyword. Dort kann ich auch zusammengesetzte Keywords über das Pluszeichen verknüpfen (Keyword1+Keyword2). Der Parameter num gibt an wie viele Artikel ich angezeigt bekommen möchte. Diesen hab ich testweise auf 12 gesetzt. Wichtig ist noch der Parameter type. Über diesen kann ich steuern in welchem Format mir die Ergebnisliste zur Verfügung gestellt wird. Ich entscheide mich für XML. Das Keyword wird später als Kategoriekeyword für die einzelnen Posts verwendet und trägt den Namen meiner Kategorien.

Wer die Feed-URL jetzt einfach mal im Browser aufruft und sich ein wenig mit XML und der unformatierten Ausgabe beschäftigt wird schnell folgendes erkennen: Der Feed liefert mir Beiträge inklusive Titel, Link, Veröffentlichungsdatum und einer HTML Beschreibung. Leider Gottes habe ich es nicht geschafft die Beschreibung im Plain Format, also ohne die HTML Tags zurückzugeben. Auch hier bin ich wieder für jeden Tipp dankbar.

Import in den Blog mit WP All Import

Nachdem ich es geschafft habe mir von Google Inhalte zur Verfügung stellen zu lassen müssen diese irgendwie in meinen Blog kommen. Dafür gibt es ein wunderbares Plugin mit dem Namen WP All Import  von der Firma Soflyy. Das Plugin erlaubt es mir Daten von meinem Computer, FTP-Servern oder bereits hochgeladenen Dateien zu importieren. Uuuuund….Es gibt eine Option die Importdatei von einer URL zu downloaden.

Nicht zu früh freuen! 

In der aktuellen Version 3.4.0 ist genau diese Funktion leider deaktiviert. Zum Glück hatte ich auf meiner Festplatte noch die funktionierende Version 3.2.0 als .zip – Datei abgelegt. Das Plugin darf also auf keinen Fall mehr geupdated werden. Gefällt mir nicht so gut…Schade…Aber egal, hauptsache es läuft erstmal.

Nochmal: Es funktioniert nur mit Version 3.2.0 oder niedriger von WP All Import! Nicht auf 3.3.0 oder 3.4.0 updaten!

WP All Import Konfiguration

WP All Import bietet nach der Eingabe der URL die Möglichkeit ein Template aus den einzelnen Teilen der XML-Datei selbst zusammen zu stellen. Klingt vielleicht erstmal kompliziert, ist es aber gar nicht. Das Plugin erkennt automatisch die XML Datei und die darin enthaltenen Tags wie Title, Link, Description etc. Daraus kann ich mir meine eigene Vorlage basteln. Ich ziehe also den Titel via Variable aus der XML Datei in den Titel meines neu entstehenden WordPress Posts.

Template in WP All Import zusammenstellen

Hier sieht man schön wie der Template Builder von WP All Import funktioniert

Die Variablen kommen aus der XML Datei. Alles andere kann ich per Hand in den Editor eingeben. Die Überschrift „Beitrag zum Thema“ bleibt also immer bestehen. Es kommt lediglich noch die jeweilige Kategorie hinzu.

Im nächsten Schritt lege ich in WP All Import noch fest wie ich den importierten Beitrag abspeichern möchte. Ich wähle einen WordPress Beitrag aus, setze den Status auf veröffentlicht und lege in der Kategorie wieder mein Kategoriekeyword von oben fest.

Danach drücke ich nur noch auf Speichern und kann mit dem Importieren beginnen. Das sieht dann folgendermaßen aus:

WP All Import - Beiträge importieren

Das Importieren von Beiträgen

Import per Cronjob

Das Plugin WP All Import erlaubt es per Cronjob die einzelnen angelegten Feeds zu steuern. Dadurch nimmt es mir natürlich sehr viel Arbeit ab und erleichtert die Automatik. Meinen Cronjob kann ich natürlich je nach belieben konfigurieren und mir damit aussuchen wie oft ich gerne neue Beiträge in meinen Blog importieren möchte.

Denkbar wäre auch ein neuer Beitrag pro Tag anstatt mehrere z.B. alle zwei Wochen. Da bin ich mir noch ziemlich unschlüssig.

Fazit

Im Grunde genommen ist die Content Erstellung abgeschlossen. Ich habe zwar keine kompletten Artikel holen können, die dann später umgeschrieben werden. Jedoch ist es mir im ersten Schritt gelungen Teaser Texte von News auszulesen und als Beiträge zu importieren.

Dank der flexiblen Konfiguration von WP All Import kann ich für jede beliebige Kategorie einen Feed anlegen und explizit konfigurieren. Per Cronjob kann der zeitliche Ablauf flexibel gesteuert werden. Das gefällt mir wirklich sehr sehr gut!

Zudem ist es mir gelungen neben dem gescrapten Content noch etwas eigenen Content hinzuzufügen. Der Artikel kann dank der Template Erstellung des Import-Plugins unter eine Überschrift gesetzt werden. Das erleichtert mir in späteren Schritten die Erweiterung und Strukturierung des Artikels.

Im nächsten Schritt werde ich versuchen relevante Informationen zum Artikel hinzuzufügen. Dafür brauche ich eine sehr gute und genaue Tagging Möglichkeit. Mal abwarten was daraus wird.

Ideen und Anregungen?

Für Ideen und Anregungen zu meinem Autoblog bin ich immer sehr offen und neugierig. Wenn euch also irgendetwas aufgefallen ist, dann lasst es mich wissen. Selbstverständlich freue ich mich auch über eure Meinung als Kommentar.

 

0 Kommentare

Dein Kommentar

Want to join the discussion?
Feel free to contribute!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.