wikishia:Technik/Text/Analyse/LanguageTool

Aus wikishia

Vorlage:Überschriftensimulation wikishia:Technik/Linkbox

LanguageTool ist ein freies, durch Java plattformunabhängiges Programm zur Grammatik- und Rechtschreibprüfung. Es integriert sich u. a. als Erweiterung in die Textverarbeitung von LibreOffice/Apache OpenOffice oder in die Textfelder des Browsers Mozilla Firefox. Zudem läuft es auch als eigenständiges Programm mit grafischer Oberfläche, als Kommandozeilenprogramm und – besonders für Wikipedia-Autoren interessant – als Webapplikation.[1]

Vorlage:Siehe auch

WikiCheck

Datei:LanguageTool-WikiCheck-Beispielsätze.png
LanguageTool WikiCheck von Benutzer Diskussion:Dnaber#Beispiel-Sätze mit Fehlern zum Testen von LanguageTool

LanguageTool WikiCheck[2] war[3] ein in Grails implementiertes Webinterface, das Wikipedia-Artikel automatisch auswertet, Korrekturen vorschlägt und diese wieder zurück an Wikipedia überträgt. Der Autor überprüft die Änderungen und drückt hier auf Speichern. Man kann einen Artikel seiner Wahl prüfen, einen zufälligen oder die letzten Änderungen. Eine Integration in die Wikipedia-Oberfläche ist mit Benutzer:Schnark/js/extratabs möglich. Umgekehrt nutzt LanguageTool auch das große, frei verfügbare Textkorpus aus Wikipedia, um die eigenen Regeln automatisiert zu testen und so zu optimieren, dass wenig falsch-positive Meldungen den Benutzer stören.

RuleEditor

Neue Regeln zum Aufspüren von Stil-, Grammatik- und Zeichensetzungsfehlern können von jedermann dem Projekt beigesteuert werden. Die Entwicklung wird offen über GitHub koordiniert. Man muss jedoch kein Programmierer mit Kenntnissen von Versionsverwaltung oder gar Computerlinguist sein, um dem Projekt zu helfen. Neue Regeln im XML-Format können über ein Webinterface namens LanguageTool RuleEditor[4] erstellt und getestet werden. Im Anschluss können sie den jeweiligen Projektbetreuern zugesendet werden.

Auch ist es möglich, eigene Regeln zu erstellen, die sich beispielsweise an Projektrichtlinien wie Wikishia:Vermeide hohle Phrasen orientieren.[5][6] Ein Beispiel einer solchen XML-Regel wäre:

<rule id="WP_VHP" name="Wikishia: Vermeide hohle Phrase">
 <pattern>
  <token regexp="yes">Kritiker|Fachleute</token>
  <token regexp="yes">behaupten|meinen|sagen</token>
 </pattern>
 <message>Floskeln, die Fakten lediglich vorgaukeln, ohne sie zu konkretisieren und zu belegen sollten vermieden werden.</message>
 <url>https://de.wikipedia.org/wiki/Wikishia:Vermeide_hohle_Phrasen</url>
 <example correction=""><marker>Kritiker sagen</marker>, dass vieles so nicht stimmt.</example>
 <example>Studien von Wong et al. aus dem Jahr 2000 kamen zu anderen Ergebnissen.</example>
</rule>

Die erste Zeile dient der Benennung. Im darauf folgenden XML-Element wird ein Suchmuster definiert. Jedes Satzelement (wie beispielsweise Einzelwörter oder der Hinweis auf ein Satzende) durchläuft die Tokenisierung und wird mit dem Suchmuster abgeglichen. In diesem Fall werden reguläre Ausdrücke verwendet, wobei die Trennung | einem logischen „oder“ entspricht. Zum Schluss wird noch ein Hinweis für den Benutzer, eine URL als Beleg und Erläuterung sowie Beispielsätze angegeben, die in automatischen Softwaretests ausgewertet werden.

Dies ist nur ein einfaches Beispiel, um das Grundprinzip zu erklären. Zusätzlich versucht LanguageTool noch die Grammatik zu erraten und klassifiziert die Wörter dazu anhand einer hinterlegten Wortformen-Datenbank. Die Regel kann durch deren Einbeziehung noch robuster gestaltet werden und falsch-positive Meldungen wie für „Viele Sagen wurden durch die Gebrüder Grimm gesammelt“ ausschließen.

Weblinks

Einzelnachweise