Mark Reinke

Pianist. Informatiker.

Webtabellen

In meiner Bachelorarbeit habe ich mich mit Html-Tabellen im Web beschäftigt. Ich habe eine Software entwickelt, die automatisch Attributnamen für Tabellenspalten findet.

Webtabellen sind von hohem Interesse, da sie einen riesigen Korpus von relationalen Daten darstellen. Doch im Gegensatz zu traditionellen Datenbanken gibt es keine Metadaten, die ihre Schemainformationen enthalten. Die Attributnamen, die wir den Spaltennamen der Tabelle entnehmen können sind nicht verlässlich. Die Herausforderung besteht darin, automatisch Attributnamen zu rekonstruieren, wenn die gegebenen falsch, unvollständig oder zu allgemein sind.

Ich habe eine zweiteilige Strategie dafür entwickelt: Auf der einen Seite werden Klassen in der YAGO Knowledge Base gesucht, die den Inhalt der Tabellenspalten beschreiben. Auf der anderen Seite werden NLP-Techniken genutzt, um Attributnamen aus dem Kontext der Webtabelle zu extrahieren.