Antje Marx | Tuesday, der 4. September 2018
Der folgende Text ist der dritte Teil einer Serie von Tech-Blog Artikeln, die die Entwicklung eines Empfehlungssystems (Recommender Systems) beschreiben, das im Rahmen der Zusammenarbeit zwischen der EYZ Media GmbH (realeyz) und dem DAI-Labor (TU-Berlin) realisiert wurde.
Standard-Empfehlungs-Ansätze, wie Content-basierte und kollaborative Algorithmen, basieren auf der Analyse des Nutzerverhaltens bzw. Inhaltlicher Ähnlichkeiten zwischen Items. So werden beispielsweise content-basierte (More-Like-This) Strategien genutzt, um Nutzern nach dem Ansehen eines Filmes, Filme mit ähnlichen Merkmalen vorzuschlagen. Kollaborative Algorithmen tendieren zum Vorschlagen von Filmen, die bei ähnlichen Benutzern populär sind. Dies kann zum Phänomen der „Filterblasen“ führen; es wird nur noch ein kleiner Ausschnitt der Menge an Filmen berücksichtigt – neue, weniger populäre Filme werden nur sehr selten vorgeschlagen.
Um die Probleme des Popularity-Bias und der Filterblase zu überwinden, ermitteln wir durch die Analyse geeigneter sozialer Medien aktuelle Ereignisse und Trends, die als Ausgangspunkt für die Berechnung von Empfehlungen genutzt werden können.,
Dies ermöglicht es, neue Impulse für Empfehlungen zu ermitteln und Nutzern unabhängig vom bisherigen Profil interessante Vorschläge zu ermitteln und so die Vielfältigkeit der Empfehlungen zu verbessern.
Als „Event“ (Ereignis) betrachten wir dabei die außergewöhnlich häufige Nennung („Peak“) einer relevanten Person (z.B. Schauspieler oder Regisseur) sowie von Veranstaltungen (z.B. Festivals) in sozialen Medien. Wir nutzen dabei den Twitter-Stream ausgewählter (für unsere Domäne relevanter) Accounts. Darüber hinaus können die rss-Feeds von relevanten Portalen einbezogen werden. Wir laden die Nachrichten der relevanten Streams und extrahieren die relevanten Entitäten (Personen, Festivals). Die identifizierten Entitäten werden mit den Meta-Daten der realeyz-Film-Datenbank verknüpft.
Figure 1. Flow Architecture of Event-based Approach
Abbildung 1 zeigt schematisch das Vorgehen zum Ermitteln von Empfehlungen anhand von extrahierten Events. Elasticsearch bietet leistungsstarke Suchfunktionen mit Unterstützung für Sharding und Replikation der Daten. Um diese Funktionen zu nutzen, werden die in der relationalen Datenbank von Realeyz gefundenen Daten in Elasticsearch indiziert. (1) Ausgehen von den relevanten Twitter-Accounts und Rss-Feeds werden (2) die veröffentlichten Nachrichten gesammelt. (3) In den gesammelten Nachrichten werden die Entitäten detektiert. (4) Auf Basis der Häufigkeit des Auftretens der Entitäten wird ein Score berechnet. (5) Für die Entitäten mit den höchsten Scores wird eine Elasticsearch Anfrage generiert. (6) Elasticsearch ermittelt nun die Filme, deren Metadaten am besten zu den identifizierten Entitäten passen. Die Ergebnisse können entweder direkt als Empfehlungen angezeigt oder mit anderen (z.B. personalisierten) Empfehlungskandidaten kombiniert werden.
Unsere Experimente zeigen, dass der Event-basierte Ansatz Empfehlungen liefert, die gut zu aktuellen Nachrichten passen. Erkannte Events können dabei der Tod eines Schauspielers oder das Stattfinden eines Festivals sein. Die Wahl der Nachrichtenquellen (z.B. Twitter-Accounts) muss der sorgfältig erfolgen, damit die Events auch für die Zielgruppe der Empfehlungen relevant sind.
Tests mit der entwickelten Empfehlungsstrategie zeigen, dass die ermittelten Empfehlungen sich gut als Beimischung eignen, um die Diversität der Empfehlungen zu verbessern und auch weniger populäre dem Benutzer vorzuschlagen. Das der Empfehlung zugrunde liegende Event kann dabei als leicht nachvollziehbare Erklärung für die Empfehlung dienen. Da der Ansatz keine Benutzerbewertungen benötigt, lässt er sich auch gut in Nischenmärkten einsetzen.
Über die Autoren:
Andreas Lommatzsch arbeitet als Senior Researcher am Distributed Artificial Intelligence Lab (DAI-Labor) der TU Berlin. Seine Forschungsschwerpunkte sind verteiltes Wissensmanagement und maschinelle Lernalgorithmen. Seine Hauptinteressen liegen in den Bereichen Empfehlungen auf Basis von Datenströmen und kontextabhängigen Meta-Empfehlungsalgorithmen.
Jing Yuan ist Doktorandin am Distributed Artificial Intelligence Lab (DAI-Labor) der TU Berlin. Ihr Forschungsinteresse umfasst Empfehlungssysteme, Information Retrieval Systeme sowie Algorithmen des maschinellen Lernens.
Phani Saripalli arbeitet als Dateningenieur bei der EYZ Media GmbH (Betreiber von realeyz.de) und koordiniert das Projekt vor Ort. Er ist spezialisiert auf den Aufbau von Data Pipelines und Data Wrangling. Er arbeitet mit Redis, AWS, Airflow, Flask, Python und Postgres, um sicherzustellen, dass Daten von der Rohform in aufschlussreiche Inhalte umgewandelt werden.
Khalit Hartmann (Bachelor of Computer Science) arbeitet am Distributed Artificial Intelligence Lab (DAI-Labor) der TU Berlin. Zu seinen aktuellen Forschungsgebieten gehören Empfehlungssysteme, die die Analyse natürlich-sprachlicher Texte und Algorithmen des maschinellen Lernens kombinieren.