Kundengeschichten
Truecaller skaliert Datenanalyse für 500 Millionen Installationen mit Google Cloud
Xebia unterstützte Truecaller bei der Modernisierung seiner Datenplattform auf der Google Cloud Platform (GCP), die Analysen im Petabyte-Bereich, Kosteneffizienz und ein schlankes Betriebsmodell ermöglicht.

Auf einen Blick
Herausforderung
Explodierende Datenmengen, zunehmender Speicherbedarf und die Beschränkungen des Betriebs von On-Premise-Infrastrukturen.
Lösung
Migriert von Cloudera on-prem auf die Google Cloud Platform und nutzt dabei BigQuery, DataProc, Kubernetes und Data Studio.
Ergebnisse
Erzielte Kosten von nur $6 pro 10k Benutzer pro Monat.
Die Kostenbeteiligung der Entwickler wurde auf 30% der Infrastrukturkosten gesenkt.
Betreiben Sie Pipelines mit nur 1 Datentechniker pro 42 Millionen Benutzer monatlich.
Der Kunde
Truecaller ist ein 2009 gegründetes schwedisches Technologieunternehmen, das vor allem für seine mobile App bekannt ist, mit der eingehende Anrufe identifiziert, Spam blockiert, VoIP-Anrufe ermöglicht und mobile Zahlungen erleichtert werden. Mit über 200 Millionen monatlich aktiven Nutzern weltweit und mehr als 500 Millionen Installationen ist Truecaller zu einem Begriff geworden, insbesondere in Schwellenländern, in denen der Schutz vor Spam-Anrufen sehr gefragt ist.
Die Herausforderung
Als Truecaller wuchs, wurden die Daten sowohl zu seinem größten Vorteil als auch zu seiner größten Herausforderung. Die Funktionen der App - Spam-Identifizierung, Anrufererkennung, maßgeschneiderte Werbung und Produktanalysen - waren alle auf die kontinuierliche Aufnahme und Analyse riesiger Datenmengen angewiesen. Bis 2014 verarbeitete das Unternehmen täglich Dutzende von Milliarden von Ereignissen auf einer Cloudera-Plattform vor Ort. Doch diese Einrichtung stieß bald an ihre Grenzen. Der Speicherbedarf stieg dramatisch an und zwang zu Hardware-Erweiterungen, selbst wenn keine Rechenleistung benötigt wurde. Die Unterhaltung eines privaten Rechenzentrums wurde kostspielig und anfällig für Ausfallzeiten.
Truecaller erkannte, dass das bestehende Modell nicht tragfähig war, und benötigte eine Plattform, die nahtlos skaliert, den betrieblichen Aufwand reduziert und Flexibilität für erweiterte Analysen und maschinelles Lernen bietet. Mit einer HDP-Ära-Infrastruktur, die unter 30B täglichen Ereignissen und 1,5PB Gesamtspeicher belastet war, suchte das Unternehmen nach einer Cloud-nativen Lösung, um seine langfristigen Ambitionen zu unterstützen.
Die Herangehensweise
Truecaller ging eine Partnerschaft mit Xebia ein, um seine Analyseumgebung neu zu gestalten. Die Reise begann 2014 mit der ersten Datenplattform, aber 2018 entschied sich das Team für die Google Cloud Platform. Dieser Schritt brachte Cloud Storage zur Beseitigung der Kapazitätsplanung, DataProc für skalierbare YARN-Cluster und schließlich BigQuery - dessen Geschwindigkeit, Kosteneffizienz und überlegene Benutzerfreundlichkeit es schnell zur bevorzugten Analyse-Engine machten. Fortschrittlichere Arbeitslasten, wie maschinelles Lernen, wurden für Spark auf Kubernetes vorgesehen, um Flexibilität und Skalierbarkeit zu gewährleisten.
Neben Rechen- und Speicherleistung umfasste die Modernisierung auch die Automatisierung der Infrastruktur mit Deployment Manager für eine schnellere, CI/CD-gesteuerte Ressourcenbereitstellung. Auf der Berichtsseite wurden Tableau-Dashboards durch Google Data Studio ersetzt, das aufgrund seiner nahtlosen BigQuery-Integration, seiner serverlosen Natur und der Null-Lizenzkosten ausgewählt wurde. Mit diesem Schritt wurde der Zugang zu Erkenntnissen für Produktverantwortliche und das Management demokratisiert und gleichzeitig die Gesamtbetriebskosten gesenkt. Die Migration erfolgte iterativ, wobei in jeder Phase Open-Source- und Cloud-Native-Praktiken berücksichtigt wurden, so dass Truecaller seine Plattform ohne Serviceunterbrechung weiterentwickeln konnte.
Das Ergebnis
- Erzielen Sie eine schlanke Kostenstruktur: ~$6 pro 10k Benutzer monatlich für die Datenplattform.
- Die Kosten für Entwickler wurden auf nur 30% der Infrastrukturausgaben reduziert.
- Die Pipelines wurden auf 42 Millionen monatliche Nutzer skaliert und von einem einzigen Dateningenieur verwaltet.
- Das Rechenzentrum vor Ort wurde komplett abgeschafft und ein Cloud-natives Modell eingeführt.
Was kommt als Nächstes?
Truecaller baut seinen Cloud-nativen Analysestack weiter aus und plant, den Einsatz von BigQuery für ETL und Spark auf Kubernetes für maschinelle Lernprozesse zu erweitern. Die Plattform ist so konzipiert, dass sie sich anpassen kann, wenn die Datenmengen wachsen und neue App-Funktionen noch anspruchsvollere Analysen erfordern.
Contact