Langfuse: Dieses Start-up analysiert, wie gut KI-Agenten wirklich sind
Berlin. Seit drei Jahren boomt das Geschäft mit Künstlicher Intelligenz (KI) weltweit. Tech-Firmen konkurrieren um immer größere und leistungsstärkere Grundlagenmodelle. Doch die Zweifel an den Anwendungen nehmen zu: Je komplexer die Aufgaben für KI-Modelle werden, desto eher kommen sie an ihre Grenzen. Was also bleibt, wenn sich der Hype legt?
In Europa wächst eine KI-Szene heran, die Antworten auf diese Frage sucht. Start-ups mit tiefem technischem Verständnis und klugen Ideen, die Mehrwert schaffen und Pionierarbeit leisten, zeigen: Entscheidend ist nicht die Teamgröße oder das Finanzierungsvolumen, sondern die Geschäftsidee.
Für die Serie „KI-Start-ups jenseits des Hypes“ hat sich das Handelsblatt in der europäischen Szene umgesehen und nach technologischen Innovationen gesucht. Die acht porträtierten Firmen stehen für zentrale Trends der KI-Branche und prägen sie entscheidend mit.
Den Beginn macht Langfuse – ein Berliner Unternehmen, das von Entwicklern und Investoren so häufig genannt wird wie kaum ein anderes, wenn es um die spannendsten KI-Start-ups geht. Langfuse hat ein Tool entwickelt, das KI-Modelle und -Agenten testet, überwacht und optimiert.
Das Handelsblatt hat den Mitgründer Marc Klingen mehrmals in Berlin getroffen und mit Investoren gesprochen, um zu verstehen: Warum ist Langfuse so gefragt, obwohl das Unternehmen mit seinem ursprünglichen Geschäftsmodell gescheitert ist?
Gründer stellen nach zwei Wochen fest: Das Geschäftsmodell ergibt keinen Sinn
Anfang 2023 reisten Klingen, Clemens Rawert und Max Deichmann in die Bay Area nach Kalifornien. Sie wurden gerade in das renommierte Y-Combinator-Programm aufgenommen – ein dreimonatiges Gründer-Bootcamp, das auch die beliebte Wohnungsvermietungsplattform Airbnb und das Onlineforum Reddit hervorgebracht hat. Die Idee der drei deutschen Gründer: eine generative KI, die Finanzsoftwarefirmen bei der Abrechnung hilft. Die Realität: ernüchternd.
„Wir haben in der zweiten Woche festgestellt, dass unser Geschäftsmodell unattraktiv wurde“, erinnert sich Klingen. Die damals neuen Sprachmodelle – darunter auch das System hinter ChatGPT – waren zu komplex, zu intransparent, ihre Ergebnisse kaum kontrollierbar.
Doch statt aufzugeben, entwickelte das Team eine neue Idee: eine Plattform, auf der sich die Qualität von KI-Anwendungen überwachen und verbessern lässt. In Kalifornien hatte Klingen festgestellt: „Wir merkten, dass es hier einen ganz klaren neuen Markt gibt.“
Inzwischen hat sich rund um Langfuse eine wachsende Entwicklergemeinschaft gebildet, die das Produkt in große Unternehmen bringt.
Der Trend hinter dem Start-up: LLMops
Das Gründerteam von Langfuse kennt sich aus mit Softwareentwicklung und der Start-up-Szene. Vor der Zeit bei Langfuse studierte Klingen Informatik und absolvierte ein Praktikum bei Google. Deichmann war Softwareentwickler beim Neobroker Trade Republic, und Rawert begleitete die Finanzierungsrunde von Scalable Capital zum Einhorn – so werden Start-ups mit einer Bewertung von mehr als einer Milliarde Dollar genannt.
Trotz dieser Erfahrung standen sie vor einem Problem, das viele junge Firmen zur selben Zeit hatten. Viele Start-ups versuchten, generative KI in jede Anwendung einzubauen, merkten allerdings: Klassische Software folgt festen Regeln, große Sprachmodelle wie ChatGPT nicht. Denn deren Antworten sind unvorhersehbar, variieren, und was im System genau passiert, bleibt verborgen.
Inzwischen haben sich KI-Anwendungen wie ChatGPT und -Agenten weiter etabliert. KI-Agenten sind Systeme, die eigenständig agieren, Entscheidungen treffen und definierte Aufgaben durchführen.
Solche KI-Systeme werden laut Klingen schon bald einen erheblichen Teil der Wirtschaftsleistung eigenständig erwirtschaften. Dafür brauche es, wie in jeder industriellen Produktion, auch verlässliche Qualitätskontrollen und -tests.
Langfuse begann, eine Plattform zu bauen, auf der Entwickler KI-Anwendungen nachvollziehen, analysieren und Fehler reduzieren können. „Wir helfen Teams dabei zu verstehen, ob ihre KI-Anwendung wirklich funktioniert“, sagt Klingen – das Konzept heißt „LLMops“, in Anlehnung an „Devops“ aus der klassischen Softwareentwicklung.
Nur sechs Monate nach dem Start bei Y Combinator und acht Monate nach der Veröffentlichung von ChatGPT veröffentlichten sie die erste Version.
Langfuse vermarktet sich mit Gratis-Code
Entwickler können mit Langfuse nachvollziehen, was eine Anwendung oder ein Agent tut, Fehler und Kosten auswerten und verschiedene Modelle gegeneinander antreten lassen und das Beste für ihre Anwendung auswählen.
Organisationen, die Langfuse bereits offiziell nutzen, sind das Pharmaunternehmen Merck, das Fintech Sumup, das kanadische Telekommunikationsunternehmen Telus, der US-Cloud-Anbieter Twilio und das US-Softwareunternehmen Samsara sowie viele Start-ups aus dem Y-Combinator-Netzwerk.
Merck nutzt Langfuse, um in Echtzeit Aktionen seiner unternehmensweiten KI-Plattform nachzuvollziehen, während Twilio Langfuse verwendet, um die Befehle für seine KI-Lösungen, sogenannte Prompts, gemeinschaftlich zu verwalten und zu nutzen. Zudem kann Langfuse auch die Ausgaben der KI nach Qualität bewerten. Bei Samsara überwacht Langfuse die Leistung und Verlässlichkeit des KI-Chatbots, der Antworten auf komplexe Kundenfragen geben soll.
Laut Klingen setzen bereits 10.000 Unternehmen auf Langfuse, darunter auch einige Dax-Konzerne aus der Automobil- und Pharmaindustrie. Die Unternehmenskunden seien weltweit verteilt, obwohl sich die meisten in den USA befinden.
Der Code der Berliner ist dabei Open Source. Das heißt: Er kann von Entwicklern eingesehen und angepasst werden. Dadurch können sie die Funktionen im Unternehmen nutzen, ohne dass sensible Daten nach außen gelangen. Das begünstigt, dass Unternehmen, die auf Langfuse setzen, sich von einem KI-Anbieter unabhängig machen.
Andere Konkurrenzprodukte von großen Cloud-Anbietern, wie Azure Monitor und Amazon Bedrock Trace, sind dagegen KI-anbietergebunden und ihr Code nicht öffentlich. „Viele unserer Kunden schätzen gerade diese Unabhängigkeit“, sagt Klingen.
Zudem helfen die Nutzer und Entwicklerteams, das Produkt zu verbessern. „Man kann nur das beste Produkt bauen, wenn man viel Feedback bekommt“, so Klingen.
Den Schritt, den Code öffentlich zu machen, hält Klingen für eine der wichtigsten Entscheidungen für Langfuse. „Entwicklerteams in großen Unternehmen können Langfuse so erst mal einfach benutzen und testen und später tiefer mit uns zusammenarbeiten.“
Langfuse verdient aktuell an einem Cloud-Produkt, bei dem Kunden gegen Zahlung die Infrastruktur und Zusatzlösungen aus einer Hand bekommen, sowie durch Lizenzen für spezialisierte und individualisierte Unternehmensanwendungen und Supportdienstleistungen für größere Kunden.
Das sagen Investoren
Jakob Stein, Leiter des Berliner Standorts vom Wagniskapitalgeber Creandum, betont die einfach Nutzbarkeit von Langfuse als großen Vorteil: „Die Lösung läuft problemlos im Hintergrund mit und spielt anschließend wertvolle Analysen direkt an Unternehmen oder Entwickler zurück.“ Weltweit würde die Anwendung viel Zuspruch erhalten.
Langfuse bezeichnet sich selbst als weltweit beliebteste LLMops-Plattform. Ein wachsendes Kriterium für Beliebtheit für Software- und KI-Start-ups – auch aus Sicht von Investoren – ist dabei die Zahl der sogenannten Github-Stars. Etwa 15.000-mal wurde Langfuses Code auf der Codeplattform Github von Nutzern favorisiert und ist nach dieser Metrik beliebter als Konkurrenzprodukte wie Helicone mit circa 4000 und Phoenix mit 6500 Github-Stars.
Christian Neumann vom Wagniskapitalgeber First Momentum sieht in dieser Metrik eine beeindruckend große Gemeinschaft aus Entwicklern. Langfuse werde bald zu einem „unverzichtbaren Werkzeug“ in der KI-Infrastruktur vieler Unternehmen, ist sich Neumann sicher. Das Marktpotenzial sei sehr groß. „Langfuse trifft hier den Nerv der Zeit, vor allem durch die Kombination aus technischer Tiefe, Transparenz und Benutzerfreundlichkeit.“
Doch der Wettbewerb nehme immer weiter zu, und auch das Open-Source-Modell könnte langfristig Probleme mit sich bringen, wenn Langfuse an seinem Produkt verdienen möchte, betont Neumann. Langfristig müsse sich Langfuse entscheiden, welche Funktionen kommerzialisiert werden, ohne seine Open-Source-Fans zu verlieren.
Im November 2023 schloss Langfuse eine Seed-Finanzierungsrunde in Höhe von vier Millionen US-Dollar ab. Angeführt wurde die Runde vom Wagniskapitalgeber Lightspeed, General Catalyst und Y Combinator.
Fragen zur nächsten möglichen Runde kommentiert Klingen nicht. „Wir kommen sehr gut klar“, sagt er nur. Jüngst arbeitete das Start-up an neuen Funktionen, die einfach visualisieren sollen, wie KI-Agenten funktionieren und in denen Nutzer ihre Befehle für die Modelle verwalten können. So können bald nicht nur Entwickler Langfuse nutzen.
Serie: KI-Start-ups jenseits des Hypes
Das Handelsblatt hat sich in Europas KI-Szene umgesehen und zeigt in dieser Serie, welche Ideen wirklich zählen. Im Fokus stehen acht Start-ups, die mit technischer Tiefe, nicht mit Teamgröße oder Kapital überzeugen. Sie prägen zentrale Trends der Branche und treiben sie voran.
Erstpublikation: 07.08.2025, 04:17 Uhr.