Software: Welche KI ist die beste? Ein neues Programm soll Firmen helfen
Das US-Unternehmen Datadog will Künstliche Intelligenz vergleichbar machen.
Foto: PRNew York. Künstliche Intelligenz (KI) erreicht den Arbeitsplatz. Schon im November will der Windows-Konzern Microsoft seinen KI-Assistenten „Copilot“ in die Office-Produkte für Firmenkunden integrieren. Google bringt seine KI in die neuesten Pixel-Handys und in Gmail und Co. Und sogar das konservative Business-Netzwerk LinkedIn führt neue KI-Tools ein.
KI ist also bald fast überall. Und während sich die Angst vor einer „Terminator-KI“, die schon bald die Weltherrschaft übernimmt, ein Stück weit gelegt hat, wird eine andere Frage immer wichtiger: Wie erkennt man eigentlich den Unterschied zwischen einer guten und einer schlechten KI? Lassen sich die Qualitäten großer Sprachmodelle (LLMs) und anderer KI-Modelle messen?
Ja, sagen die Experten von Datadog. Das Handelsblatt war in der Firmenzentrale in New York im 45. Stock des „New York Times“-Wolkenkratzers. Dort ist ein Unternehmen entstanden, das mittlerweile mit knapp 30 Milliarden Dollar bewertet wird.
Datadog bietet seinen Kunden Dashboards, eine virtuelle Übersicht über alle im Einsatz befindlichen Cloud-Dienste. Damit können Programmierer Serverauslastungen, Datenströme und Sicherheitsrisiken im Auge behalten.
Die Lösung, die derzeit im Beta-Stadium von ausgewählten Firmenkunden getestet wird, heißt LLM Obs, was für „LLM Observability“ steht, also das Analysieren großer Sprachmodelle. LLM Obs schaltet sich zwischen das eingesetzte Modell und die Chatbox, mit der die Nutzer interagieren, und misst verschiedene Parameter, darunter die Leistung, die Qualität, die Kosten und weitere Größen.
Datadog: Vorteile von ChatGPT und Co. auf einen Blick
Konkret heißt das, dass für die Leistung etwa die Antwortzeit des Modells ausgewertet wird, für die Qualität die Nutzerreaktion als Antwort auf die Frage, ob die KI geholfen hat („Daumen hoch, Daumen runter“), für die Kosten die Gebühren, die die LLM-Anbieter den Firmenkunden pro Antwort berechnen.
Ergänzt werden die Daten zum Beispiel durch die Protokollierung von Abbrüchen, wenn Nutzer also frustriert die Chatbox verlassen.
So sollten „reale Anwendungsprobleme wie Modellkostenspitzen, Leistungsverschlechterungen, Halluzinationen und mehr“ schnell zu erkennen und zu beheben sein, erklärt Datadog-Produktchef Yrieix Garnier.
Für Unternehmen sei es „von entscheidender Bedeutung, mit der Zeit und den Ressourcen zu haushalten, die sie in ihre KI-Modelle investieren“. Mithilfe von LLM Obs könnten Firmen die KI-Modelle verschiedener Anbieter vergleichen und sich kosteneffizienter aufstellen.
Das Sprachmodell GPT 3.5 wird auf positive und negative Nutzerrückmeldungen untersucht.
Foto: HandelsblattWas abstrakt klingt, hat ganz reale Vorteile. „Denken Sie an einen großen Möbelhändler“, erklärt LLM-Obs-Chef Junaid Ahmed, der zuvor KI-Anwendungen für Microsofts Suchmaschine Bing betreut hat. Dieser möchte zum Beispiel ein KI-Modell einsetzen, das Kunden beim Kauf- und Serviceprozess begleitet, um das hauseigene Callcenter zu entlasten.
„Künftig kann der Händler mehrere LLMs auf seiner Seite einsetzen und gegeneinander antreten lassen. LLM Obs misst, welches für welchen Anwendungsfall die besten Ergebnisse liefert“, so Ahmed.
LLM Obs von Datadog steht noch am Anfang
Die KI-Angebote von Unternehmen wie OpenAI, Anthropic, Cohere, Google sowie Open-Source-Modelle seien erst der Anfang. „Fast jeden Tag gibt es heute ein neues Modell. Und am Ende werden sich mehrere durchsetzen. Wir werden ein Universum an verschiedenen KI-Modellen sehen.“
Um in dieser neuen Welt nicht den Überblick zu verlieren, müssen Unternehmen wissen, wie gut die eingesetzten Modelle funktionieren. LLM Obs soll dabei helfen. „Künftig kann man das Modell, das eingesetzt wird, danach auswählen, welche Frage der Nutzer gestellt hat“, sagt Ahmed. Im Beispiel des Möbelhändlers könnte ChatGPT beispielsweise dem Kunden dabei helfen, die passenden Möbel zu finden. PaLM 2 von Google könnte besser geeignet sein, um Rückgaben abzuwickeln.
LLM Obs stellt das Ergebnis seiner Analysen grafisch dar, damit Programmierer direkt erkennen können, welches Modell in welchem Anwendungsfall am besten abschneidet. Die Preise für das Programm habe man noch nicht festgelegt. Für Kooperationen sei Datadog offen.
Noch stehe das Projekt am Anfang, sagt Ahmed. „Das Testen von KIs ist im Moment noch keine echte Einnahmequelle für uns. Aber es könnte ein großes Geschäftsfeld der Zukunft werden.“ Im besten Fall könnten Programme wie das von Datadog dazu beitragen, dass KIs sinnvollere Antworten liefern.