Gedankenkette: OpenAI o1 setzt auf Verstärkungslernen

Lesezeit
1 Minute
Bis jetzt gelesen

Gedankenkette: OpenAI o1 setzt auf Verstärkungslernen

13.09.2024 - 08:54
Veröffentlicht in:

OpenAI hat kürzlich das neue Sprachmodell o1 vorgestellt, das komplexe Denkaufgaben deutlich besser lösen soll. Das Modell wurde mit Hilfe von Verstärkungslernen entwickelt, einer Trainingsmethode, die es o1 ermöglicht, durch eine "Gedankenkette" Probleme in mehreren Schritten anzugehen.

Diese Herangehensweise ähnelt laut OpenAI der menschlichen Denkweise, bei der eine längere Reflexion vor einer Antwort erfolgt. Die Leistung des Modells zeigt sich insbesondere in Bereichen wie Mathematik, Naturwissenschaften und Programmierung, wo es menschliche Experten in einigen Benchmarks übertrifft.

In Tests schnitt o1 in verschiedenen anspruchsvollen Prüfungen und maschinellen Lern-Benchmarks besser ab als frühere Versionen wie GPT-4o. So erzielte o1 in der amerikanischen Mathematik-Olympiade (AIME) herausragende Ergebnisse, die es unter die besten 500 Schüler der USA brachten.

Auch bei einer schwierigen Prüfung in den Naturwissenschaften, bei der Experten mit PhDs als Vergleichsmaßstab dienten, konnte o1 diese übertreffen. Die Leistung des Modells zeigt, dass es in bestimmten Bereichen sogar besser abschneidet als menschliche Fachleute, obwohl OpenAI betont, dass dies nicht bedeutet, dass es in allen Belangen einem Experten überlegen ist.

Teurer und langsamer

Die Einführung von o1 bringt jedoch auch Herausforderungen mit sich. So ist das Modell deutlich teurer und langsamer im Betrieb als sein Vorgänger GPT-4o. Die API-Nutzung von o1 kostet Entwicklern deutlich mehr, was Fragen hinsichtlich der Wirtschaftlichkeit und Zugänglichkeit aufwirft.

OpenAI hat bereits eine Vorschauversion von o1 für ChatGPT-Nutzer freigegeben, wobei das Unternehmen plant, den Zugang in den kommenden Wochen auch auf Unternehmenskunden und Bildungseinrichtungen auszuweiten. Eine Veröffentlichung einer günstigeren Variante, o1-Mini, ist ebenfalls vorgesehen, allerdings ohne konkretes Datum.

Halluzinationen weiter möglich

Die neue Trainingsmethode des Verstärkungslernens unterscheidet sich von den bisherigen Ansätzen, die auf der Verarbeitung großer Datensätze basierten. Durch den Einsatz von Belohnungen und Bestrafungen lernt das Modell nicht nur aus den Daten, sondern entwickelt selbst Problemlösungsstrategien.

Dies führt laut OpenAI zu einer verbesserten Genauigkeit und verringert die Häufigkeit sogenannter Halluzinationen. Trotz dieser Fortschritte bleibe dieses Problem bestehen, und OpenAI betont, dass noch weitere Entwicklungen notwendig sind, um o1 für den allgemeinen Gebrauch vollständig zu optimieren.

Ähnliche Beiträge