Mit einer schnelllebigen Branche wie der künstlichen Intelligenz Schritt zu halten, ist eine schwierige Aufgabe. Damit die KI dies für Sie erledigen kann, finden Sie hier eine praktische Zusammenfassung der Geschichten der letzten Woche in der Welt des maschinellen Lernens sowie bemerkenswerte Forschungsergebnisse und Experimente, die wir nicht alleine behandeln würden.
Diese Woche dominierte Google den KI-Nachrichtenzyklus mit einer Handvoll neuer Produkte, die auf seiner jährlichen I/O-Entwicklerkonferenz vorgestellt wurden. Sie reichen von codegenerierender KI, die mit GitHubs Copilot konkurrieren soll, bis hin zu einem KI-Musikgenerator namens Turns Textansagen in kurze Lieder umwandeln.
Etliche dieser Tools scheinen echte Arbeitsersparnisse zu sein – mehr Marketing-Füllung also. Besonders fasziniert mich Project Tailwind, eine Notizen-App, die künstliche Intelligenz nutzt, um Dateien aus meinem persönlichen Google Docs-Ordner zu organisieren, zusammenzufassen und zu analysieren. Sie offenbaren aber auch die Grenzen und Unzulänglichkeiten selbst der besten KI-Technologien von heute.
Nehmen wir zum Beispiel PaLM 2, Googles neuestes Large Language Model (LLM). PaLM 2 wird Googles aktualisiertes Bard-Chat-Tool unterstützen, den Konkurrenten des Unternehmens zu OpenAIs ChatGPT, und als Basismodell für die meisten neuen KI-Funktionen von Google dienen. Aber während PaLM 2 wie vergleichbare LLMs Code, E-Mail-Nachrichten und mehr schreiben kann, antwortet es auch auf giftige und voreingenommene Weise auf Fragen.
Auch der Google Music Generator ist in seinen Möglichkeiten etwas eingeschränkt. Da ich selbst geschrieben habe, klingen die meisten Songs, die ich mit MusicLM erstellt habe, bestenfalls passabel – und im schlimmsten Fall wie ein Vierjähriger, der auf einer DAW veröffentlicht wurde.
Es wurde viel darüber geschrieben, wie künstliche Intelligenz Arbeitsplätze ersetzen wird – laut einem Bericht von Goldman Sachs möglicherweise 300 Millionen Vollzeitstellen. In einer Harris-Umfrage befürchten 40 % der Arbeitnehmer, die mit dem KI-gestützten Chatbot-Tool ChatGPT von OpenAI vertraut sind, dass es ihre Jobs vollständig ersetzen wird.
Googles KI ist nicht alles. Tatsächlich kann man sagen, dass das Unternehmen im KI-Rennen im Rückstand ist. Es ist jedoch eine unbestreitbare Tatsache, dass Google einige der besten KI-Forscher der Welt beschäftigt. Und wenn das das Beste ist, was sie schaffen können, ist das ein Beweis dafür, dass künstliche Intelligenz das Problem noch lange nicht löst.
Hier sind weitere KI-Schlagzeilen, die in den letzten Tagen aufgefallen sind:
- Meta bringt generative KI in Anzeigen: Diese Woche kündigte Meta eine Art KI-Sandbox für Werbetreibende an, die ihnen dabei helfen soll, Alternativkopien zu erstellen, Hintergründe durch Textaufforderungen zu erstellen und Bilder für Facebook- oder Instagram-Anzeigen zuzuschneiden. Das Unternehmen sagte, dass die Funktionen derzeit ausgewählten Werbetreibenden zur Verfügung stehen und die Reichweite im Juli auf weitere Werbetreibende ausgeweitet werden.
- Kontext hinzugefügt: Anthropic hat das Kontextfenster für Claude – sein Flaggschiff-Textgenerierungs- und KI-Modell, das sich noch in der Vorschau befindet – von 9.000 Token auf 100.000 Token erweitert. Das Kontextfenster gibt an, welchen Text das Formular berücksichtigt, bevor zusätzlicher Text erstellt wird, während Token Rohtext darstellen (z. B. würde „cool“ in die Token „fan“, „tas“ und „tic“ aufgeteilt). In der Vergangenheit und auch heute noch war ein schlechtes Gedächtnis ein Hindernis für die Nützlichkeit der Textgenerierung für die KI. Aber größere Kontextfenster können das ändern.
- Anthropy fördert „konstitutionelle künstliche Intelligenz“: Größere Kontextfenster sind nicht der einzige Unterscheidungsfaktor für anthropische Modelle. Diese Woche erläuterte das Unternehmen „Constitutional AI“, seinen internen KI-Schulungsansatz, der darauf abzielt, „Werten“ in KI-Systemen eine „Verfassung“ zu verleihen. Im Gegensatz zu anderen Ansätzen argumentiert Anthropic, dass konstitutionelle KI das Verhalten von Systemen leichter verständlich und bei Bedarf einfacher modifizierbar macht.
- Das LLM ist darauf ausgelegt, Folgendes zu erforschen: Das gemeinnützige Allen Institute for Artificial Intelligence Research (AI2) hat angekündigt, dass es eine forschungsorientierte LLM-Schulung mit dem Namen „Open Language Model“ plant und damit eine große und wachsende Open-Source-Bibliothek erweitert. AI2 betrachtet das Open Language Model, kurz OLMo, als Plattform und nicht nur als Modell – eines, das es der Forschungsgemeinschaft ermöglicht, jede von AI2 erstellte Komponente zu übernehmen und sie entweder selbst zu nutzen oder zu verbessern.
- Neuer KI-Fonds: In anderen AI2-Nachrichten ist AI2 Incubator, der gemeinnützige KI-Startup-Fonds, wieder auf das Dreifache seiner vorherigen Größe zurückgekehrt – 30 Millionen US-Dollar gegenüber 10 Millionen US-Dollar. Seit 2017 haben 21 Unternehmen den Inkubator durchlaufen und rund 160 Millionen US-Dollar an weiteren Investitionen und mindestens einer großen Akquisition angezogen: XNOR, ein KI-Beschleuniger und Effizienzgerät, das Apple später für etwa 200 Millionen US-Dollar erwarb.
- EU-Einführungsregeln für generative KI: In einer Reihe von Abstimmungen im Europäischen Parlament unterstützten die Abgeordneten diese Woche eine Reihe von Änderungsanträgen zum KI-Gesetz der Union – darunter die Festlegung von Anforderungen für sogenannte Basismodelle, die generative KI-Technologien wie ChatGPT von OpenAI unterstützen. Durch die Änderungen wird den Anbietern von Basismodellen die Pflicht auferlegt, Sicherheitsüberprüfungen und Data-Governance-Maßnahmen durchzuführen und Risiken zu mindern, bevor sie ihre Modelle auf den Markt bringen.
- Universeller Übersetzer: Google testet einen leistungsstarken neuen Übersetzungsdienst, der Videos in einer neuen Sprache wiedergibt und gleichzeitig einen Sprecher mit Wörtern synchronisiert, die er noch nie gesprochen hat. Es kann aus vielen Gründen sehr nützlich sein, aber das Unternehmen hat das Missbrauchspotenzial und die Schritte, die es zu seiner Verhinderung unternimmt, offen dargelegt.
- Instrumentelle Erläuterungen: Es wird oft gesagt, dass das LLM im ChatGPT-Stil von OpenAI eine Blackbox sei, und tatsächlich ist daran etwas Wahres dran. Um seine Schichten aufzulösen, entwickelt OpenAI ein Tool, um automatisch zu identifizieren, welche Teile eines LLM für welche seiner Verhaltensweisen verantwortlich sind. Die Ingenieure dahinter bestätigen, dass es sich noch in einem frühen Stadium befindet, aber der Code zum Ausführen ist seit dieser Woche als Open Source auf GitHub verfügbar.
- IBM führt neue KI-Dienste ein: Auf seiner jährlichen Think-Konferenz kündigte IBM IBM Watsonx an, eine neue Plattform, die Tools zum Erstellen von Modellen für künstliche Intelligenz bereitstellt und Zugriff auf vorgefertigte Modelle zum Erstellen von Computercode, Skripten und mehr bietet. Das Unternehmen gibt an, dass die Einführung durch die Herausforderungen vorangetrieben wurde, mit denen viele Unternehmen immer noch bei der Bereitstellung von KI am Arbeitsplatz konfrontiert sind.
anderes maschinelles Lernen

Bildnachweis: Fallende KI
Andrew Ngs neues Unternehmen Landing AI verfolgt einen intuitiveren Ansatz bei der Entwicklung von Computer-Vision-Trainings. Ein Modell zu erstellen, das versteht, was Sie in den Bildern definieren möchten, ist ziemlich entmutigend, aber ihr „visueller Reiz“-Ansatz ermöglicht es Ihnen, nur ein paar Pinselstriche zu machen und von dort aus Ihre Absicht festzulegen. Jeder, der Segmentierungsmodelle erstellen muss, sagt: „Oh mein Gott, endlich!“ Es gibt wahrscheinlich viele Doktoranden, die derzeit Stunden damit verbringen, Organellen und Haushaltsgegenstände zu verstecken.
Microsoft hat Streuungsmodelle auf einzigartige und interessante Weise angewendet und sie im Wesentlichen dazu verwendet, einen Streuungsvektor statt eines Bildes zu erstellen, nachdem es auf vielen beobachteten menschlichen Handlungen trainiert wurde. Wir befinden uns noch in den Kinderschuhen und Diffusion ist nicht die offensichtliche Lösung für dieses Problem, aber da sie so stabil und vielseitig sind, ist es interessant zu sehen, wie sie über rein visuelle Aufgaben hinaus angewendet werden können. Ihr Papier wird später in diesem Jahr beim ICLR vorgestellt.

Bildnachweis: Meta
Mit ImageBind stößt Meta auch an die Grenzen der KI. ImageBind ist angeblich das erste Modell, das Daten aus sechs verschiedenen Modalitäten verarbeiten und kombinieren kann: Bild, Video, Audio, 3D-Tiefendaten, Wärmeinformationen sowie Bewegungs- oder Positionsdaten. Dies bedeutet, dass in einem kleinen Einbettungsraum für maschinelles Lernen ein Bild mit Ton, einer 3D-Form und verschiedenen Textbeschreibungen verknüpft werden kann, die jeweils subtrahiert oder zur Entscheidungsfindung verwendet werden können. Es ist ein Schritt in Richtung einer „allgemeinen“ KI, da sie Daten wie ein Gehirn aufnimmt und korreliert – aber sie ist immer noch einfach und experimentell, also seien Sie noch nicht zu aufgeregt.

Was passiert, wenn man diese Proteine berührt?
Alle waren vom AlphaFold begeistert, und das aus gutem Grund, aber die Struktur ist eigentlich nur ein kleiner Teil der sehr komplexen Wissenschaft der Proteomik. Wie diese Proteine interagieren, ist wichtig und schwer vorherzusagen – aber dieses neue PeSTo-Modell der EPFL versucht genau das zu tun. „Es konzentriert sich auf die wichtigen Atome und Wechselwirkungen innerhalb der Struktur eines Proteins“, sagte Hauptentwickler Lucien Crabbe. „Das bedeutet, dass diese Methode komplexe Wechselwirkungen innerhalb von Proteinstrukturen effektiv erfasst, um eine genaue Vorhersage von Protein-Bindungsschnittstellen zu ermöglichen.“ Auch wenn es nicht 100 % genau oder zuverlässig ist, ist es für Forscher von großem Vorteil, nicht bei Null anfangen zu müssen.
Die Feds setzen auf KI. Der Präsident nahm sogar an einem Treffen mit einer Gruppe hochrangiger KI-Führungskräfte teil, um darauf hinzuweisen, wie wichtig es ist, dies richtig zu machen. Vielleicht ist eine Gruppe von Unternehmen nicht unbedingt der richtige Ansprechpartner, aber sie haben zumindest einige Ideen, die es wert sind, in Betracht gezogen zu werden. Aber sie haben doch schon Lobbyisten, oder?
Am meisten freue ich mich über die Entstehung neuer, staatlich finanzierter KI-Forschungszentren. Grundlagenforschung ist dringend erforderlich, um die produktorientierte Arbeit von Unternehmen wie OpenAI und Google auszubalancieren – wenn es also KI-Zentren mit dem Auftrag gibt, Dinge wie die Sozialwissenschaften (an der CMU) oder den Klimawandel und die Landwirtschaft (an der CMU) zu untersuchen U of Minnesota) scheint es wie grüne Felder zu sein (im übertragenen und wörtlichen Sinne). Allerdings möchte ich auch Meta Research on Forest Measurement ein kleines Lob aussprechen.

KI gemeinsam auf einer großen Leinwand üben – das ist eine Wissenschaft!
Viele interessante Gespräche zum Thema Künstliche Intelligenz. Ich fand dieses Interview mit den Akademikern Jacob Foster und Danny Sleeson interessant. Hier ist eine großartige LLM-Idee, um so zu tun, als wären Sie dieses Wochenende gekommen, wenn die Leute über KI reden:
Diese Systeme erkennen die Konsistenz der meisten Schriften formal. Je allgemeinere Formate diese Vorhersagemodelle simulieren, desto erfolgreicher sind sie. Diese Entwicklungen veranlassen uns, mehr über die modularen Funktionen unserer Formen und deren mögliche Transformation zu erfahren. Nach der Einführung der Fotografie, die einen Darstellungsraum sehr gut einfangen kann, entwickelte sich im Umfeld der Malerei der Impressionismus, ein Stil, der die exakte Darstellung gänzlich ablehnte und bei der Materialität der Farbe selbst blieb.
Das werde ich auf jeden Fall nutzen!