Informationstechnologie

02.09.2022

Revolution in der Bildgenerierung durch KI: Wunschbild per Texteingabe

Aus dem Text "Happy vegetables waiting for supper" generiertes Bild.
Machine Vision & Learning
Machine Vision & Learning-Arbeitsgruppe

• Die Machine Vision & Learning Arbeitsgruppe an der LMU um den Informatiker Prof. Björn Ommer hat einen der leistungsfähigsten Algorithmen zur Bildsynthese entwickelt
• Das neue KI-Modell Stable Diffusion benötigt keinen Hochleistungsrechner und ist für alle Nutzer frei verfügbar
• Die Essenz aus Milliarden von Trainingsbildern wird von dem KI-Modell in wenigen Gigabyte zusammengefasst

In Sekundenschnelle aus Texten Bilder machen – und zwar mit einer herkömmlichen Grafikkarte und ohne Hochleistungsrechner. Das ermöglicht das neue KI-Modell Stable Diffusion. Den zugrundeliegenden Algorithmus hat die Machine Vision & Learning-Arbeitsgruppe um Prof. Björn Ommer (Ludwig-Maximilians-Universität München) entwickelt.

„Selbst Laien ohne künstlerische Fähigkeiten, besondere Computerkenntnisse und Computerhardware erhalten mit dem neuen Modell ein effektives Tool, mit dem ihnen die Barriere genommen wird, ihre Kreativität zu entfalten, indem der Computer Bilder auf einfaches Zurufen generiert“, sagt Ommer. Aber auch erfahrene Künstler können neue Ideen mit Stable Diffusion schnell in eine Vielzahl von grafischen Entwürfen verwandeln. Ein solches KI-basiertes Werkzeug kann nach Überzeugung der Forschenden damit zukünftig die Möglichkeiten der kreativen Bilderzeugung durch Pinsel oder Photoshop so grundsätzlich erweitern, wie die computerbasierte Textverarbeitung es mit dem Schreiben mit Stift und Schreibmaschine gemacht hat.

Bei ihrem Vorhaben wurden die LMU-Wissenschaftler vom Start-up Stability.Ai unterstützt, auf dessen Servern das KI-Modell trainiert wurde. „Dieses Mehr an Rechenpower und Trainingsbeispielen hat unser KI-Modell in einen der leistungsfähigsten Algorithmen zur Bildsynthese verwandelt“, freut sich der Informatiker.

Besonders an dem entwickelten Ansatz ist, dass das trainierte Modell gleichzeitig leistungsfähig und doch so kompakt ist, dass es auf einer herkömmlichen Grafikkarte läuft und keinen Hochleistungsrechner mehr benötigt, wie dies bislang für die Bildsynthese der Fall war. Dazu lernt die künstliche Intelligenz, die Essenz aus Milliarden von Trainingsbildern in einem nur wenige Gigabyte großen KI-Modell zusammenzufassen. „Wenn eine solche KI wirklich verstanden hat, was ein Auto ausmacht oder welche Merkmale für einen künstlerischen Stil charakteristisch sind, sollte sie genau diese wesentlichen Merkmale erfasst haben und idealerweise weitere Beispiele kreieren können, wie es ein Schüler eines alten Meisters vermag“, erklärt Ommer. Für das Ziel der LMU-Wissenschaftler, den Computer das Sehen – also das inhaltliche Verstehen von Bildern – lernen zu lassen ist dies ein weiterer wichtiger Schritt, der die Grundlagenforschung im maschinellen Lernen und der Computer Vision weiter voranbringt.

Das trainierte Modell wurde kürzlich unter der „CreativeML Open RAIL-M“ Lizenz (https://huggingface.co/spaces/CompVis/stable-diffusion-license) frei zur Verfügung gestellt, um so die weitere Erforschung und Anwendung dieser Technologie in der Breite voranzutreiben. „Wir sind gespannt, was mit unserem aktuellen Modell ,gebaut‘ wird und welche weiteren Arbeiten aus der offenen, kollaborativen Forschung hervorgehen werden“, meint Doktorand Robin Rombach.

Wissenschaftliche Ansprechpartner:

Prof. Dr. Björn Ommer
Machine Vision & Learning Group
Tel.(office): +49 (0)89/2180-73431
b.ommer@lmu.de
https://ommer-lab.com/

Originalpublikation:

Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer: High-Resolution Image Synthesis with Latent Diffusion Models, In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2022
Projektwebseite: https://ommer-lab.com/research/latent-diffusion-models/

Media Contact

LMU Stabsstelle Kommunikation und Presse

Ludwig-Maximilians-Universität München

idw - Informationsdienst Wissenschaft

Alle Nachrichten aus der Kategorie: Informationstechnologie

Neuerungen und Entwicklungen auf den Gebieten der Informations- und Datenverarbeitung sowie der dafür benötigten Hardware finden Sie hier zusammengefasst.

Unter anderem erhalten Sie Informationen aus den Teilbereichen: IT-Dienstleistungen, IT-Architektur, IT-Management und Telekommunikation.

Menschen vs Maschinen – Wer ist besser in der Spracherkennung?

15.01.2025 / Informationstechnologie

Nicht in der Übersetzung verloren: KI erhöht Genauigkeit der Gebärdenspracherkennung

15.01.2025 / Informationstechnologie

Magnetischer Speicher mit energieeffizientem MRAM freigeschaltet

07.01.2025 / Informationstechnologie

Next-Level System-Sicherheit: Intelligenterer Zugriffsschutz für Organisationen

07.01.2025 / Informationstechnologie

Zurück zur Startseite

Kommentare (0) Antworten abbrechen

Neueste Beiträge

KI-System erkennt Sprache in lauten Umgebungen genauer als Menschen.

Informationstechnologie

Menschen vs Maschinen – Wer ist besser in der Spracherkennung?

Sind Menschen oder Maschinen besser in der Spracherkennung? Eine neue Studie zeigt, dass aktuelle automatische Spracherkennungssysteme (ASR) unter lauten Bedingungen eine bemerkenswerte Genauigkeit erreichen und manchmal sogar die menschliche Leistung…

15.01.2025

KI-System analysiert subtile Hand- und Gesichtsgesten zur Gebärdenspracherkennung.

Informationstechnologie

Nicht in der Übersetzung verloren: KI erhöht Genauigkeit der Gebärdenspracherkennung

Zusätzliche Daten können helfen, subtile Gesten, Handpositionen und Gesichtsausdrücke zu unterscheiden Die Komplexität der Gebärdensprachen Gebärdensprachen wurden von Nationen weltweit entwickelt, um dem lokalen Kommunikationsstil zu entsprechen, und jede Sprache…

15.01.2025

Forscherin Claudia Schmidt analysiert durch Gletscherschmelze beeinflusste Wasserproben arktischer Fjorde.

Ökologie Umwelt- Naturschutz

Brechen des Eises: Gletscherschmelze verändert arktische Fjordökosysteme

Die Regionen der Arktis sind besonders anfällig für den Klimawandel. Es mangelt jedoch an umfassenden wissenschaftlichen Informationen über die dortigen Umweltveränderungen. Forscher des Helmholtz-Zentrums Hereon haben nun an Fjordsystemen anorganische…

15.01.2025

Erhalten Sie Fördermittel für Ihre Innovationen!

Svenja Heimerl

NACHRICHTEN & BERICHTE

Aktuelle News

Menschen vs Maschinen – Wer ist besser in der Spracherkennung?

Nicht in der Übersetzung verloren: KI erhöht Genauigkeit der Gebärdenspracherkennung

Brechen des Eises: Gletscherschmelze verändert arktische Fjordökosysteme

Globale Studie identifiziert Gene für Depressionen in verschiedenen Ethnien

Revolution in der Bildgenerierung durch KI: Wunschbild per Texteingabe

Wissenschaftliche Ansprechpartner:

Originalpublikation:

Media Contact

Menschen vs Maschinen – Wer ist besser in der Spracherkennung?

Nicht in der Übersetzung verloren: KI erhöht Genauigkeit der Gebärdenspracherkennung

Magnetischer Speicher mit energieeffizientem MRAM freigeschaltet

Next-Level System-Sicherheit: Intelligenterer Zugriffsschutz für Organisationen

Kommentare (0) Antworten abbrechen

Neueste Beiträge

Menschen vs Maschinen – Wer ist besser in der Spracherkennung?

Nicht in der Übersetzung verloren: KI erhöht Genauigkeit der Gebärdenspracherkennung

Brechen des Eises: Gletscherschmelze verändert arktische Fjordökosysteme