Das digitale Zeitalter ist reich an Innovationen. Unter diesen sind Künstliche Intelligenz (KI) und Maschinelles Lernen sicherlich mit die revolutionärsten. Ein Beispiel dafür ist ChatGPT von OpenAI. Neueste Entwicklungen ermöglichen es ChatGPT, auch Bilder zu verarbeiten.
Die Integration von Bildern in Chatbots wie ChatGPT bietet eine neue Dimension der Benutzerinteraktion. Durch die Verwendung von Bildern können Benutzer nicht nur textbasierte Antworten erhalten, sondern auch visuelle Darstellungen, die zur Veranschaulichung von Konzepten oder zur Verbesserung des Gesamterlebnisses beitragen.
Doch wie gut funktioniert diese Neuerung in der Praxis? In diesem Artikel teile ich meine persönlichen Erfahrungen mit der Bildverarbeitung in ChatGPT.
Bildbeschreibungen
Mein erster Test zielte darauf ab, die grundlegenden Fähigkeiten von ChatGPT in Bezug auf die Bildbeschreibung zu überprüfen. Dabei nutzte ich recht einfache Prompts:
- „
Beschreibe das Bild
„: generiert eine Beschreibung des Bildinhalts - „
Schreibe ALT-Text
“ oder auch nur “alt-text
”: erstellt einen alternativen Textes für das Bild zur Unterstützung sehbehinderter Personen
Ich startete meine Tests mit einigen Kunstbildern. Bei einem handelte es sich um ein kunstvolles Portrait einer Frau vor einem malerischen Hintergrund. ChatGPT erkannte das Bild als gemalte Darstellung und lieferte treffende Alt-Text-Beschreibungen. Ein gelungener Beginn!
Es folgte eine kindliche Illustration, die einen Jungen abbildete, der Vögel im Himmel beobachtet. Auch hier überzeugte die generierte Beschreibung. Ein weiteres, eher abstraktes Bild zeigte ein aus mechanischen und digitalen Elementen zusammengesetztes Gesicht. ChatGPT lieferte auch hier eine treffende Beschreibung, die das Wesen des Bildes gut einfing.
Interessant war auch der Umgang mit der Privatsphäre: Bei einer Bildcollage, die mehrere Fotos einer Person zeigte, verzichtete ChatGPT darauf, die Identität zu erkennen oder sensible Schlussfolgerungen zu ziehen – ein Pluspunkt für Datenschutz und Ethik. Dennoch erkannte Sie, dass auf allen enthaltenen Fotos, dieselbe Person zu unterschiedlichen Zeiten und verschiedenen Settings abgebildet wurde.
Use Cases, die mir an der Stelle in den Sinn kommen:
- Menschen mit Webseiten oder Social Media Accounts könnten ChatGPT nutzen, um Alt-Texte für ihre Webseitenbilder zu generieren, wodurch die Barrierefreiheit verbessert wird.
- Künstler und Fotografen könnten nach detaillierten Beschreibungen ihrer Werke suchen, um sicherzustellen, dass ihre Botschaft richtig vermittelt wird.
Analyse und Interpretation oder Bewertung von Bildern
In diesem Abschnitt lag mein Fokus darauf, tiefer in die Fähigkeiten von ChatGPT einzutauchen, wenn es darum geht, Bilder nicht nur zu beschreiben, sondern auch zu interpretieren und zu bewerten. Hierfür habe ich verschiedene Prompts verwendet.
- „
Analysiere das Bild
„: Bei diesem Prompt lieferte ChatGPT eine detaillierte Analyse des Bildinhalts, inklusive spezifischer Details und Interpretation von Emotionen im Bild. - „
Bewerte das Foto in Hinblick auf einen Wettbewerb zur Naturfotografie
„: Bei dieser Anfrage zeigte sich die Tiefe von ChatGPTs Bewertungsfähigkeiten. Die KI nahm das von mir mitgeschickte Foto sorgfältig unter die Lupe, kommentierte positiv die Farbkomposition und Schärfe, wies jedoch auch auf Bereiche hin, in denen das Foto verbessert werden könnte, um es wettbewerbsfähiger zu machen. In der Gegenprobe habe ich ein Bild hochgeladen, dass zwar eine Landschaft im Hintergund hat, aber der Fokus eindeutig auf einer Frau und einem Auto im Vordergrund liegt. Darauf macht die KI auch gleich aufmerksam, bewertet aber dennoch Komposition, Farbgebung, allgemeines Gefühl und Details, bevor sie andere, passendere, Kategorien für dieses Bild empfiehlt. - „
Beschreibe und Interpretiere
„: Hier lieferte ChatGPT nicht nur eine detaillierte Beschreibung des hochgeladenen Bildes, sondern ging auch auf mögliche Interpretationen und die dahinterliegende Bedeutung ein. Die Interpretationen waren sowohl objektiv, basierend auf dem, was im Bild sichtbar war, als auch subjektiv, wobei versucht wurde, eine tiefere Bedeutung oder Botschaft zu erfassen. - „
Analysiere und interpretiere
„: In dieser Anfrage kombinierte ChatGPT Analyse und Interpretation, um einen umfassenden Überblick über das Bild zu geben, der sowohl technische Aspekte als auch emotionale und künstlerische Einsichten abdeckte.
Potentielle Anwendungsfälle: ChatGPTs Fähigkeiten in der Bildanalyse und -bewertung könnten in einer Vielzahl von Bereichen nützlich sein, darunter:
- Kunstinteressierte könnten die neue Funktion nutzen, um mehr über verschiedene Stilrichtungen oder die Techniken, die in einem Kunstwerk verwendet werden, erfahren möchten.
- Hobbykünstler und Fotografen könnten nach konstruktivem Feedback für ihre Werke fragen, um sich weiterzuentwickeln.
- ChatGPT selbst schlägt vor, dass Personen, die ihren persönlichen Stil verbessern möchten, Fotos ihrer Outfits hochladen und nach Ratschlägen zur Kombination von Outfits fragen könnten.
- Mann könnte auch detaillierte Informationen oder Interpretationen zu historischen Bildern oder Fotografien suchen.
- Und Ehrenamtliche, die Werbematerial für Vereine oder Veranstaltungen erstellen möchten und eine Analyse ihrer Arbeit wünschen, um effektiveres und ansprechenderes Material zu produzieren, könnten sich von ChatGPT unterstützen lassen.
Texterstellung auf Basis von Bildern
Im nächsten Schritt wollte ich die kreative Ader von ChatGPT testen, um herauszufinden, ob die KI in der Lage ist, fesselnde und relevante Texte zu verfassen, die ausschließlich auf Bildinhalten basieren.
- „
Schreibe Social Media Post dazu
„: Hierbei präsentierte ChatGPT einen Social Media Post, der nicht nur den Bildinhalt treffend wiedergab, sondern auch Elemente enthielt, die zum Engagement anregten. Es war, als hätte ein jemand Erfahrenes den Post verfasst, mit einem klaren Verständnis für das, was auf Plattformen wie Instagram oder Facebook gut ankommt. - „
Schreibe eine Kurzgeschichte zu dem Bild
„: Die Antwort von ChatGPT auf diesen Prompt war beeindruckend. Die KI lieferte eine detaillierte Kurzgeschichte, die den Bildinhalt in eine fesselnde Erzählung mit interessanten Charakteren und einer spannenden Handlung umwandelte. Es war, als würde man einen Ausschnitt aus einem Buch lesen, das von einem professionellen Autor geschrieben wurde.
Aus meiner Sicht könnte die Fähigkeit von ChatGPT, Texte basierend auf Bildern zu erstellen, in verschiedenen Bereichen nützlich sein:
- Autoren könnten ChatGPT nutzen, um Inspiration für neue Geschichten, Handlungsstränge oder Charaktere zu erhalten, besonders wenn sie Schreibblockaden erleben.
- Content Creator könnten die KI verwenden, um kreative Inhalte für Werbekampagnen zu generieren.
Arbeiten mit Text in Bildern
Zu guter Letzt wollte ich herausfinden,wie gut ChatGPT Text in Bildern erkennen und verarbeiten kann. Text in Bildern kann aus verschiedensten Gründen relevant sein, besonders im Alltag. Es gibt viele Situationen, in denen wir schnell einen Text abfotografieren, um ihn später zu bearbeiten oder zu verstehen. Hier sind meine Erfahrungen mit ChatGPT in Bezug auf solche Bilder:
- „
Korrigiere Fehler im Text
“ oder “überprüfe auf Fehler
”: ChatGPT identifizierte und korrigierte recht gut Fehler im Text, wobei sowohl Grammatik als auch Kontext berücksichtigt wurden.
Während digitale Schreibprogramme eine automatische Fehlerkorrektur besitzen, gibt es Zeiten, in denen wir abgedruckte Materialien oder auch Screenshots von Entwürfen aus anderen Programmen machen. ChatGPT könnte hier hilfreich sein, um Tippfehler zu identifizieren und Verbesserungsvorschläge zu machen, vorausgesetzt, dass der Text in Druckschrift oder sehr sauberer Handschrift verfasst ist.
Manchmal stolpert man über interessante Artikel in Zeitschriften oder Zeitungen, hat aber nicht die Zeit, sie sofort zu lesen. Ein schnelles Foto und eine Anfrage an ChatGPT könnten einen kurzen Überblick geben, um zu entscheiden, ob man den Artikel später in Ruhe lesen möchte.
- „
Worum geht es?
„: Bei diesem Prompt lieferte ChatGPT eine präzise Zusammenfassung des Bildinhalts, die dem Leser einen schnellen Überblick über das Wesentliche bot. Allerdings flossen bei der Interpretation eines Buchcovers fälschlicherweise Stereotype ein, was ich persönlich sehr schade finde.
Es ist richtig, dass Tools wie Google Lens eine Live-Übersetzung bieten, aber ChatGPT kann einen Zusammenhang oder eine kurze Zusammenfassung des Inhalts liefern, was in bestimmten Situationen nützlicher sein könnte.
- „
Fasse die Infos zusammen
„: Hier erstellte ChatGPT eine kurze und prägnante Zusammenfassung der wichtigsten Informationen aus dem Bildtext, z.B. von hochgeladenen Sketchnotes.
Die Fähigkeit, Text in Bildern zu erkennen, bietet laut ChatGPT mehrere alltägliche Anwendungsmöglichkeiten:
- Bibliotheks- oder Bücherei-Besucher könnten beim Stöbern nach neuen Büchern das Inhaltsverzeichnis oder die Buchrückseite fotografieren und um eine Zusammenfassung oder Einschätzung bitten, bevor sie das Buch ausleihen bzw. kaufen.
- Seminar- oder Konferenzteilnehmer könnten die gezeigten Folien oder Handouts abfotografieren und ChatGPT um eine Zusammenfassung der Hauptpunkte bitten.
- Beim Besuch von Ausstellungen könnten Museumsgänger Infotafeln oder Beschreibungen fotografieren und ChatGPT nutzen, um eine kurze Erklärung oder einen Kontext zu erhalten, besonders wenn die Informationen dicht oder komplex sind.
Fazit:
Das Hochladen von Bildern in ChatGPT eröffnet eine spannende Dimension der Benutzerinteraktion und bietet oft überraschend genaue Ergebnisse. Die KI ist in der Lage, eine Vielzahl von Bildern zu analysieren und zu interpretieren, von Kunst über Illustrationen bis hin zu abstrakten Darstellungen. Positiv hervorzuheben ist der respektvolle Umgang mit Bildern realer Personen, wobei die Grenzen der Privatsphäre gewahrt bleiben, sowie die Möglichkeit, hilfreiche Alt-Texte zu Bildern zu verfassen. Nachholbedarf gibt es in Bezug auf Stereotype.
Die neuen Fähigkeiten machen ChatGPT zu einem wertvollen Werkzeug, nicht nur im Bereich Text, sondern auch in der visuellen Kommunikation. Von der Bildung bis zur Wirtschaft hat die Fähigkeit, auf Bilder zu reagieren und sie zu interpretieren, das Potenzial, die Art und Weise, wie wir mit Technologie interagieren, zu verändern. Es bleibt spannend zu beobachten, wie sich diese Funktion in der Zukunft weiterentwickeln wird und welche neuen Möglichkeiten sich in der Bildverarbeitung und -generierung mit KI ergeben.
Danke für das ausführliche Testen der Bild-Bearbeitungsfunktion von ChatGPT – und das Teilen Deiner Ergebnisse, Susann! Hochinteressant – und anregend, es selbst zu probieren.