Es gab wenige Momente in Bezug auf Technik in meinem Leben, die ich nie vergessen werde. Einer dieser Momente war das erste Mal, als ich auf einem C64 Computer Monkey Island gespielt habe. Ein anderer Moment war, als ich das erste Mal ein iPhone bestaunen durfte.
Aber der Moment, als ich das erste Mal mit ChatGPT gechattet habe, war anders. Es fühlte sich an, als hätte ich einen großen Sprung in die Zukunft gemacht. Während mein Smartphone noch Schwierigkeiten hatte, Befehle wie „Fahre mich zu Adresse x“ zu verstehen, konnte ich auf einmal mit einer KI über tiefsinnige philosophische Themen chatten. Ich hatte keine Ahnung, wie rasant sich all die Jahre die künstliche Intelligenz entwickelt hatte.
Endlich konnte ich als Normalsterblicher auch einen Assistenten wie Cooper aus Interstellar haben. Doch im Film behielt der Protagonist in allen wichtigen Entscheidungen stets selbst den „Steuerknüppel“ in der Hand. Wenn es um Berechnungen und Analysen ging, delegierte er diese Aufgaben an seinen KI-Roboter. So stelle ich mir eigentlich die Nutzung der Künstlichen Intelligenz im optimalen Fall für die Menschheit vor. Nach und nach gibt der Mensch viele Aufgaben an die Maschinen und KI-Systeme weiter, behält jedoch stets die Kontrolle. Mit der gewonnenen Zeit und Kapazität könnte man viele weitere nützliche Dinge tun. Aber wird der Mensch die gewonnene Zeit immer sinnvoll nutzen oder noch mehr sinnlose Dinge konsumieren? Ich weiß es nicht und kann es nur hoffen.
Nach meinen ersten Berührungen mit ChatGPT habe ich mir diverse andere KI-Tools angeschaut und versuche hier einen Überblick über die spannende Welt der Künstlichen Intelligenz zu geben. Welchen Stand haben wir aktuell und was kommt noch auf uns zu?
Sprachmodelle wie ChatGPT oder Google Bard:
Was können sie aktuell?
Diese KI-gestützten Sprachmodelle können auf Aufforderung menschenähnliche Texte generieren. Man kann Fragen zu fast allen Themen stellen und erhält, je nachdem wie gut das Modell trainiert wurde, qualitative Antworten. Auch Folgefragen zu den Antworten sind möglich. In der erweiterten Version von ChatGPT kann man mit unzähligen Plugins sogar programmieren oder Datenanalysen erstellen.
Was kommt auf uns zu?
Durch das weitere Trainieren dieser Modelle mit Inhalten werden die Antworten immer besser. Auch durch Verbindung zu aktuellen Echtzeitdaten aus dem Internet werden diese oder ähnliche Modelle in unseren Smartphones Einzug finden. Heute können wir unserem Smartphone-Assistenten einen Termin erstellen lassen. In der Zukunft werden wir unserem Smartphone ein Symptom einer Krankheit nennen und es wird nach einigen Fragen den nächsten Arzttermin durch eine Schnittstelle für uns buchen. Auf Wunsch könnte es gleichzeitig dem Arbeitgeber eine Nachricht schicken. Somit werden die Smartphones ihrem Namen „smart“ endlich gerecht.
KI-Bildgeneratoren wie Midjourney oder Dall-E:
Was können sie aktuell?
Mit nur einfachen Eingaben können wir extrem hochwertige KI-Bilder nach unseren Vorstellungen erstellen lassen. Vor allem bei Midjourney sind die Ergebnisse kaum von echten Bildern zu unterscheiden.
Was kommt auf uns zu?
Mit Bildbearbeitungsprogrammen wie Photoshop oder aber auch Apps auf unseren Smartphones werden sogar für Laien umfangreiche Veränderungen und Anpassungen in Sekundenschnelle möglich sein. Natürlich eröffnen sich für aktuelle Bildbearbeitungsprofis neue spannende Möglichkeiten.
AI Voice Generator wie ElevenLabs:
Was können sie schon heute?
Einfach den Text hineinkopieren, den Sprecher auswählen und schon wird der Text in verschiedenen Sprachen gesprochen. Auch Voice Cloning funktioniert schon recht gut.
Was kommt auf uns zu?
Die Qualität, vor allem beim Klonen von Stimmen, wird weiter zunehmen und viele neue Möglichkeiten eröffnen. Wir werden beispielsweise einen Film in allen erdenklichen Sprachen schauen können. Durch das Klonen z.B. der Stimmfarbe, Modulation und Resonanz wird es sich exakt wie die Originalstimme des Schauspielers, jedoch in einer Fremdsprache, anhören. Es gibt schon erste Versionen, bei denen sich sogar die Lippen synchron zum Gesprochenen bewegen. Es ist für unsere Augen und Ohren nicht erkennbar, dass hier durch KI getrickst wurde.
KI-Videos mit Synthesia, HeyGen und Runway Gen-2:
Was ist schon heute möglich?
Mit den Tools Synthesia und HeyGen ist es aktuell möglich, aus einem Video einen Avatar zu klonen, der exakt wie unsere eigene Kopie aussieht. Wir können dann Texte einfügen, die von unserem Avatar lippensynchron und mit unserer geklonten Stimme gesprochen werden. Es ist dann nicht mehr notwendig, jedes Mal aufwendig ein Video zu drehen, wenn man Inhalte für sein Publikum erstellen möchte. Runway Gen-2 ist ähnlich wie Midjourney, jedoch zum Erstellen von Videos durch KI. Man gibt einen Textprompt ein und erhält als Ergebnis einen KI-generierten Videoclip. Die Ergebnisse sind jetzt schon erstaunlich gut.
Was kommt auf uns zu?
Videogenerierung erfordert sehr viel Rechenleistung. Wenn diese durch Weiterentwicklung immer leistungsstärker wird, werden wir in der Zukunft ganze Filme durch KI erstellen können. In Videoportalen wie YouTube müssen wir uns auf eine Überflutung von KI-generierten Filmen gefasst machen. Aber auch für die etablierte Filmbranche eröffnen sich neue Möglichkeiten. Warum nicht alte Filme durch KI restaurieren und wiederbeleben? Wir können gespannt sein.
Es gibt noch unzählige KI Tools, die ich hier nicht vorstellen konnte und es kommen immer wieder neue dazu. Wir können uns in den kommenden Jahren auf eine spannende Zeit gefasst machen, da die Entwicklung rasant läuft und unaufhaltsam ist.
Ich hoffe, dass wir Menschen von diesen neuen Technologien profitieren und es zum Guten nutzen. Und ganz wichtig: Niemals das Steuer komplett aus der Hand zu lassen!
Levent Kına
Ayasofya Nr. 66