Zum Jahreswechsel hat sich so viel getan, sodaß ich bevor ich überhaupt zum immer noch ausstehenden Thema „consistent characters“ kommen kann, die Änderungen zusammenfasse.
Wer sich mühsam so wie ich eine Excel Liste mit prompt Eigenschaften und Parametern, stylize parametern und Attributen angelegt hat, dem sei gesagt, es ist nichts verloren, die Spalten muss man nur anders ordnen. (Midjourney I, Midjourney II noch vom „alten“ Blog aus Juli 2023)
Die Prompt-Struktur hat sich geändert, Midjourney ist für freie Satzbildungen (in Anlehnung an z.B. ChatGPT, or DallE etc.) empfänglicher geworden:
Style+Subject+Setting+Composition+Lighting+Additional Info
Photo of an astronaut in a white space suit, helmet visior reflecting stars. Standing on a moon with earth visible in the starry sky. Astronaut centered, earth in the background. Bright sunlight with soft moonlight reflections. Moon rocks and small caters nearby.
Die Parameter sind gleich geblieben –ar, –c, –w, –s, –sref (neu), –sw, –style raw, –no, –q, –v, –video, –seed, –tile, –r, –stop.
Das bejubelte neue – noch nicht verfügbare – Videotool Sora hat auch nicht viel mehr: –scene, –character, –angle, –lighting, –gear, –motion, –pan, –roll, –tilt, –zoom, –speed, –3D, –AGI
Auf TikTok’s Boximator Video AI darf ich mich auch schon freuen (dauert aber noch 2-3 Monate bis es freigegeben ist).
Seit Midjourney V6 ist die „slotmachine“ auch gut mit Text geworden, will heissen z.B. ein Schild mit dem Text „Ente“, bringt dir mit Sicherheit ein Schild mit dem Text Ente.
By Midjourney is das Schlüsselwort jetzt F.R.A.M.E. (Focus, Resolution, Ambiance, Mood, and Extras). Als Raster z.B. Eine [Art von Bild] eines [Motivs] mit der [Rahmen-/Kompositionstechnik] mit einer [Hintergrundbeschreibung]. Fügen Sie [Art der Beleuchtung] in [wie sie sich auf die Szene auswirkt] mit [zusätzlichen Details] um das Motiv herum hinzu. Also Genre und Stil, Kamerawinkel und Schusstyp, technische Details, Charakterbeschreibung, Bekleidung, Einstellung, Tageszeit, Licht/Schatten und Wetter, 35mm/16mm/70mm/8mm/IMAX 70mm/Digitalformate wie 4K, 8K Film/zusätzliche Midjourney Parameter. In America gibt es bis zu 240h freie Kurse durch deren Workforce Innovation and Opportunity Act. (Für Österreich: Ein diesbezügliches AMS-Programm wäre mir nicht bekannt.)
Manche sprechen auch von S.S.S.C.L.A-Schlüsse: Style, Subject, Setting, Composition, Lighting, Additional Info.
Gut, auf Youtube kann man sich so gut wie alles beibringen. Hier einige meiner Favoriten zum Thema: https://www.youtube.com/@curiousrefuge, https://www.youtube.com/@delightfuldesign, https://www.youtube.com/@TheoreticallyMedia, https://www.youtube.com/@futurepedia_io (sein English hat allerdings den Speed von Mach 1), https://www.youtube.com/@TokenizedAI, https://www.youtube.com/@AureliusTjin, https://www.youtube.com/@digital_magic, https://www.youtube.com/@cyberjungle).
Für filmische oder fotorealistische Bilder solltet ihr euch F.O.C.A.L merken. F für F.R.A.M.E (siehe oben), O für optimales Lichtverhältnis (mitunter auf farbiges Licht/Schatten, hart/weich, sanft, natürlich, beruhigend, von hinten/von vorne, hoher Kontrast, z.B. use filllighting to soften shadows on the face caused by natural light coming in from the window resulting in a balanced, evenly lit image), C für Kamerawinkel, A für ästhetischer Stil (sense of nostalgia, classic portrait, street photography, surreal fantasy, modern minimalism, sehr im Trend gritty noir etc), L für Linsenfocus und Feldtiefe (Depth of Field) (Lens focus sharpens a specific part of the image, while depth of field (DoF) dictates the extent of sharpness from front to back. Manipulating focus and DoF can isolate subjects, create dreamy backgrounds in portraits, or achieve crisp clarity in street scenes).
Zum neuen Midjourney Parameter
–sref = style referencing.
Die Option „Stilreferenzen“ funktioniert ähnlich wie bei Bildeingabeaufforderungen, bei denen Sie ein Bild als Referenz für Ihre Eingabeaufforderung verwenden. Aber während sich eine Bildeingabe mehr auf das Kopieren der Komposition des Referenzbildes konzentriert, konzentriert sich die Stilreferenz mehr auf die Übertragung der Gesamtästhetik.
Beispiel: Habe ich für das hier erhältliche Bild (https://gabriele2500.com/products/thin-canvas-2?variant=48010089234760) das zur Basis das Tulpen-Fliederbild meine Großvaters hat –sref verwendet. Nein, da waren einige Parameter dabei, und –style raw (also so ähnlich wie möglich die Komposition betreffend und ohne Midjourney Ästhetik oder sonst einen Stil wie van Gogh).
Hier ein einfaches Beispiel mit einem anderen Bild meines Großvaters (ohne vorher den Hintergrund und sein Logo zu entfernen, brutal also – ich kann also den Hintergrund wenig beeinflussen, eigentlich wäre es besser mit transparentem Hintergrund hochzuladen).

Prompt 1:
a photrealistic painting of a Japanese quince twig, background skies blue –sref https://s.mj.run/38h9UJPPuxs –ar 2:3 –v 6.0

Da gibt es genau nichts zu meckern, eindeutig Ästhetik Lichtenstrasser Opa.
Prompt 2:
an editorial image of a living room, blue denim coated table and high-end seats + minimal decoration + metallic chandelier –ar 2:3 –sref https://s.mj.run/38h9UJPPuxs –v 6.0

Urheberrechtlich ist das generierte Bild im Stil vom Lichtenstrasser-Opa.
Prompt 3:
Mehr oder weniger ein gleicher prompt wie unter 2 aber mit pillows of the link provided –sref https://s.mj.run/38h9UJPPuxs

Magischerweise hat Midjourney auch noch meine realen Wohnzimmerfenster mitgezeichnet.
Prompt 4:
Hier habe ich nachstehenden Prompt benutzt und Kombination zwischen sref und Imagelink genutzt (das Referenzbild hiefür war der von mir geprompte Löwe des Titelbilds in der Englishen Version dieses Artikels)
hyperrealistic lion head with 3D gradients Isolated on a white background, 35mm, Kodak film –sref https://s.mj.run/38h9UJPPuxs https://löwe –v 6.0 –s 130 –ar 3:2

Ja, ich sehe es, im Stil vom Opa.
Prompt 5:
Hier habe ich irgendein Bild einer Bar als zweite Referenz genommen.
a painting of a Japanese quince in the bar https://bar –sref https://s.mj.run/38h9UJPPuxs –ar 2:3 –v 6.0

Erstaunlich, erstaunlich, erstaunlich. Bitte gleich an mein Haus anbauen. Wandbild male ich unter Umständen selbst.
Zusätzlich kann man die sref-Referenzen noch mit anderen Parametern beeinflussen:
parameter —sw {value from 0-1000}
Man kann auch mehrere sref urls angeben, zwei Stile meines Großvaters oder mischen.
–sref urlA urlB urlC
Und man kann gewichten ::{weight}. Die zweite Referenz ist also stärker im Gewicht.
--sref https://s.mj.run/87Sjf94hFiI ::1.5 <https:// https://s.mj.run/38h9UJPPuxs>
Was für andere Neuigkeiten gibt es?
Wer bezüglich KI am Ball bleiben will, dem empfehle ich nochmals den Newsletter von AI Fire.
🔥 🔥 🔥 EMO – Academic Research, Institute for Intelligent Computing, Alibaba Group
🤩 Die Generation Z ist die “alte“ Seele Generation (gut dazu würde mir unendlich viel einfallen, aber lassen wird das einmal so im Raum stehen) umarmt Abendessen um 17.00h und zu Bett um 20.00 Uhr, und das Jazz ein Comeback feiert kommt mir sehr gelegen. Mir fällt auch noch dazu ein, dass ich kürzlich gelesen habe, dass „Stoßzeitpreise“ („surge pricing“) in Restaurants plötzlich trendy seien und ein Österreichischer Twitterer der vor ein paar Tagen verzweifelt seine Wurstsemmel mit 2 Schinkenblättern für 12,- Euro gepostet hat (der muss so eine Stoßzeit erwischt haben).
🚀 Ich den Universum Goldrausch Anhängern gerne sagen möchte, dass der Rausch schon seit Nixon andauert und, dass ich auch auf Odysseus stehe und die Schweizer federführend in der Weltraum-Müllentsorgung sind. Des Weiteren hoffe ich wir können uns darauf einigen, typisch österreichisch so schön vom Palfrader auf den Punkt gebracht: Daheim ist wo die wenigsten Arschlöcher sind.
🔮 Materialrevolution (Maschinenintelligenz und Nanotechnologie, Kintsugi (Upcycling)), grenzenlose multidimensionale Daten (Quantencomputing, Blockchains, IoT (wie Smart Homes und Industrie), Edge Computing, Automation, 5G, 6G, generative KI), technologische Schwachstellen werden komplexer, Energiegrenzen (Wasser fressende KI!, Solarenergie, Geothermie), Schutz von Ökosystemen (Biodiversität erhalten und gleichzeitig grundlegende menschliche Bedürfnisse erfüllen, Biohandel), grenzenlose Welt – flüssige Wirtschaften (Zunehmend unvermittelte Transaktionen in Finanzen, Gesundheit, Bildung, Handel, Dienstleistungen und sogar im Weltraum führen zu einer Verschmelzung von juristischen Grenzen, Änderungen der Haftungsverhältnisse und einer steigenden Anzahl grenzüberschreitender Gemeinschaften. Fortschritte in Kommunikation, Informatik und fortschrittlicher KI werden eine grenzenlose Welt beschleunigen, die die Art und Weise, wie wir arbeiten, leben und uns verbinden, verändern wird.), digitale Realitäten, Leben mit autonomen Robotern und Automation, zukünftige Menschheit (Gehirn-Computer-Schnittstellen (BCIs). Neue Definitionen von Selbstwertgefühl, Autonomie und Stabilität werden neue Ideen zu Erziehung, Pflege, Liebe, Zugehörigkeit, Inklusion und Gemeinschaft hervorbringen.), fortschrittliche Gesundheit und Ernährung.
📚 Alles von Tim Marshall (jedenfalls für Menschen mit Politikinteresse): z.B. Prisoners of Geography ), The Future of Geography (Prisoners of Geopgraphy: Jedenfalls aktualisiert er von Zeit zu Zeit genau dasselbe Buch. Am Flughafen Zürich habe ich im Laufe der Jahre mindestens drei Aktualisierungen gesehen (und interessante dazu).
Never split the difference (von Chris Voss und Tahl Raz). Die Schwanengschicht ist der Hammer und Kurse wären sicher auf Deutsch auch empfehlenswert. Allerdings, und das sagt er und sein Team selbst, Frauen können das nicht 1:1 umsetzen und in Deutsch ist das ebenfalls schwer. Fantastische kleine Einblicke in sein Berufsleben und ich liebe ihn für seinen wahrscheinlich innewohnenden Humor und den Satz „and how am I supposed to know … dog“.)
Million Dollar Weekend von Noah Kagan. Habe das Buch noch nicht gelesen dafür aber die Story warum und wie schwer die Entscheidung war sich für das grüne Cover zu entscheiden. Die Buchcover-Entscheidung hat auf jeden Fall länger als ein Wochenende gedauert 😉
👔 Microsofts KI-Prinzipien fördern Innovation und Wettbewerb und „verschlingen“ die einzige Open-Source-Hoffnung Europas (Frankreichs Mistral AI).
🐦Statt zeig den Vogel Sendbird Errichte auf deiner Website und in deinen mobilen Apps eine individuelle GPT, um Interaktionen, Marketing, Verkauf und Support mithilfe von Conversational AI zu automatisieren.
🎰 Markov Chains Monte Carlo: In generativer KI dienen sie als Grundlage für die Erzeugung von Sequenzen von Datenpunkten auf Grundlage der Wahrscheinlichkeiten des Übergangs zwischen Zuständen. Sie haben jedoch Vor- und Nachteile. Gibt es Alternativen?
Wie wir seit meinem Blog Midjourney II (siehe etwas weiter oben) wissen 😉 gibt es generative und diskriminative Modelle. Worin genau liegt jetzt der „Sprachen“ (=Algorithmus) Unterschied und warum spricht niemand darüber?
Andrey Markov (Russe) und Stanisav Ulam (Polnisch-Amerikanischer Mathematiker und Nuklearphysiker, der am Manhatten-Projekt beteiligt war und beim Solitär spielen eine Idee hatte) haben sich nicht gekannt, sind aber Namensgeber von MCMC. Aufgrund der heiklen Angelegenheit (Manhatten Project) brauchte Ulam einen Codenamen und der griechischer Physiker Metropolis (kein Scherz in echt jetzt) kam auf den Namen Monte Carlo (zur Entschuligung das Glücksspiel in Las Vegas war erst kurz davor legalisiert worden). Der MCMC-Algorithmus ist eine deterministische Funktion des einfachen Zufallszahlengenerators (RNG). Und mit jedem Spin brauchen Slot Machines RNG. Im weitesten Sinne könnte man also durchaus und gar nicht abfällig gemeint den Terminus Technicus Slot Machine für AI verwenden.
GIGO: garbage in, garbage out. 2. Regel von MCMC
Fortsetzung folgt








Hinterlasse eine Antwort zu 🍔 Howto order a cheeseburger – 2024 Antwort abbrechen