Aus Grimms Märchen ein animiertes Kinder-Video machen — ohne 3D-Studio, ohne Animations-Team.
Charaktere kommen aus einem Bildmodell, Bewegung aus Video-Modellen, Stimmen aus Text-to-Speech,
der Schnitt aus ffmpeg. Diese Seite erklärt, was wir gebaut haben, zeigt die
Figuren und Videos, vergleicht die Modelle und dokumentiert ehrlich die
Herausforderungen auf dem Weg zur ersten fertigen Szene.
Das Projekt
Dasselbe Märchen, zwei Tiefen — und konsequent kindgerecht entschärft.
Ziel ist ein animiertes Video von „Die Bremer Stadtmusikanten" (Brüder Grimm) in zwei Fassungen: eine sehr einfache für 1–3 Jahre (~5–6 Min, kurze Sätze, viel Wiederholung, Lautmalerei) und eine ausgeschmückte für 4–6 Jahre (~10 Min, echte Dialoge, Charakterhumor, Slapstick).
Im Original sollen die Tiere getötet werden — das ist konsequent entschärft: keine Bedrohung, die Tiere sind nur „alt und werden nicht mehr gebraucht" und finden eine neue Aufgabe. Die Räuber sind nicht böse, sondern tollpatschig-feige (Slapstick statt Gruseln).
Aktueller Stand: Proof of Concept bestanden. Die ganze Pipeline ist bewiesen und eine erste komplette, vertonte, textgetreue Szene steht. Als Nächstes: das Drehbuch szenenweise durchproduzieren.
Die Figuren
Alle Figuren entstehen einmal als Standbild im einheitlichen Bilderbuch-Aquarell-Stil — der Esel ist der Stil-Anker, sein Bild gibt allen anderen den Look vor. Alle vier Tiere sind dezent gealtert (graue Schnauze, sanfte Fältchen), passend zum „zu alt"-Thema.
Pro Figur: eine Pose-Bibliothek
Der Schlüssel zur Charakterstabilität (mehr dazu unten): jede Figur bekommt mehrere Ansichten. Identität = Front · Gesicht-Nah · Profil · Rückseite. Aktion = eine passende Pose pro Bewegung (z.B. Laufen, mit der Laute am Riemen statt in den Händen). Genau wie ein Animationsstudio ein Model-Sheet pro Aktion anlegt.











Die Pipeline
Nichts davon braucht eine Web-UI oder einen Menschen, der irgendwo klickt — alles läuft headless als
Node-Skript, das die APIs ruft und mit ffmpeg zusammenbaut.
scripts/generate.mjsBatch-Generator über die nanobanana-CLI (Gemini). Stil-Anker-, Kompositions- und Edit-Modus. Sichert Vorgänger ins Archiv.
scripts/i2v.mjsImage-/Reference-to-Video über Atlas Cloud. Wählt automatisch Schema je Modell (Kling vs. Seedance), Multi-Ref als base64-Array, robustes Polling.
scripts/build-scene.mjsLiest ein Drehbuch (JSON), generiert pro Shot N Varianten, erzeugt die ElevenLabs-Stimmen und schneidet audio-getrieben zusammen. Schreibt ein lesbares DREHBUCH.md.
concat zur Szene.
{
"id": "fenster", "duration": 6, "variants": 2, "pick": 2,
"refs": [
"assets/characters/esel.jpg",
"assets/characters/refs/esel_profile.jpg",
"assets/characters/raeuber.jpg",
"assets/characters/stube.jpg",
"assets/characters/haus.jpg"
],
"prompt": "Night exterior, locked static camera... the old grey donkey
peers inside the lit window... THROUGH THE WINDOW three funny scruffy
robbers sit around a big wooden table laden with food, feasting...",
"narration": [
{ "speaker": "hund", "text": "Was siehst du denn, Grauschimmel?" },
{ "speaker": "esel", "text": "Einen Tisch voll mit herrlichem Essen —
und drei Räuber, die sich's so richtig schmecken lassen!" }
]
}
Modelle im Vergleich
Alle Modelle laufen über dieselbe Atlas-Cloud-API. Die entscheidende Erkenntnis: nicht ein Modell gewinnt, sondern jeder Shot-Typ hat sein Modell.
| Modell | API-ID | Preis/s | Auflösung | Rolle bei uns |
|---|---|---|---|---|
| Seedance 2.0 ref-to-video | bytedance/seedance-2.0/reference-to-video | ~$0.24 | 720p | Standard für Szenen: hält alle Figuren (bis 9 Refs), komponiert frei, on-model |
| Kling 3.0 Pro | kwaivgi/kling-v3.0-pro/image-to-video | $0.095 | 1080p | Standard für Einzel-Shots: animiert ein komponiertes Standbild treu, hochauflösend, günstig |
| Seedance 2.0 (full) i2v | bytedance/seedance-2.0/image-to-video | ~$0.24 | 720p | hält Identität mit Anker, aber Einzelbild → kein echtes Multi-Ref |
| Seedance 2.0 fast | …/seedance-2.0-fast/… | ~$0.022 | 720p | ❌ verworfen — bricht den Stil komplett (3D / falsche Figur) |
| Seedance v1.5 Pro | bytedance/seedance-v1.5-pro/… | $0.047 | — | recherchiert (Stil-Erhalt-Führer), Test scheiterte am content-Schema |
| Hailuo 2.3 · Vidu Q3 · Wan 2.6 | minimax / vidu / alibaba | $0.018–0.28 | — | recherchiert als günstige/stilisierte Alternativen |
Klicken zum Abspielen — die Clips starten automatisch, sobald sie ins Bild kommen.
Herausforderungen & Lösungen
Der ehrliche Teil. Fast jeder Fortschritt kam aus einem sichtbaren Fehler. Jede Karte zeigt Problem → Ursache → Lösung, viele mit dem Video-Beleg davor/danach.
image-to-video + ein realismus-getrimmtes Modell + kein Negative-Prompt. Das Modell muss alle unbekannten Ansichten erfinden → Drift.reference-to-video (Identitäts-Lock aus mehreren Refs) statt image-to-videoBonus: das Array-Schema reference_images:[base64…] beseitigte auch die 400-Fehler — der Einzelpfad image_url kann gar kein Multi-Ref.

502/HTML-Gateway-Seiten statt JSON, sporadische „internal error" mitten im Render.Die fertige Szene
Der eigentliche Meilenstein: nicht „funktioniert die Pipeline?", sondern „wir können Szenen am Fließband produzieren" — stiltreu, charakterstabil, mit deutschen Charakterstimmen, nach Grimm-Vorlage.
| # | Shot | Ton |
|---|---|---|
| 1 | Müde Rast im dunklen Wald | Erzählerin |
| 2 | Entdeckung des fernen Lichts | Hahn + Erzählerin |
| 3 | Anmarsch aus dem Wald | Erzählerin |
| 4 | Fenster: Esel sieht die Räuber | Hund + Esel |
scenes/<name>.json schreiben →
build-scene.mjs ausführen. Pro Shot werden mehrere Varianten generiert; die beste
wählt man per "pick" und schneidet mit --assemble neu. Varianten bleiben
erhalten. So entsteht jede weitere Szene gleich.
Strategische Wege
Parallel lief eine Grundsatz-Frage: Müsste man das nicht „richtig" in einer 3D-Engine bauen? Die ehrliche Abwägung — und die gewählte Richtung.
Technisch ja — aber der Renderer war nie das Problem. Man bräuchte erst die anderen 90 % (Modelle, Rigging, Animation) und würde gegen den eigenen Bilderbuch-Stil ankämpfen, den beide Engines von Haus aus nicht können. Für unseren flachen Aquarell-Look der falsche Weg.
Vollständig offen denkbar: ComfyUI + SDXL/Flux (mit LoRA pro Figur für echte Konsistenz), ControlNet für Choreografie, lokale Video-Modelle (Wan/Hunyuan), Coqui/Piper/Kokoro TTS, rembg, ffmpeg. Haken: lokale Video-Diffusion ist auf dem Mac zäh.
Die Cut-out-/Puppet-Animation: die freigestellten Figuren als Gelenk-Puppen rigging und die Bewegung deterministisch animieren (Blender headless oder HyperFrames). Die Musik-Pyramide als Physik-Sim. Konsistenz perfekt by-design, da dieselbe Kunst in jedem Shot.
KI dort, wo sie Sinn macht — Stand-Bilder (Figuren, Hintergründe), Stimmen, später Musik/SFX und Inspiration. Bewegung kann zunehmend in echte Animation wandern. Heute bewiesen und produktiv ist die KI-Video-Pipeline; sie liefert sofort Ergebnisse, während die Cut-out-Schiene als Ausbau danebensteht.