Der digitale Zwilling

Montag, 14.10.2019

Ein Interview mit Stuart Adcock zu den Effekten bei „Gemini Man“

Diskussion

In Ang Lees Gemini Man (Kinostart: 3.10., zur FILMDIENST-Kritik) wird Will Smith als Auftragskiller im Ruhestand von seinem jüngeren Klon gejagt. Im Werkstattgespräch berichtet Stuart Adcock, Leiter des „Facial Motion Department“ bei der Effekte-Schmiede Weta Digital, wie er und sein Team der Herausforderung begegneten, zusammen mit dem Hauptdarsteller dessen verjüngte Version glaubwürdig digital zum Leben zu erwecken – und das mit 120 Bildern pro Sekunde.


Erst einmal eine sehr grundsätzliche Frage: Bezeichnen Sie das, was Sie tun, eher als Animation oder als einen „Visual Effect“?

Stuart Adcock: Als wir uns in diesen Film stürzten, wussten wir, dass es hier um die größte Herausforderung in Sachen „Visual Effect“ gehen würde, die wir bislang angegangen sind: das Erschaffen eines völlig glaubwürdigen digitalen Menschen. Aber mit der Zeit fühlte es sich immer mehr danach an, dass wir keinen reinen „Visual Effect“ mehr herstellten, sondern als würden wir eine neue Realität erschaffen, eine echte Person. Deshalb mussten wir auf jedem Level jede kleine Nuance verstehen. Ab diesem ersten Prozess ging es nicht mehr um ein reines „De-Aging“, also das Verjüngen eines Schauspielers, und auch nicht mehr darum, einfach mal Fotomaterial zu manipulieren. Wir haben zuerst ein komplettes Digi-Double, eine digitale Kopie von Will Smith hergestellt, das heißt des jetzigen Will Smith, also noch nicht die Version von „Junior“.

Wir haben uns ein ganzes Jahr dafür gegeben und uns dann erst daran gemacht, zu verstehen, wie es um die jüngere Version stand. Wir haben so viel Referenz-Material wie möglich von Will aus der bewussten Zeit herangezogen, wie es nur ging, also aus der Zeit von „Bad Boys“ und „Der Prinz von Bel-Air“, als er gerade mal 23 Jahre alt war. Und wir haben versucht herauszufinden, wie sich das alles in unsere digitale Will-Puppe einbringen lässt. In gewisser Weise kann man das mit einem Musikstück vergleichen: Wenn man sich eine bestimmte Interpretation vorstellt, muss man sich erst klarmachen, welche Noten zu spielen sind. Wir sehen also das Ausgangsmaterial auf dem Notenblatt vor uns. Wenn wir jetzt ein anderes Musikinstrument benutzen, um diese Noten zu spielen, ist es immer noch dasselbe Musikstück, aber es klingt ein bisschen anders.

Unsere Herausforderung bestand darin, mittels „Performance Capture“ mit (dem gegenwärtigen) Will eine Darbietung herauszuarbeiten, und wenn wir damit zufrieden waren, haben wir sozusagen das Instrument gewechselt und begonnen, das Erarbeitete mit dem digitalen jungen Will überzeugend nachzuspielen. Und immer wieder die Fragen: „Funktioniert das? Ist das auch getreu der Vorlage? Schauen wir nochmal auf das Referenzmaterial, damit auch wirklich die Mundwinkel mit seinen etwas volleren Lippen korrekter erscheinen, damit es wirklich der Vorlage entspricht!“

Will Smith im "Performance Capture"-Modus (mit Mary Elizabeth Winstead)
Will Smith im "Performance Capture"-Modus (mit Mary Elizabeth Winstead)

Unsere Beobachtungen beruhten dabei auf einer Menge Referenz-Material, aber auch auf wissenschaftlicher Arbeit. Wir haben eine große Zahl von Forschern hinzugezogen aus den unterschiedlichsten Wissensgebieten, wir haben uns mit Universitäten zusammengetan, um Gesichter besser zu verstehen und die Art und Weise, wie sie über die Zeit altern. Wir hatten nicht gewusst, dass sich die Schädelknochen regenerieren: etwa alle 10 Jahre erneuern sich bei jedem Menschen alle Knochen, das komplette Skelett! Vom jungen Will mit 23 Jahren bis zum heutigen Will mit 50 Jahren hat sich also der Schädel dreimal erneuert. Da kann man sich vorstellen, was das für das Gesicht bedeutet. Kleine Teile der Knochen wachsen mehr als andere, andere bilden sich zurück, wenn der Mensch älter wird, so wie der Kieferknochen, weshalb Menschen ihre Zähne im Alter verlieren. Will ist natürlich in bester Verfassung in seinem Alter, aber durch das Verständnis, wie Gesichter prinzipiell altern, konnten wir sehr viel genauer die Version von „Junior“ angehen. Wir sind dabei bewusst übers Ziel hinausgeschossen und haben auch eine acht Jahre alte Version von Will hergestellt, basierend auf Fotos, damit wir die Veränderungen im Gesicht von Will Smith über die Jahre besser verstehen und nachvollziehen konnten. Damit wurde unsere 23 Jahre alte Version noch besser.

Jeder Mensch versteht sich auf eine amateurhafte Art und Weise darauf, Gesichter zu lesen. Jeder weiß in etwa, was das Gegenüber denkt. Aber wir Amateure können nicht erklären, warum wir das wissen. Sie müssen ein Experte darin sein, zu verstehen, was wir Amateure in einem Gesicht sehen.

Adcock: Wir versuchen tatsächlich bei allem, was wir kreieren, erst mal zu verstehen, was es eigentlich ist, indem wir es uns so detailliert wie möglich anschauen. Erst wenn wir exakt verstehen, warum sich bestimmte Charakteristika zeigen, können wir anfangen, darüber nachzudenken, auf welche Weise wir das digital nachbauen können. Mit Gesichtern ist es genauso. Es stimmt, dass wir alle in Gesichtern lesen, die Emotionen darin erkennen und verstehen können, was dies bedeutet. Wir sehen, warum die Augen so schwierig nachzubilden sind, was in der Vergangenheit immer wieder deutlich wurde. Wir haben nach und nach eine Reihe von Prozessen erkannt, etwa dass die Tränen im Auge aus einem Mix von öligen Fetten und Wasser bestehen und diese Mixtur auf die Temperatur eines Raumes, aber auch auf die Ernährung reagiert, und dass man an den Augen ablesen kann, ob das Gegenüber müde ist oder sich gerade aufregt. Dieser Unterschied wird über die Sättigung der Fettgehalte im Tränenwasser definiert. Wenn man das weiß, kann man das im Film in der jeweiligen Einstellung anwenden und dadurch einen glaubhaften Eindruck vermitteln, der mithilft, die Geschichte zu erzählen.

Will Smith mit Regisseur Ang Lee
Will Smith mit Regisseur Ang Lee

Bei diesem Filmprojekt mussten wir also einen völlig glaubwürdigen digitalen Menschen erschaffen, was an sich schon eine ziemliche Unternehmung ist. Aber bei der vorliegenden Story ging es nicht nur darum, einen authentischen 23 Jahre alten Will Smith zu erschaffen, wir mussten etwas erschaffen, das auch mit unser aller kollektiven Gedächtnis korrespondiert. Alle kennen Will Smith von seinen Fernsehserien und Filmen aus dieser Zeitperiode her. Und wir mussten dieses Gefühl von damals herauskitzeln, das heißt bei all der Technik, dem Referenzmaterial und den wissenschaftlichen Studien mussten wir am Schluss nochmal einen Schritt zurückgehen und uns bei jeder Einstellung hinterfragen: Glauben wir wirklich, dass das der junge Will ist? Werden wir seinen Vorgaben gerecht, seinem Spiel, dem Material vom Drehtag? Das war eine riesige Herausforderung.

Es gibt zweierlei Arten von visuellen Effekten im Film, einmal die unsichtbaren wie bei „Forrest Gump“, die niemandem auffallen sollen, und zum anderen die sehr sichtbaren Effekte wie in „Transformers“, die den Zuschauer direkt anspringen. Bei „Gemini Man“ haben wir einen unsichtbaren „Visual Effect“ als sehr sichtbaren Hauptdarsteller, wobei jeder weiß, dass Will Smith nicht mehr 23 Jahre alt ist. Was mich zur Eingangsfrage zurückführt: Ist das ein „Visual Effect“ oder ist das Animation?

Adcock: Es war auf jeden Fall eine riesige Animationsaufgabe. Jede Einstellung von „Junior“ wurde bei Weta Digital animiert auf der Grundlage eines Performance Capturing. Das Performance Capturing von Will Smith erlaubte uns festzulegen, was die musikalischen Noten waren, die es zu spielen galt. Aber die landeten letztendlich dann bei einem Animator. Jede Einstellung wurde von einem Animator erarbeitet, der akribisch den subtilsten Details nachspürte, die wir nicht über das Performance Capturing erhalten konnten. Da gibt es bestimmte Grade von Details im Bereich der Zunge, beim Nacken, bei der subtilen Klebrigkeit und Weichheit der Lippen, und vor allem bei den Augen. Da gibt es bestimmte subtile Charakteristika der Epikanthus-Falten, sehr feine Veränderungen bei den Augenlidern im Zusammenspiel mit den übrigen Augenfalten – all das sind die kleinen Bausteine, die wir brauchten, die wir aber nicht in diese Detailgenauigkeit von den Performance-Capture-Daten erhalten konnten. Dadurch, dass wir sie mit Hilfe der Animation erjagen mussten, wurde es definitiv ein Animationsprojekt.

Warum gibt es derzeit diese Tendenz zur fotorealistischen Animation?

Adcock: Wir leben in einer aufregenden Zeit, in der wir in der Lage sind, fiktionale Geschichten in einer glaubwürdigen realistischen Weise erzählen zu können. Deshalb ist Fotorealismus in bestimmter Hinsicht gerade die angesagte Mode der Dekade. Dazu kommt, dass wir nun eine neue, bislang unbekannte Gasse haben, in der Schauspieler nun Rollen spielen können, die sie bislang nicht in Betracht gezogen haben. Es liegt eine gewisse Magie darin, jetzt Figuren zum Leben erwecken zu können wie Gollum oder einen magischen Drachen oder irgendein anderes mythologisches Wesen. Außerdem können Schauspieler andere Perioden ihres Lebens spielen, also entweder jünger oder älter sein, als sie in Wirklichkeit sind. Das ist ziemlich spannend, finde ich! Will Smith empfand es jedenfalls als ungeheuer aufregend.

Will Smith als "Junior"
Will Smith als "Junior"

Wer jetzt glaubt, dass wir damit irgendwann keine Schauspieler mehr brauchen werden, dem sage ich, er soll sich Wills Leistung und Einsatz in diesem Film anschauen. Wieviel Arbeit und Mühe darin stecken, diese beiden Rollen zu spielen. Zuerst musste er „Henry“ spielen, danach haben wir die Rollen getauscht und er spielte „Junior“ mit einer Kopfkamera und mit „Emotion Capture“. Die Mühe und der Aufwand, den er in die Rollen eingebracht hat, sind unglaublich, das ist alles er (Youtube-Video zur Arbeit an „Junior“). Deshalb zu behaupten, es würde in Zukunft keiner Schauspieler mehr bedürfen, wäre völlig falsch. Im Gegenteil.

Ich habe keine Angst davor, dass Schauspieler verschwinden werden, aber ich glaube auch, dass durch Animation und visuelle Effekte immer mehr neue Möglichkeiten geschaffen werden, Geschichten und Figuren zu erzählen.

Adcock: Schauspieler sind in der Lage, ein Drehbuch völlig zu absorbieren. Sie legen ihre Rolle an, wie sie den Charakter porträtieren wollen. Und ein Top-Schauspieler kann überzeugend eine komplizierte Charakterentwicklung darstellen – für uns bei Weta liegt darin der wesentliche Unterschied. Dadurch können wir bei einer Figur wirklich jede Nuance dieser Darstellung festhalten und nicht mehr wie bei einer herkömmlichen „Einstellung für Einstellung“-Produktion handeln. Was heißt das? In einem herkömmlichen Animationsfilm muss die Arbeit an einer Figur schon aus logistischen Gründen auf verschiedene Animatoren verteilt werden. Die Figur geht also durch verschiedene Hände und jeder Animator erzielt mit seinem Anteil unterschiedliche Resultate. Ohne einen Schauspieler, der seine Rolle durch das Performance-Capture-Verfahren komplett vorgibt, kann das Ergebnis manchmal ziemlich chaotisch, ziemlich unzusammenhängend ausfallen.

Sie beschreiben sich selbst als kreativen Problemlöser, der enge Vorgaben als Gelegenheit für Kreativität ansieht. Hier hatten Sie es aber nun anstelle von 24 Bildern pro Sekunde mit 120 Bildern pro Sekunde zu tun. Wie geht man damit um?

Adcock: Das war wohl die größte Herausforderung bei diesem Projekt. Es handelt sich um die fünffache Anzahl von Einzelbildern. Die fünffache Arbeit bei einer Einstellung für einen Animator. Für die war es, als würden die Einstellungen plötzlich zu Ultra-Zeitlupen. Sie konnten sich mit Details auseinandersetzen, die wir nie zuvor gesehen hatten. Dinge, die sonst im sogenannten „Motion Blur“ untergegangen wären.

Will Smith als "Henry" in einer Action-Szene
Will Smith als "Henry" in einer Action-Szene

Segen oder Fluch?

Adcock: (lacht laut) Wir haben jedenfalls eine Menge gelernt über das menschliche Gesicht, als wir es in dieser Auflösung studieren konnten. Aber natürlich lastete dadurch auch ein Riesendruck auf unserem Animationsteam, am Ende aber haben wir uns alle dran gewöhnt. Und wir entwickelten neue Techniken, über die ich gleich sprechen werde. Aber erst mal haben Sie natürlich genau den wichtigsten Punkt angesprochen. Jedes einzelne Filmbild musste im Endeffekt etwa vier Stunden lang gerendert, also ausgerechnet werden. Das ist bei 120 Bildern pro Sekunde natürlich eine beängstigende Menge. Und es bedeutete für uns, dass wir mit einem Mal auf einem ganz anderen Level arbeiteten als bisher, gerade was zum Beispiel die feinen Nuancen bei der Haut angeht. Um so etwas im Computer nachzubauen, benutzt man sogenannte „Blend Shapes“, um ein Gesicht, einem Puppentrick vergleichbar, zum Leben zu erwecken. Das Gute an „Blend Shapes“ ist, dass sie mir totale Kontrolle über eine bestimmte Fläche erlauben, das Frustrierende, dass sie von ihrer Art her sehr linear sind. Wenn ich im Computer anfange, die einzelnen Gesichtspartien mit „Blend Shapes“ zusammenzubauen, etwa die Mundwinkel, die Wangen und die Lippen, setze ich das alles geradlinig zusammen. Aber Haut ist so ziemlich alles, aber eben nicht geradlinig. Haut hat eine gewisse Trägheit, Haut hat ein gewisses Maß an Gedächtnis. Wenn ich meine Augenbrauen hochziehe und sie für einen Moment so halte, um sie dann fallen zu lassen, bleiben sie für ein paar Millisekunden erst einmal noch hochgezogen, als erinnere sich die Haut für einen Moment an diese Hautfaltung. Ein fotorealistisches Gesicht lässt sich deshalb nicht richtig überzeugend aus übereinander geschachtelten „Blend Shapes“ zusammenbauen.

Wenn man einen simplen Wimpernschlag genauer untersucht, besonders wenn man 120 Bilder pro Sekunde zur Verfügung hat, dann erkennt man, dass dies eine Art gebogene Bewegung darstellt, wenn man die Bewegung eines bestimmten Punktes an einem Augenlid genau verfolgt. Wenn sich das Augenlid lockert und dann wieder anzieht, um das Lid wieder nach oben zu ziehen, arbeiten zwei Muskel überlappend und in Einklang miteinander. Daraus entsteht eine sehr flüssige Bewegung. Wenn man das in die bisher vorgegebenen sehr linearen „Blend Shapes“ einprogrammiert, stoßen diese rasch an die Grenzen ihres Könnens, denn das Augenzwinkern läuft eben nicht linear ab. Das sind so Charakteristika, denen wir auf die Spur kommen mussten, und daraufhin haben wir bei Weta eine neue Technologie entwickelt, „Deep Shapes“.

„Deep Shapes“ gab uns die Kontrolle über die Energie eines „Shapes“, einer Form hinsichtlich des komplexen Zusammenspiels der verschiedenen Hautfalten und -schichten. Damit bekamen wir eine ungeheure Kontrolle. Das alles auszuspielen, wäre aber unglaublich zeitaufwändig gewesen, hätte man es von Hand animieren müssen. Also haben wir es automatisiert, und das erlaubte den Animatoren eine schnelle Arbeitsweise, die einen überzeugenden Ablauf von nichtlinearen Veränderungen von Form A zu Form B zeitigten. Das sind eigentlich Dinge, die Animatoren unglaublich fürchten. Wenn man zum Beispiel auf eine Wange schaut, wenn jemand redet, nimmt man alle möglichen kleinen Details, leichte Zuckungen und Momente wahr. Wie soll ich das im Computer darstellen? Unsere neue „Deep Shapes“-Technologie macht dies jetzt mit 120 Bildern pro Sekunde möglich und hat uns geholfen, eine „High Fidelity“-Animation damit zu schaffen.


Es muss schwierig sein, wenn das Publikum kaum versteht, wie viel mühseliger Aufwand und Kreativität hinter dieser ganzen Arbeit steckt. Wie aber kommuniziert man diese arbeitsintensiven und technologischen Aspekte mit dem Regisseur des Films?

Adcock: Praktisch gesehen ist es natürlich am besten, mit einem Regisseur vorab über die Animation zu kommunizieren und nicht erst alles völlig auszuarbeiten, um es erst dann vom Regisseur abnehmen zu lassen. Das würde uns rein zeitlich in Schwierigkeiten bringen. Deshalb haben wir Ang Lee zum größten Teil vorläufige Versionen des finalen Produkts vorgelegt, die wir dann miteinander diskutiert haben. Unser finaler Bildrechner bei Weta heißt Manuka und als vorläufigen Bildrechner nutzen wir den Gazebo-Renderer. Wir haben für Ang Lee Gazebo-Renderings der Gesichts-Darstellungen erarbeitet und ihm sorgfältig erklärt, worin der Unterschied zwischen beiden liegt. Er wusste also, dass Gazebo nicht der finalen Auflösung entsprach.

Natürlich gab es die entsprechenden Fragen. „Das fühlt sich in der Form nicht fotorealistisch an. Was schaue ich mir da jetzt an? Und wie kann ich eine finale Zustimmung geben für eine Animation, wenn ich so nicht richtig erfühlen kann, ob es wirklich glaubwürdig ist oder nicht?“ Wir haben das also ausführlich erklärt und anfangs auch eine Reihe von Einstellungen in voller Auflösung ausgearbeitet, damit er die Bandbreite besser verstand. Wir haben ihm unseren Arbeitsprozess sehr transparent gemacht und schufen so eine vertrauensvolle Zusammenarbeit. Natürlich mussten einige finale Einstellungen trotzdem wieder zurück zum Animator, weil bestimmte kleine Unstimmigkeiten erst in der hohen Auflösung zum Vorschein kamen. Aber im Großen und Ganzen haben wir mit dem Gazebo-Material gut arbeiten können.

Wir trafen uns mit Ang Lee drei Mal die Woche und haben ihm die Einstellungen und Verbesserungen gezeigt, er war also die ganze Zeit über sehr eng miteinbezogen. Er ist berühmt dafür, das Beste aus den Schauspielern herauszuholen, und ich glaube, das kann man auch für den Bereich Visual Effects sagen. Es hat viel Spaß gemacht, mit ihm zusammenzuarbeiten. Für ihn ging es im Gespräch immer um das Evozieren eines Gefühls. Ich erinnere mich besonders an ein Zitat von ihm über Wills Figur „Junior“: „Ich möchte, dass Ihr versteht: Er ist zwar ein rücksichtsloser Attentäter, aber gleichzeitig möchte ich, dass man sich auch mit ihm hinsetzen möchte, um mit ihm eine Schale leckerer heißer Hühnersuppe zu essen.“ Wir fragten uns natürlich, was es mit dieser Metapher genau auf sich habe: „Hühnersuppe? Was soll das heißen?“ Wir haben ein bisschen darauf herumgekaut und es wurde zu einem Insider-Scherz, dass wir das Rezept zu dieser Hühnersuppe für jede Einstellung zu finden hatten. Am Ende waren es schließlich immer die Augen. Sehr kleine Feinheiten darin. Wie etwa die Augenfalte verläuft. Will hat unglaublich sanfte Augen. Daraus entspringt der Eindruck einer sanften Natur. Also selbst wenn er einen rücksichtslosen Attentäter spielt, kommt dadurch der Hühnersuppen-Effekt zum Tragen!


Fotos: Paramount © Ben Rothstein

Kommentar verfassen

Kommentieren