AIΩN è uno spazio aperto. Si accettano contributi!

domenica 10 novembre 2024

Parthenope di Paolo Sorrentino, la palette cromatica nella fotografia del film scelta da Daria D'Antonio e il «giudizio» dell’Intelligenza Artificiale attraverso GPT-4o

L’uscita dell’ultimo film di Paolo Sorrentino «Parthenope» (2024) ha generato un certo clamore sia per chi apprezza le doti artistiche di questo regista sia per coloro che lo criticano aspramente per le sue scelte «barocche». Sebbene qui non si intenda scrivere una recensione, dobbiamo dire che Sorrentino nei suoi film usa i colori come una forma di linguaggio. Appare che la «fotografia» in «Parthenope» sia molto riuscita grazie soprattutto al lavoro eccellente di Daria D'Antonio, una direttrice della fotografia che ha collaborato con registi eccellenti. Si rammentare che direttore della fotografia è il professionista responsabile dell'aspetto visivo di un film. Egli collabora strettamente con il regista per tradurre la visione artistica in immagini, curando l'illuminazione, la composizione delle inquadrature, la scelta delle lenti e delle attrezzature, nonché la gestione dei colori e delle tonalità. Il suo ruolo è fondamentale per creare l'atmosfera desiderata e supportare la narrazione visiva del film.

«Parthenope» è stato molto pubblicizzato sui social e una delle modalità utilizzate è stata quella di mostrare la mood board cromatica, una palette cromatica che esprime la gamma di colori utilizzata per evocare specifiche emozioni e atmosfere nel pubblico, aiutando a mantenere coerenza stilistica e narrativa nel film.

Ora faremo un esperimento con le capacità visive di GPT-4°, un potente Large Language Model prodotto ed addestrato da Open AI, le cui performance continuano a destare sorpresa ed a mantenere alto l’interesse verso l’Intelligenza Artificiale. Nel seguito vedremo come il modello risponde alla visione delle immagini con la palette cromatica e poi, per chi vuole, riportiamo un approfondimento di carattere maggiormente tecnico sulla visione artificiale di GPT-4°. Non faremo commenti, ci rimettiamo al giudizio del lettore.

 

L’esperimento

Ora proviamo un semplice esperimento per testare le capacità visive di GPT-4o.

Diamo in pasto al modello di linguaggio multimodale una foto promozionale del film di Sorrentino senza chiedere null’altro e visualizziamo la risposta.

 

Credit: https://www.instagram.com/piperfilm.official/

L'immagine sembra essere una promozione del film Parthenope, ambientato in un contesto suggestivo, probabilmente al tramonto, con toni cromatici caldi e freddi che si mescolano per evocare un'atmosfera romantica e contemplativa. La palette di colori include varie sfumature di blu, beige e grigio, che rimandano sia alla serenità del mare che al crepuscolo. Il contrasto tra le ombre dei personaggi e lo sfondo luminoso del cielo crea un effetto visivo delicato e poetico.

Questi colori trasmettono un senso di intimità e nostalgia, che potrebbe essere indicativo dei temi esplorati nel film. Inoltre, la scelta del titolo "Parthenope" fa riferimento al nome mitologico e storico di Napoli, suggerendo un legame con la cultura e l'identità della città, spesso esplorata nel cinema attraverso storie di amore, crescita e riflessione.

Ora chiediamo a GPT-4° «A chi potrebbe essersi ispirato nella fotografia?». Ecco cosa otteniamo come risposta:

La fotografia di questa immagine, con la sua palette cromatica morbida e l’uso attento della luce naturale, potrebbe essere stata ispirata da alcuni maestri della cinematografia e della fotografia contemporanea, noti per l'uso evocativo di luce e colore.

Ecco alcune possibili ispirazioni:

  1. Vittorio Storaro - Storaro è celebre per il suo uso simbolico della luce e del colore. In film come L’ultimo imperatore o Apocalypse Now, Storaro utilizza i colori per evocare stati emotivi e concetti filosofici. La scelta dei toni blu e aranciati potrebbe ricordare il suo lavoro, in cui i colori hanno spesso significati profondi e simbolici.
  2. Luca Bigazzi - Collaboratore di registi italiani come Paolo Sorrentino (La grande bellezza), Bigazzi è noto per l’uso di una luce naturale e spesso morbida che valorizza l’ambiente, soprattutto nelle ambientazioni italiane. Il modo in cui la luce scivola sulla pelle dei personaggi e si fonde con l’ambiente nel film potrebbe richiamare il suo stile.
  3. Christopher Doyle - Celebre per le sue collaborazioni con Wong Kar-wai in film come In the Mood for Love, Doyle usa spesso una tavolozza cromatica desaturata e colori tenui, creando atmosfere intime e malinconiche. I colori blu e beige, combinati con il crepuscolo, evocano quel senso di sospensione emotiva caratteristico del suo lavoro.
  4. Roger Deakins - Conosciuto per il suo approccio alla luce naturale e all'uso controllato della palette cromatica, Deakins (in film come Skyfall o 1917) sfrutta spesso la luce crepuscolare per creare atmosfere sospese e quasi eteree. Il contrasto tra ombra e luce e i toni freddi-caldi della scena potrebbero essere ispirati da questo stile.
  5. Néstor Almendros - Direttore della fotografia di film come I giorni del cielo di Terrence Malick, Almendros è noto per il suo uso della luce naturale e dei colori pastello. La delicatezza della luce al tramonto e i toni tenui potrebbero richiamare il suo approccio, che valorizza la bellezza naturale e il momento.
  6. Gregory Crewdson (fotografia) - Sebbene sia un fotografo e non un direttore della fotografia, Crewdson è noto per le sue immagini evocative e sospese nel tempo. La sua attenzione al dettaglio, alla composizione e all’atmosfera potrebbe aver ispirato la fotografia di questo film.

Il risultato è una fotografia che riesce a raccontare attraverso la luce e il colore, contribuendo a creare un’atmosfera di intimità, mistero e profondità emotiva, in cui lo spettatore è invitato a immergersi.

Ora proviamo a dargli in pasto una seconda immagine chiedendogli semplicemente: «E qui?»

Credit: https://www.instagram.com/piperfilm.official/

Questa scena di Parthenope, con una palette di colori più calda e terrosa rispetto all'immagine precedente, potrebbe essere stata ispirata da artisti visivi e cineasti noti per la loro attenzione all’interiorità e all’ambientazione come elemento narrativo. Ecco alcune possibili ispirazioni per la fotografia di questa scena:

  1. Éric Rohmer - Nei suoi film, Rohmer enfatizza l’uso di interni e colori sobri per raccontare storie intime e complesse. La scelta di una stanza dall’atmosfera mediterranea, con toni di verde, rosso e beige, ricorda i suoi interni caldi, dove i personaggi interagiscono in spazi familiari e privati.
  2. Wes Anderson - Pur avendo uno stile molto distintivo e spesso simmetrico, Anderson utilizza frequentemente interni dettagliati e palette specifiche per creare un mondo visivo ben definito. I toni caldi e desaturati, combinati con il verde e il rosso, sono una scelta cromatica che Anderson utilizza spesso per conferire ai suoi set un’atmosfera vintage e nostalgica.
  3. Interiors mediterranei in Luchino Visconti - Visconti è noto per la sua meticolosa cura dei dettagli e degli ambienti, specialmente quando si tratta di rappresentare interni che riflettono una specifica cultura o stato d’animo. La scena ricorda un tipico ambiente mediterraneo, con dettagli come le maioliche colorate e la luce morbida, elementi che Visconti avrebbe usato per arricchire il contesto emotivo.
  4. Luca Guadagnino - Con film come Chiamami col tuo nome, Guadagnino ha dimostrato una grande attenzione per gli ambienti interni italiani e mediterranei, con una preferenza per toni caldi e naturali che riflettono la bellezza della vita quotidiana e la complessità delle relazioni. L’uso dei colori, insieme a elementi come il legno e i tessuti, è molto simile al suo stile.
  5. Ferdinando Scianna (fotografia) - Con i suoi scatti che raccontano la Sicilia e l'Italia del sud, Scianna cattura spesso la combinazione tra architettura, colore e ambiente mediterraneo. I suoi lavori fotografici evocano una forte connessione con la tradizione e l'identità culturale, simile a quanto viene rappresentato qui con la finestra ad arco e le maioliche.
  6. Douglas Sirk - Anche se Sirk è noto per i suoi melodrammi degli anni ’50, il suo uso dei colori per rappresentare la tensione e le emozioni nascoste nei personaggi potrebbe aver ispirato questa scena. I contrasti tra i toni caldi degli abiti e il verde dello sfondo richiamano un senso di dinamica emotiva sottile, caratteristico del suo stile.

In sintesi, questa scena utilizza elementi di design degli interni, con colori caldi, toni desaturati e dettagli che ricordano uno stile mediterraneo classico, per creare un’atmosfera intima e ricca di nostalgia.

 

Per approfondire: GPT-4 e il «vedere» attraverso le sue capacità multimodali

Il sistema di visione di GPT-4, noto come GPT-4 Vision e presente nel modello più avanzato GPT-4o (2023), rappresenta una delle implementazioni più innovative delle capacità multimodali bel contesto dell’intelligenza artificiale. A differenza delle versioni precedenti, in cui i modelli linguistici elaboravano solo input testuali, GPT-4 Vision è in grado di comprendere e interpretare immagini, combinando la capacità di analisi visiva con quella testuale. Questo permette di rispondere a una vasta gamma di richieste che coinvolgono sia il linguaggio che elementi visivi, come descrivere il contenuto di un’immagine, riconoscere oggetti, analizzare contesti visivi complessi o rispondere a domande basate su immagini.

Il funzionamento del sistema multimodale di GPT-4 Vision si basa su un'architettura di rete neurale che integra modelli di visione artificiale e modelli di linguaggio naturale. Alla base c'è un backbone visivo, spesso una rete neurale convoluzionale (CNN) o un «Transformer» specializzato per l'elaborazione delle immagini, che traduce le informazioni visive in una rappresentazione numerica ad alta dimensione. Questa rappresentazione, o embedding visivo, cattura le caratteristiche chiave dell'immagine come forme, colori, texture e relazioni spaziali tra gli oggetti. Una volta generato l'embedding visivo, il sistema lo combina con il modello linguistico principale, rendendo possibile l’elaborazione congiunta di testo e immagine.

La capacità di GPT-4 Vision di rispondere a domande o generare descrizioni testuali a partire da immagini dipende dall'integrazione armoniosa tra i dati visivi e testuali. In pratica, una volta che l’immagine è stata elaborata dal sistema visivo, l’embedding generato entra nel modello di linguaggio come un contesto aggiuntivo. Questa rappresentazione visiva influenza la generazione del testo, fornendo al modello un "senso" del contenuto visivo che arricchisce la comprensione del contesto e orienta la risposta in modo più accurato. Ad esempio, se viene mostrata una fotografia di una scena di strada affollata, GPT-4 Vision può descrivere gli oggetti principali nella scena, come automobili, persone e edifici, e rispondere a domande specifiche sulla disposizione degli elementi o sul tipo di attività rappresentata, come "Quante persone stanno attraversando la strada?".

Il sistema di addestramento di GPT-4 Vision ha richiesto una notevole quantità di dati multimodali, ossia coppie di immagini e testo che permettano di apprendere le relazioni tra il linguaggio visivo e il linguaggio naturale. Questo tipo di addestramento si basa su enormi dataset di immagini annotate, in cui ogni immagine è accompagnata da descrizioni, domande o affermazioni che permettono al modello di sviluppare una comprensione semantica del contenuto visivo. In aggiunta, il modello utilizza tecniche di self-supervised learning, dove apprende in modo autonomo dalle immagini senza la necessità di annotazioni specifiche, tramite l’identificazione di schemi e correlazioni interne.

Uno dei punti di forza di GPT-4 Vision è la sua capacità di lavorare in modo coerente con input complessi e ambigui, grazie alla natura generativa del modello linguistico. Anziché limitarsi a riconoscere singoli oggetti in un'immagine, è in grado di generare descrizioni narrative che contestualizzano il contenuto visivo e lo collegano a un discorso più ampio. Questo rende il sistema particolarmente efficace in applicazioni che richiedono non solo il riconoscimento visivo ma anche un certo livello di ragionamento, come l’analisi di diagrammi, la comprensione di scene complesse e l’interpretazione di grafici.

 

 

 

Nessun commento:

Posta un commento

Scelti

I Large Reasoning Models (LRM) o Reasoning Language Models (RLM) sono più che motori statistici?

source Negli ultimi anni, il dibattito sulle capacità dei grandi modelli linguistici si è spesso concentrato su un’affermazione apparentemen...