LLM (ChatGPT, Gemini, Mistral…..) sono arrivati alla massima espansione? cosa ci sarà dopo? Diamo uno sguardo ai nuovi modelli LCM!!

 

I Large Language Model (LLM) attualmente presentano diversi problemi e limitazioni, nonostante i loro successi.
Questi problemi possono essere raggruppati in alcune aree principali, come evidenziato nelle fonti:

  • Necessità di grandi quantità di dati: Gli LLM richiedono enormi quantità di dati per l’addestramento, e la disponibilità di tali dati sta diventando un problema. Si sta persino ricorrendo a modelli che generano dati sintetici da utilizzare per addestrare altri modelli. Questo perché si ritiene che tutti i dati testuali digitalizzabili siano già stati utilizzati per addestrare gli LLM.
  • Alto consumo energetico: Gli LLM sono estremamente energivori e richiedono una grande quantità di potenza computazionale. Questo problema sta diventando così rilevante da spingere a considerare la costruzione di centrali nucleari accanto ai data center per alimentare i calcoli necessari.
  • Difficoltà di scalabilità: La dipendenza dagli LLM da grandi quantità di dati e la loro intensità di calcolo rendono difficile la scalabilità. Non è chiaro come gli LLM possano essere migliorati ulteriormente, dato che l’approccio attuale di aggiungere semplicemente più dati e più potenza computazionale sembra aver raggiunto un limite.
  • Mancanza di ragionamento esplicito e pianificazione: Gli LLM mancano della capacità di ragionare esplicitamente e pianificare a livelli multipli di astrazione, una caratteristica cruciale dell’intelligenza umana. Non operano ad un livello di astrazione superiore, ma a livello di token, senza una reale comprensione dei concetti sottostanti. Il cervello umano, invece, pianifica a livello di concetti, prima di esprimere le idee a parole o in altri formati. Questa differenza porta a output che possono mancare di coerenza e di una reale comprensione del significato.
  • Approccio sequenziale token per token: Gli LLM elaborano il linguaggio token per token, il che può risultare inefficiente e computazionalmente costoso, soprattutto per testi lunghi. Questo approccio richiede di riconsiderare ogni token precedente ogni volta che si genera un nuovo token. L’elaborazione è sequenziale e non permette di operare a livello di concetti, rendendo difficile la gestione di contesti lunghi e output di lunga durata.
  • Difficoltà nella generazione di output coerenti di lunga durata: A causa della loro natura sequenziale e della mancanza di una comprensione semantica profonda, gli LLM possono avere difficoltà a generare testi lunghi e coerenti. Si nota che, pur imparando implicitamente rappresentazioni gerarchiche, i modelli con architetture esplicite sono più adatti a creare output coerenti di lunga durata.
  • Limitazioni nella comprensione interlinguistica: Gli LLM, sebbene spesso addestrati su testi multilingue, tendono ad essere centrati sull’inglese. Ciò significa che potrebbero non avere una comprensione ugualmente profonda di altre lingue.
  • Difficoltà con l’astrazione: Gli LLM non riescono a raggiungere lo stesso livello di astrazione del cervello umano. Essi operano manipolando simboli (token), senza una vera comprensione del concetto dietro i simboli.
  • Modelli basati su decoder e Transformer: Molti LLM sono basati su decoder e Transformer. Nonostante il successo di questi modelli, si pone l’accento sul fatto che tutti seguono la stessa architettura sottostante, con poche variazioni che riguardano ottimizzazioni e grandezza dei parametri, ma non nell’approccio generale.

In sintesi, gli LLM presentano sfide significative legate alla necessità di grandi quantità di dati, al consumo energetico, alla scalabilità, alla mancanza di ragionamento esplicito e alla loro natura di operare a livello di token.

Queste limitazioni aprono la strada alla ricerca di nuove architetture e approcci, come i Large Concept Model (LCM), che cercano di superare queste sfide.

 

Un Large Concept Model (LCM) è un nuovo tipo di architettura per modelli di linguaggio che si differenzia dai Large Language Model (LLM) tradizionali.
 Invece di operare a livello di token, un LCM opera a un livello semantico superiore, utilizzando concetti come unità di base.
Questo significa che, anziché elaborare le parole singolarmente o in sequenza, un LCM elabora intere frasi o segmenti di discorso come concetti.
Ecco alcuni punti chiave che definiscono un LCM, secondo le fonti:
● Ragionamento a livello concettuale: Un LCM non si concentra sulla manipolazione di token, ma sull’elaborazione del significato sottostante, operando a un livello di astrazione più elevato. Un concetto è rappresentato da una frase codificata come un embedding.
Indipendenza dalla lingua e dalla modalità: L’elaborazione dei concetti avviene in modo indipendente dalla lingua o dalla modalità di input. Questo permette a un LCM di essere addestrato su tutte le lingue e modalità contemporaneamente. Il ragionamento avviene su concetti che sono astratti e indipendenti dalla modalità con cui vengono espressi.
Struttura gerarchica esplicita: Gli LCM sono progettati per una migliore leggibilità di output di lunga durata e facilitano le modifiche interattive da parte dell’utente.
Gestione di contesti lunghi: Gli LCM sono più efficienti nella gestione di contesti lunghi e output di lunga durata rispetto ai LLM. Gli LCM operano su sequenze di concetti che sono più corte rispetto alle sequenze di token utilizzate dai LLM.
Utilizzo di SONAR: Molti LCM si basano su uno spazio di embedding di frasi chiamato SONAR per codificare e decodificare i concetti. SONAR è un modello di embedding di frasi che supporta input e output in 200 lingue, input vocale in 76 lingue e output vocale in inglese.
Architetture basate sulla diffusione: Alcuni LCM utilizzano architetture basate sulla diffusione, come One-Tower e Two-Tower LCM, per generare i concetti.
Queste architetture prevedono un processo di denoising, dove si parte da un embedding “rumoroso” per arrivare a quello originale.
Quantizzazione dei concetti: Esistono anche LCM che utilizzano la quantizzazione dei concetti per operare su unità discrete, simile a token ma più astratte.
In sintesi, un LCM è un modello che opera su concetti astratti e non su token, permettendo una maggiore astrazione, generalizzazione e capacità di gestire contesti lunghi, ed è potenzialmente meno energivoro e più efficiente computazionalmente rispetto a un LLM.

Meta ha prodotto  il primo paper e codice open su github (GitHub – facebookresearch/large_concept_model: Large Concept Models: Language modeling in a sentence representation space) in cui si vede  che a parità del numero di parametri di addestramento si hanno risultati migliori con minor dispendio di calcolo (e quindi di energia), nativamente multilanguage e multimodale
Ecco una spiegazione sintetica delle differenze tra LLM (Large Language Models), LCM (Large Contextual Models) e CAN (Creative Adversarial Networks):


1. Large Language Models (LLM)

  • Definizione: Modelli di intelligenza artificiale addestrati su enormi quantità di dati testuali per comprendere, generare e manipolare il linguaggio naturale.
  • Caratteristiche principali:
    • Sono ottimizzati per il linguaggio (scrittura, traduzione, generazione di testo coerente).
    • Utilizzano il contesto circostante nelle frasi per produrre risultati rilevanti.
    • Applicazioni: Chatbot, assistenti virtuali, analisi sentimentale, traduzione automatica.
  • Esempi: GPT (di OpenAI), BERT, T5.
  • Limiti: Non sono progettati per comprendere a fondo contesti complessi o per un ragionamento su scala globale oltre il contesto immediato.

2. Large Contextual Models (LCM)

  • Definizione: Modelli che mettono enfasi su un ragionamento più contestuale e globale, prendendo in considerazione molteplici fattori esterni rispetto al semplice linguaggio.
  • Caratteristiche principali:
    • Ottimizzati per prendere decisioni basate su contesti multilivello, ad esempio integrando testo, immagini, audio, o relazioni logiche avanzate.
    • Ideali per compiti che richiedono una comprensione “del mondo reale”.
    • Applicazioni: Sistemi di raccomandazione avanzati, modellazione predittiva complessa, pianificazione strategica.
  • Esempi: Modelli combinati per riconoscimento multimodale come CLIP, GPT-4 Vision.

3. Creative Adversarial Networks (CAN)

  • Definizione: Variante delle reti neurali generative avversarie (GAN – Generative Adversarial Networks) progettate per creare arte o design “creativi” e innovativi.
  • Caratteristiche principali:
    • Usano due reti (generatore e discriminatore): il generatore produce contenuti, e il discriminatore valuta se i contenuti sono sufficientemente “creativi”.
    • Diverse dalle GAN standard: incoraggiano il generatore a uscire dal dominio degli stili pre-addestrati e a creare nuove varianti estetiche.
    • Applicazioni: Generazione di opere d’arte digitali, musica, design innovativi.
  • Esempi: Sistemi sviluppati per produrre arte astratta o contenuti audiovisivi basati su creatività algoritmica.

Sintesi delle differenze LLM/LCM/CAN

Modello Focus principale Ambito d’uso Punto di forza
LLM Linguaggio naturale Generazione e comprensione testo Gestione di enormi quantità di dati testuali
LCM Contesto e ragionamento globale Decisioni complesse, sistemi multimodali Considerazione multilivello del contesto
CAN Creatività generativa Arte, design, innovazione Produzione di contenuti creativi e unici

 

Ovviamente  essendo LCM Meta  un primo rilascio avrà ampio margine di miglioramento, ove gli LLM attualmente sono già al limite (dati di addestramento non più disponibili, potenza di calcolo elevata etc).

F.P.
0 commenti

Lascia un Commento

Vuoi partecipare alla discussione?
Fornisci il tuo contributo!

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *