Presentata lo scorso dicembre 2023, la nuova generazione di AI multimodale, creata per contrastare il dominio di ChatGPT
E’ stato presentato da Google, a dicembre 2023, il nuovo modello di intelligenza artificiale multimodale chiamato ‘Gemini’, in grado di lavorare con testi, immagini e video: un progetto molto ambizioso già annunciato nel maggio dello scorso anno. Il lancio di quest’AI è avvenuto a pochissimi mesi di distanza da quello di Bard, il 'chatbot' creato da Google per contrastare il dominio di ChatGPT. Con l’implementazione di ‘Gemini’ all’interno di Bard, Google è pronta a sfidare il modello GPT-4 e mira a diventare il nuovo motore di ricerca universale.
Ciò che distingue ‘Gemini’ da tutta la concorrenza è la capacità di operare su diversi livelli d’informazione (immagini, testi, video e codice informatico) contemporaneamente. Secondo le dichiarazioni dell’azienda, questa caratteristica multimodale di ‘Gemini’, consente all’IA di “comprende meglio le sfumature tra le informazioni”, permettendogli di “rispondere a domande relative ad argomenti complicati. Ciò lo rende particolarmente utile per spiegare ragionamenti complessi, per esempio in matematica e fisica”. E infine: “La sua straordinaria capacità di estrarre informazioni rilevanti da centinaia di migliaia di documenti attraverso la lettura, il filtraggio e la comprensione dei contenuti, contribuirà a realizzare nuove scoperte ad alta velocità in molti campi, dalla scienza alla finanza”.
La capacità di ragionamento multimodale di cui è capace ‘Gemini’, consente all’AI di dare senso a informazioni scritte e visive complesse, in modo da riuscire a contestualizzare ciò che vede e rispondere a domande via via sempre più complicate. In base ai test compiuti da Google, “con un punteggio del 90%, Gemini è il primo modello a ottenere risultati migliori delle prestazioni umane in ambito Mmlu (comprensione linguistica multitasking su larga scala, ndr)”. Scendendo un po’ più nei dettagli, Google ha presentato tre diverse versioni di ‘Gemini’, di cui una dal nome ‘Gemini Pro’, con 100 miliardi di parametri, attualmente disponibile gratuitamente su Bard e accessibile in 170 Paesi. In Italia, è disponibile da dicembre 2023 solo per programmatori e aziende, mentre per tutti gli altri è necessario connettersi tramite Vpn (rete privata virtuale, ndr). C’è poi ‘Gemini Nano’, con 10 miliardi di parametri, presente sui dispositivi ‘android Pixel 8 Pro’, in grado di aiutare gli utenti nella risposta dei messaggi. Infine, c'è ‘Gemini Ultra’: la versione più potente e performante di Bard, con 1,6 trilioni di parametri, in arrivo entro la fine del 2024 e in grado, secondo Google, di superare le prestazioni del modello GPT-4.
Lo scopo a lungo termine di Google è quello di trasformare ‘Gemini’ nel futuro motore di ricerca universale, capace non solo di fornirci link o video, ma esattamente tutte le informazioni che ci servono sulla base delle informazioni che l’AI ha ottenuto, ivi comprese quelle sul nostro conto, ovvero le nostre preferenze e idiosincrasie. Da queste premesse, si capisce come ‘Gemini’ sia uno strumento molto utile e, per certi versi, sorprendente, rispetto a ciò che abbiamo sperimentato fino a oggi in materia di intelligenza artificiale. C’è da aggiungere che Google non ha tralasciato di pensare ai rischi insiti in un’AI così potente. E, infatti, ha già effettuato dei test di sicurezza per comprendere fin dove riesce ad arrivare ‘Gemini’, spingendolo a comportarsi in maniera scorretta, esponendone così le vulnerabilità.