La cap de tecnologia (CTO) d'Open AI, durant la presentació de GPT-4o
La cap de tecnologia (CTO) d'Open AI, durant la presentació de GPT-4o

OpenAI obre a tothom GPT-4o, un nou model d'IA amb millores i també "riscos nous"

OpenAI presenta un nou model generatiu de llenguatge "més ràpid i capaç", GPT-4o, que pot seguir converses en temps real i interpretar imatges, text i àudio amb molta més precisió

Enllaç a altres textos de l'autor Antoni Noguera Martínez

Toni Noguera Martínez

Periodista del 324.cat especialitzat en tecnologia

@AntoniNoguera
Actualitzat

Pocs minuts després que OpenAI, l'empresa darrere ChatGPT, presentés el seu nou model de llenguatge gratuït, GPT-4o, les xarxes socials s'omplien de referències a la pel·lícula "Her", de Spike Jonze. També s'hi referia el responsable de l'empresa, Sam Altman. 

En el film de ciència-ficció, un home (Joaquin Phoenix) s'acaba enamorant d'una assistent virtual basada en intel·ligència artificial anomenada Samantha (amb la veu de Scarlett Johansson) amb una alta capacitat per tenir converses generades artificialment.

En la presentació de dilluns, OpenAI ha presentat un model de llenguatge que pot funcionar com un assistent virtual de forma molt similar al que planteja "Her": respon a les interaccions per veu, interpreta correctament les imatges de vídeo i foto que rep i respon, de manera virtualment instantània, amb una veu que no sona robòtica. A més, té més marge per "recordar" i fer referència a converses anteriors, així com per adaptar el to de les respostes per simular una personalitat.

Mira Murati, la cap de tecnologia d'OpenAI, ha resumit l'evolució que suposa el nou producte: "GPT-4o ofereix intel·ligència de nivell GPT-4, però és molt més ràpid i millora les seves capacitats en text, visió i àudio". És el model de llenguatge més potent de la companyia.  

El nou model presenta diverses millores en la rapidesa de resposta, en l'eficiència, en la capacitat de rebre, processar i oferir respostes en diversos formats, suporta més idiomes (català inclòs) i, tot això, ho fa amb "una varietat de riscos nous" i "limitacions" que inclouen, potencialment, riscos que, ara mateix, es desconeixen:

"GPT-4o s'ha sotmès a un extens "red teaming" amb més de 70 experts externs especialistes en àrees com la psicologia social, el biaix i l'equitat, i la desinformació, per identificar els riscos que s'introdueixen o s'amplifiquen amb les modalitats recentment afegides. Continuarem mitigant nous riscos a mesura que es descobreixin."

Les millores que presenta GPT-4o

El nou model OpenAI, GPT-4o, no deixa de ser una millora de l'anterior presentat fa poc més d'un any, GPT-4. Una de les principals diferències és la que marca la "o" que afegeixen al seu nom: "o" d'"omni", del llatí "omnis", és a dir, "tot".

La cap de tecnologia (CTO) d'Open AI, durant la presentació de GPT-4o
La cap de tecnologia (CTO) d'OpenAI, durant la presentació de GPT-4o (OpenAI)

Multimodalitat

Per primera vegada, OpenAI presenta un model generatiu de llenguatge que s'ha entrenat, diuen, utilitzant al mateix temps informació en text, imatge i àudio, de manera que pot interpretar informació en qualsevol combinació d'aquests formats i respondre, també, en text, àudio i/o imatge.

GPT-4o és el que s'anomena un model de llenguatge multimodal de forma nativa, tal com ho és Gemini de Google. Al contrari del que feia GPT-4, que per processar imatges havia de traslladar la informació a diferents models especialitzats respectivament en text, imatge i àudio, ara és la mateixa xarxa neuronal de GPT-4o la que fa tot el procés de principi a fi, sense perdre informació pel camí:

"Com que GPT-4o és el nostre primer model que combina totes aquestes modalitats, encara estem gratant la superfície de què pot fer i quines són les seves limitacions".

Aquesta multimodalitat li permet mantenir converses sobre una imatge o vídeo que veu el seu interlocutor humà, cosa que, per exemple, pot ajudar persones cegues a orientar-se pel carrer, o ajudar estudiants a fer els deures en temps real amb una veu artificial que els orienta cap a una resposta correcta:


Rapidesa

Les converses de veu amb GPT-4o són molt més ràpides. Pot respondre a una pregunta per veu en 320 mil·lisegons de mitjana, amb un pic màxim de velocitat de 232 mil·lisegons, segons les dades que presenten des d'OpenAI. Els anteriors models, GPT-3.5 i GPT-4, eren molt més lents, amb temps de resposta de mitjana d'entre 3 i 5 segons. 

La comprensió de text ha millorat "significativament" en idiomes que no són l'anglès. És més ràpid i "un 50% més barat" per diferents millores en la seva eficiència en més de 50 llengües, cosa que fa que requereixi menys "tokens", les unitats de text que utilitza el model per interpretar-lo.

Aquesta velocitat permet converses en --virtualment-- temps real i --diuen-- "és un pas més cap a interaccions home-màquina més naturals." Un pas més, de fet, cap a l'antropomorfització dels models de llenguatge que pràcticament tots els experts en IA coincideixen a advertir que cal evitar

GPT-4o permet interrupcions de veu: "No cal que espereu que acabi el vostre torn per poder començar a parlar". A més, pel que han ensenyat en alguna demo (que, com totes, caldrà reproduir per posar-ho a prova), el model té la "capacitat de percebre" l'emoció que demostra la veu d'un interlocutor, a més d'identificar la veu de diferents parlants.
 

Disponibilitat

El nou model d'OpenAI arribarà a tots els usuaris, paguin o no subscripcions a ChatGPT Plus o les seves variants dirigides a empreses i negocis. 

Tanmateix, de moment GPT-4o no arribarà amb totes les opcions a tothom. Per començar, OpenAI només donarà accés universal a les seves funcionalitats per processar i generar textos i interpretar imatges a través de ChatGPT, de forma gratuïta per a tothom.

També arriben les seves eines per analitzar documents i dades, navegar per internet i retenir informació (memòria) de forma més extensa: 

Interfície de ChatGPT amb el nou model, GPT-4o, disponible per ser seleccionat
Interfície de ChatGPT amb el nou model, GPT-4o, disponible per ser seleccionat (3Cat)

Les capacitats millorades de generació d'àudio i imatges i el nou mode de conversa arribaran més tard. 

Aquest "desplegament iteratiu", diuen, donarà més temps a l'equip de "red teaming" que està posant a prova els límits, riscos i perills potencials que té el nou model, especialment les seves noves capacitats més enllà del text.

Els usuaris de pagament, subscriptors de ChatGPT Plus, tindran cinc vegades més capacitat per fer peticions al model i, d'aquí unes setmanes, començaran a accedir al nou mode de veu en temps real "en alfa" per posar a prova les millores mostrades en els vídeos. 

"Tenim previst llançar el suport per a les noves capacitats d'àudio i vídeo de GPT-4o a un grup reduït de socis de confiança de l'API en les properes setmanes."


Ni cercador ni GPT-5, però sí "riscos nous"

Eren molts els que esperaven la presentació d'un nou model que realment representés un salt endavant en capacitat de comprensió, en "intel·ligència", però encara cal esperar per a l'arribada de GPT-5.

També hi havia rumors sobre la presentació d'un cercador que competís amb motors de cerca amb models de llenguatge integrats com Bing Chat de Microsoft, Perplexity AI o Google Gemini. L'executiu en cap d'OpenAI, tanmateix, es va encarregar de desmentir-ho fa uns dies. 

Finalment, el que s'ha presentat és un model més ràpid i més capaç, del qual encara no sabem com ni amb què s'ha entrenat, quin impacte exacte té el seu entrenament en termes de privacitat, propietat intel·lectual i sostenibilitat i, especialment, si les mesures de seguretat seguides (definides per la mateixa OpenAI) són suficients per mitigar els riscos dels nous models i les seves capacitats, que, tanmateix, reconeixen:

"Reconeixem que les modalitats d'àudio de GPT-4o presenten una varietat de riscos nous. Avui estem publicant les entrades de text i imatges i sortides de text. Durant les properes setmanes i mesos, treballarem en la infraestructura tècnica, la usabilitat mitjançant la formació posterior i la seguretat necessària per alliberar les altres modalitats".

Aquest dimarts arriba el torn de Google, que fa la seva presentació anual per a desenvolupadors, Google I/O. De fet, ja s'encarregaven ahir de fer-ne un petit avançament en què mostraven que el seu model de llenguatge, Gemini, ja fa un temps que té la capacitat d'interpretar imatges:


S'espera que Google torni a demostrar que ens trobem enmig d'una guerra oberta entre les grans tecnològiques on les innovacions i les millores de rendiment se succeeixen a una velocitat exponencial, mentre que els avançaments en seguretat i mètodes de prevenció de riscos no creixen al mateix ritme.

Això sí, pel que apunten tots els rumors, Apple està en converses amb Google, Cohere i OpenAI, i això només vol dir una cosa: ben aviat, Siri es convertirà en la Samantha de "Her". L'escenari és inquietant. 

 

ARXIVAT A:
TecnologiaIntel·ligència artificial
NOTÍCIES RELACIONADES
Anar al contingut