Il problema dell'AI nel coding non è il costo, è che nessuno ha mai misurato il valore
Le due notizie più rumorose nel mondo dell’AI enterprise delle ultime due settimane: Microsoft vuole eliminare Claude Code internamente nel dipartimento Experiences + Devices e rispedire migliaia di ingegneri su GitHub Copilot; Uber, nel frattempo, ha bruciato in quattro mesi l’intero budget AI per il coding previsto per il 2026.
Il commento dominante è stato quasi unanime: l’AI nel coding è troppo cara, la bolla sta per scoppiare. Utenti pesanti con fatture da 500 a 2.000 dollari al mese in token fanno effettivamente una certa impressione.
Ma secondo me questa lettura manca il bersaglio. Quello che è stato davvero messo sotto processo non è «l’AI costa troppo» — è qualcosa di molto più imbarazzante: quasi nessuno ha mai misurato quanto valesse quello che stava comprando.
Un dettaglio che rivela tutto
Nella storia di Uber c’è un elemento particolarmente rivelatore: hanno attivato internamente una classifica dei team basata sul consumo di strumenti AI. Entro marzo, l’84% dei 5.000 ingegneri era stato etichettato come «utente di agentic coding».
Fermiamoci un secondo: cosa premiava questa classifica? Premiava il bruciare token, non il produrre valore. Quando trasformi «usare di più» in una medaglia da esibire, la gente ovviamente usa di più. Il budget è andato in fumo? Non è una sorpresa — è il risultato inevitabile di quel sistema incentivante.
Così, quando è arrivato il conto, il CFO aveva davanti un numero preciso in dollari e un beneficio completamente inesprimibile. Il COO di Uber lo ha ammesso senza giri di parole: tra le spese e le funzionalità effettivamente consegnate «quel filo non si riesce ancora a tirare… è difficile dire che ora stiamo producendo il 25% di funzionalità utili in più».
Questo non è un fallimento dell’AI. È un fallimento della misurazione.
Non puoi vincere una battaglia di budget con «sembra più veloce»
Il paradosso più amaro è questo: le stesse aziende che per i loro prodotti AI costruiscono sistemi di valutazione ossessivi — dataset gold standard, benchmark di qualità, evals su evals — quando si tratta degli strumenti AI che usano loro stesse, accettano «più efficienza» come un’assunzione data per scontata, mai verificata.
«Più veloce» è stato trattato come un’evidenza autoevidente. Nessuno ha collegato le ore degli agent a consegne reali, a output con valore concreto. Il risultato: quando il CFO porta il conto e chiede «questi 5 milioni cosa hanno comprato», il team di engineering risponde «sembra che andiamo molto più veloci» — e «sembra» in una riunione di budget vale esattamente zero.
Quindi cosa è stato davvero messo sotto processo?
Non il coding con l’AI. È stato messo sotto processo il modo di adottarlo come performance, invece che come leva.
Distribuire gli strumenti, attivare una classifica di utilizzo, raggiungere l’84% di penetrazione — tutto questo ha l’aspetto dell’«adozione», non di una strategia. Una vera strategia inizia con una domanda: cosa voglio muovere con questo strumento? E quella cosa è misurabile? Si può collegare a un valore?
La mia previsione: i team che sopravviveranno a questa correzione non saranno quelli che hanno tagliato di più gli strumenti AI o che li usano con il contagocce. Saranno gli unici in grado di collegare la spesa in token al valore consegnato — e di difendere quella linea davanti al CFO dati alla mano. Questa stretta sui costi separerà con nettezza chi usa l’AI come leva da chi la usa come scenografia.
E c’è una cosa scomoda da aggiungere: se nell’ultimo anno hai misurato solo il «consumo», hai già perso questa discussione — perché hai addestrato l’intera organizzazione a ottimizzare quella dashboard, non a ottimizzare il valore.
Discussione