Google has rolled out a significant cost-saving enhancement for its Gemini API, introducing implicit caching for its Gemini 2.5 Pro and Gemini 2.5 Flash models.

This ‘always on’ system is designed to automatically lower costs for developers by up to 75% on repetitive prompt data by identifying and reusing common prefixes in API requests, thereby passing savings directly to users without requiring manual Impostazione della cache.

L’iniziativa mira a rendere più accessibili i potenti modelli AI generativi di Google, in particolare per le applicazioni che spesso elaborano contesti grandi e ricorrenti, come ampie istruzioni di sistema o lunghi documenti. 

Google introdotto per la prima volta nel maggio 2024 . Mentre la memorizzazione nella cache esplicita fornisce un percorso per le riduzioni dei costi garantite, richiede agli sviluppatori di configurare e gestire manualmente il contenuto memorizzato nella cache. La memorizzazione nella cache implicita, al contrario, opera senza intervento diretto. Google afferma che”passa direttamente i risparmi sui costi della cache agli sviluppatori senza la necessità di creare una cache esplicita”. 

Per ottimizzare per questi risparmi automatici, Google consiglia agli sviluppatori di strutturare i propri istruzioni posizionando contenuti stabili e comuni all’inizio, seguiti da elementi variabili come le domande specifiche dell’utente.

La società ha anche specificato i conteggi minimi di token di 2,5 per il flash e 2,5 Pro. Gli sviluppatori che utilizzano i modelli Gemini 2.5 ora vedranno un `cached_content_token_count` nei metadati di utilizzo della risposta dell’API, indicando l’entità dei token memorizzati nella cache utilizzati e fatturati a tasso ridotto. Confronto di cache implicito ed esplicito

Il funzionario documentazione API Gemini Chiarisce ulteriormente che implicita la cache è emessa da default e non richiede un’azione per sviluppatore. Oltre a una pronta strutturazione, l’invio di richieste con prefissi simili in rapida successione può anche aumentare la probabilità di un colpo di cache.

Per scenari che richiedono risparmi sui costi garantiti, l’API di memorizzazione nella cache esplicita rimane un’opzione praticabile, supportando entrambi i modelli Gemini 2.5 e 2.0. Questo metodo consente agli utenti di definire contenuti specifici per la memorizzazione nella cache e impostare il tempo per vivere (TTL), di effettuare a un’ora se non specificata-che determina la durata di archiviazione. La fatturazione per la memorizzazione nella cache esplicita dipende dal numero di token memorizzati nella cache e dal TTL scelto. Come spiega Google Ai per gli sviluppatori,”A alcuni volumi, l’uso di token memorizzati nella cache è un costo inferiore rispetto allo stesso corpus di token ripetutamente.”

contestualizzando le misure di risparmio di costi in tutto il settore finanziario e riducono la vasta efficienza del settore finanziario con la vasta efficienza del settore finanziario con la vasta efficienza del settore finanziario con la vasta efficienza del settore finanziario con la grande efficienza di una vasta efficienza. Modelli AI.

Altre aziende stanno anche affrontando queste sfide da vari angoli. Ad esempio, IBM Research ha recentemente presentato il suo modello BAMBA-9B-V2, un’architettura ibrida Transformer-SSM progettata per affrontare le esigenze computazionali dei trasformatori tradizionali, in particolare per quanto riguarda la riduzione della cache KV. Raghu Ganti di IBM ha evidenziato che per Bamba,”Tutto ritorna alla riduzione della cache KV… più throughput, minore latenza, lunghezza di contesto più lunga.”

Nel regno dell’efficienza di addestra href=”https://arxiv.org/html/2505.04588v1″target=”_ blank”> carta scientifica , può ridurre i costi di allenamento relativi ad API fino all’88%. Questo approccio, tuttavia, richiede server GPU per la simulazione.

Un’altra strategia di efficienza proviene dalla Rice University e XMAD.AI con la loro tecnica DFLOAT11, che fornisce una compressione senza perdita del 30% per i pesi LLM. Questo metodo si concentra sulla riduzione dei requisiti di memoria del modello senza alterare l’output, un fattore cruciale per le applicazioni in cui l’accuratezza bit-per bit è fondamentale, evitando così le”complessità che alcuni utenti finali preferirebbero evitare”con la quantizzazione perdita. Modelli (NAMM), progettati per migliorare l’efficienza del trasformatore fino al 75%. NAMMS potare dinamicamente i token meno critici dalla cache KV durante l’inferenza, particolarmente vantaggioso per la gestione di finestre a lungo termine. Il sistema utilizza reti neurali addestrate tramite ottimizzazione evolutiva, un metodo che i ricercatori di AI Sakana affermano:”L’evoluzione supera intrinsecamente la non differenziabilità delle nostre operazioni di gestione della memoria, che coinvolgono i risultati binari di”non dimenticare”, attualmente non sono attualmente disponibili per le figure, attualmente non sono disponibili per le figure, attualmente non sono disponibili per le figure, attualmente non sono disponibili per le figure, attualmente non sono disponibili per le figure, attualmente non sono disponibili per le figure, attualmente non sono disponibili per le figure, attualmente non sono disponibili per le figure, attualmente non sono disponibili per le figure, attualmente non è disponibile una garanzia in terze parti. Potrebbe variare a seconda dei modelli di utilizzo specifici:

Il precedente sistema di memorizzazione nella cache manuale aveva dovuto affrontare critiche per essere a volte difficile da usare e portando occasionalmente a costi più attesi. Nonostante queste considerazioni, la natura automatizzata della memorizzazione nella cache implicita è un chiaro passo per semplificare la gestione dei costi per gli sviluppatori che costruiscono con Gemelli. opentools descrive la capacità Come”rivoluzionario”, suggerendo che potrebbe aprire la strada a un prezzo più dinamico del servizio AI se il ridotto si traduce in un risparmio di sviluppatori corsi.

Categories: IT Info