Il 20 gennaio 2025, la startup cinese DeepSeek ha rilasciato due modelli di intelligenza artificiale, DeepSeek-R1 e DeepSeek-R1-Zero. La pubblicazione di questi modelli, avvenuta lo stesso giorno dell’insediamento di Donald Trump alla presidenza degli Stati Uniti, ha suscitato un notevole interesse a livello globale per diversi motivi, tra cui l’efficienza in termini di costi, hardware e consumo energetico.
DeepSeek-R1 e DeepSeek-R1-Zero si basano entrambi sulla **mixture of experts**, un’architettura in cui un modello coordinatore decide quali modelli specializzati attivare a seconda del compito. Tuttavia, differiscono nel metodo di addestramento: DeepSeek-R1 è stato raffinato con la tecnica **supervised fine-tuning (SFT)**, mentre DeepSeek-R1-Zero è stato addestrato senza supervisione umana, utilizzando solo il **reinforcement learning (RL)**.
La società DeepSeek è stata fondata nel 2023 dall’imprenditore Liang Wenfeng, laureato in ingegneria informatica ed elettronica. In precedenza, Liang aveva fondato nel 2013 una società di investimento chiamata Hangzhou Jacobi e, nel 2015, un fondo di investimento chiamato High-Flyer. Quest’ultimo, finanziato proprio dal fondo High-Flyer, ha permesso a Liang di avviare la DeepSeek, con l’obiettivo di esplorare le possibilità dell’AGI, l’intelligenza artificiale generale.
Secondo quanto riportato, l’addestramento del modello R1 è costato meno di 6 milioni di dollari, una cifra inferiore rispetto ai budget di altre aziende. Il modello ha richiesto 2,78 milioni di ore GPU su chip Nvidia H800, con un costo di 5,6 milioni di dollari. È stato addestrato utilizzando 2.000 chip Nvidia H800, considerati meno potenti rispetto a quelli utilizzati dai concorrenti occidentali.
DeepSeek ha affermato che il suo modello di intelligenza artificiale utilizza circa un decimo della potenza computazionale rispetto al modello Llama 3.1 di Meta.
Secondo il professor Giuseppe Attardi, uno degli elementi chiave di questo risultato è l’adozione della tecnica Group Relative Policy Optimization (GRPO), una variante della Direct Preference Optimization (DPO) introdotta da Christopher Manning. DeepSeek R1 utilizza anche una strategia chiamata chain of thought (concatenazione di pensieri), simile a quella usata da ChatGPT.
Il lancio di DeepSeek-R1 è avvenuto in un contesto geopolitico particolare, lo stesso giorno dell’insediamento di Donald Trump alla presidenza degli Stati Uniti. In quel periodo, le grandi aziende statunitensi produttrici di modelli LLM avevano iniziato un riposizionamento allineato sulle idee nazionaliste di Trump.
Dalla Cina con furore (e in open source). Tutto ciò che c’è da sapere su DeepSeek, AI asiatica che ha terrorizzato l’Occidente
Ricevi le nostre ultime notizie da Google News
clicca su SEGUICI, poi nella nuova schermata clicca sul pulsante con la stella.

