DeepSeek : L’Intelligence Artificielle Économique et Efficace
DeepSeek, une entreprise chinoise, est en train de révolutionner le domaine de l’intelligence artificielle (IA) avec une approche plus abordable que celle de ses concurrents, notamment OpenAI.
Le sujet de l’intelligence artificielle est complexe et recouvre divers aspects allant des applications concrètes aux théories de base. L’apprentissage des modèles de données des IA, par le biais des LLM (modèles de langage), est essentiel dans ce processus. Cependant, ces avancées soulèvent des inquiétudes concernant les coûts économiques et environnementaux qu’elles génèrent. C’est là que DeepSeek entre en jeu, en visant à réduire ces coûts.
Efficacité et Économie
Les intelligences artificielles, au fur et à mesure qu’elles évoluent, multiplient les paramètres des modèles de langage afin de fournir des résultats plus pertinents face à des demandes de plus en plus complexes. Toutefois, cette amélioration a un prix. Par exemple, ChatGPT version 3 utilise un total impressionnant de 175 milliards de paramètres et a nécessité des investissements colossaux. D’après The Verge, son développement a coûté plusieurs centaines de millions de dollars.
Dans ce paysage concurrentiel, Jim Fan, un chercheur chez Nvidia, qualifie DeepSeek de « plus grand outsider » des LLM open source à venir en 2025, comme rapporté par le South China Morning Post.
DeepSeek V3, un modèle qui détient 671 milliards de paramètres, a été développé en seulement deux mois pour un coût modique de 5,58 millions de dollars.
Un Modèle Open Source
DeepSeek ne se contente pas d’être une alternative économique ; elle propose également un modèle open source. Ce dernier attire d’ores et déjà l’attention des professionnels du secteur. « DeepSeek V3 semble être un modèle incroyablement performant, utilisant seulement 2,8 millions d’heures GPU », a déclaré Andrej Karpathy, ancien responsable de l’IA chez Tesla et membre fondateur d’OpenAI, sur X (Twitter). Pour référence, la création du modèle Llama 3.1 du groupe Meta a nécessité 30,8 millions d’heures GPU d’entraînement, selon le même média.
Selon Jim Fan, « le suivi de DeepSeek a montré qu’ils avaient l’un des meilleurs modèles de codage ouvert l’année précédente ». Il ajoute que ces modèles open source vont sans aucun doute exercer une pression sur l’ensemble du secteur, entraînant des évolutions rapides.
Pour ceux qui souhaitent explorer davantage, le modèle de DeepSeek est disponible sur Hugging Face avec une documentation complète disponible sur GitHub.