Au cours de la dernière décennie, des progrès significatifs ont été réalisés dans le domaine de l'intelligence artificielle (IA) et l'IA est devenue plus omniprésente dans notre vie quotidienne. Les modèles d'IA générative ont également été utilisés pour produire du texte, des images, des vidéos, du code de programmation et de la musique.

Au cours de la dernière décennie, des progrès significatifs ont été réalisés dans le domaine de l'intelligence artificielle (IA) et l'IA est devenue plus omniprésente dans notre vie quotidienne. Les modèles d'IA générative ont également été utilisés pour produire du texte, des images, des vidéos, du code de programmation et de la musique. Il existe des modèles multimodaux qui génèrent des images basées sur des descriptions textuelles (par exemple, DALL·E) et vice versa, et de telles innovations continueront de croître rapidement. Une avancée importante dans l'application d'un modèle d'apprentissage profond a été démontrée en 2012 pour classifier des images en plusieurs groupes différents (ImageNet Large Scale Visual Recognition Challenge 2010). Cela a été suivi de l'utilisation de l'apprentissage profond pour des tâches de classification similaires dans le texte et la parole, où les modèles d'apprentissage profond ont considérablement amélioré les performances par rapport aux benchmarks précédemment établis. Ces modèles ont été entraînés pour des tâches spécialisées et ont offert des performances de pointe. L'utilisation de l'apprentissage profond pour générer une large gamme de sorties a attiré l'attention des chercheurs en IA. Les réseaux antagonistes génératifs, travail phare dans cette direction, ont été réalisés en 2014, où des images réalistes de visages humains et de chiffres ont été générées. Cela a conduit à d'autres recherches pour développer des techniques d'IA générative dans d'autres domaines. La modélisation du langage a été une tâche difficile pour l'IA. L'objectif des modèles de langage est de prédire le mot suivant à partir d'une séquence de mots. L'utilisation de l'apprentissage profond pour pré-entraîner des LLM a été démontrée en 2019. Les transformateurs pré-entraînés génératifs (GPT) sont la technologie sous-jacente qui alimente ChatGPT. Ces modèles ont été entraînés sur un volume énorme de données textuelles en utilisant une puissance de calcul considérable sur des unités de traitement graphique (GPU). Les résultats de GPT-3 / GPT-4 pour des tâches telles que la résumé de texte, la réponse aux questions et la génération de code ont été impressionnants. Les modèles d'IA générative sont également confrontés à des défis inhérents aux techniques d'apprentissage profond. De plus, la nature générative des modèles peut introduire des artefacts dans les données générées. Par exemple, les générateurs d'images d'IA ont du mal avec les mains. Ils peuvent produire des images étranges difficiles à expliquer. Plusieurs approches ont été proposées pour surmonter ces défis. Cela est également vrai pour les LLM dont le travail est de prédire le mot suivant. Ils peuvent produire des complétions incorrectes ou fournir des réponses erronées, en fonction des données sur lesquelles ils sont formés.