Contrairement à Systran, qui utilise une technologie à base de règles (morphologiques, syntaxiques, sémantiques, grammaticales, heuristiques, logiques, etc. etc.) appliquées à des vocabulaires et des grammaires définis, Google choisit une approche statistique, qui consiste à gaver les machines de milliards de mots de texte, ce qu'on appelle la linguistique de corpus (parallèles, alignés ou non), en associant des corpus (ou corpora pour les puristes) monolingues à des bi-textes (en prenant par exemple un site bilingue, ou tri- ou n-lingue, dont les textes sont segmentés puis alignés afin de fournir une mémoire de traduction) pour y appliquer ensuite des techniques d'apprentissage statistiques permettant de construire des modèles de traduction.
Et c'est là où Google est très fort, puisque, dernier arrivé dans ce domaine (où les places sont chères, par ailleurs), il se classe premier en devançant IBM, etc., et en se détachant très nettement de Systran, aussi bien pour la paire linguistique chinois-anglais qu'arabe-anglais...
Or Google, qui continuait d'utiliser Systran jusqu'à présent, vient de basculer sur son système maison, Google Translate...
Source et suite de l'article : [feeds.feedburner.com]