Au cours des dernières années, la division marketing GPU d’Intel a eu un problème: comment parlez-vous d’un produit dont vous ne pouvez pas encore parler? Pour AMD et Nvidia, tous deux établis dans l’industrie, c’est moins un problème: l’une ou l’autre des entreprises peut parler des grandes tendances du jeu, ou de l’évolution de fonctionnalités spécifiques, ou de la direction que prend l’industrie en termes techniques, même si elles ne sont pas prêts à parler des nouvelles fonctionnalités d’une plate-forme à venir. Intel est parti de zéro dans un domaine où il était historiquement connu pour les GPU qu’il n’avait pas mis sur le marché plutôt que pour les cartes qu’il a expédiées.

Intel, à ce jour, a esquissé quatre microarchitectures différentes pour sa prochaine famille Xe – Xe-HPC, Xe-HP, Xe-HPG et Xe-LP. Nous allons nous concentrer sur deux d’entre eux ici: Xe-LP et Xe-HPG. Ce sont les architectures destinées respectivement aux travaux de faible puissance / premiers développeurs et aux jeux. Xe-LP fera ses débuts à Tiger Lake, en tant que silicium sous-jacent derrière les 96 UE de la puce. Il alimente également les DG1 et SG1 qu’Intel déploie. DG1 est le GPU mobile d’Intel destiné à être livré dans les ordinateurs portables Tiger Lake, tandis que SG1 s’explique d’elle-même:

Mis à part les vœux pieux, SG1 est composé de quatre puces DG1 dans une matrice combinée que la société vendra en remplacement de son Xeon Visual Compute Accelerator. Ces cartes orientées serveur étaient basées sur les précédentes cartes graphiques intégrées d’Intel et destinées aux charges de travail d’encodage vidéo. Maintenant qu’Intel dispose de sa propre adresse IP discrète, il prendra également en charge ce domaine.

En termes de fonctionnalités GPU, Xe-LP est une architecture DX12_1, tandis que Turing et RDNA2 sont tous deux DirectX 12_2. Plus précisément, le GPU ne prend pas en charge les shaders de maillage, l’ombrage à taux variable de niveau 2 et le retour d’échantillonneur. Cela signifie également que le lancer de rayons n’est pas pris en charge sur ces puces initiales de bas de gamme. Ce n’est pas particulièrement surprenant non plus – Nvidia ne prend pas en charge le traçage de rayons DXR sous le RTX 2060 pour le moment et AMD ne devrait pas non plus lancer un tas de cartes RDNA2 bas de gamme pour étendre la capacité au bas de la pile. Le lancer de rayons restera probablement la province des cartes de milieu à haut de gamme à travers la prochaine génération, au moins. Tant que les fabricants de GPU ne pourront garantir une expérience acceptable, ils ne voudront pas étendre la fonctionnalité.

Les GPU Xe-LP de Tiger Lake emballeront 96 UE, 48 unités de texture et 24 ROP, ce qui implique 768 cœurs GPU efficaces (huit threads par UE) et une configuration 768: 48: 24. C’est très respectable en termes intégrés, bien que nous ne puissions pas comparer le nombre de cœurs GPU seuls pour mesurer les performances. La mémoire prise en charge est jusqu’à LPDDR4X-4266, avec un bus de 128 bits vers l’IMC. Les vitesses d’horloge sont supérieures à 1,6 GHz, contre 1,1 GHz pour Ice Lake (ICL propose une configuration 512: 32: 16).

Tout dans la conception Xe de Tiger Lake est 1,5 fois plus grand que son homologue Ice Lake, à l’exception du front-end, qui envoie toujours 1 primitive par horloge. L’augmentation de 1,45x de la vitesse d’horloge se traduira ici par une nette amélioration, et probablement suffisante pour empêcher le GPU de devenir lié à la géométrie. Ce nouveau GPU 96 EU est désormais une «tranche» dans le langage Intel. À Ice Lake, une «tranche» de GPU contenait huit sous-tranches, chacune avec huit UE. Cela représente 64 cœurs ALU par sous-tranche. À Tiger Lake, une tranche est désormais composée de six sous-tranches, avec 16 UE par sous-tranche. Le nombre de cœurs ALU par sous-tranche est maintenant de 128, contre 64. Un certain nombre de changements ont accompagné ce changement, y compris le débit de l’échantillonneur de texture (huit texels par horloge, au lieu de quatre) et il y a maintenant une texture L1 de 64 Ko et un cache de données attaché à chaque sous-tranche.

En outre, il y a des changements dans la façon dont Intel traite les données dans les sous-tranches. Dans le passé, chaque UE était un bloc autonome composé d’une unité de contrôle de thread et de deux blocs SIMD de 4 larges. L’un de ces blocs est utilisé pour les fonctions à virgule flottante et entière tandis que l’autre est pour FPU et les instructions «spéciales». Les fronts d’ondes sont répartis en groupes de huit threads et chaque UE agit indépendamment des autres. Dans Xe-LP, cela change. Désormais, deux UE partagent une seule unité de contrôle de thread. Au lieu de deux blocs SIMD à quatre larges, Intel utilise un seul bloc SIMD8 avec un bloc SIMD2 pour gérer des fonctions mathématiques spéciales. Il s’agit d’une organisation différente des ressources disponibles dans Gen11 (ICL), et les implications exactes pour les performances ne sont pas claires. Le but de ce changement, selon Intel, est d’empêcher les instructions mathématiques spéciales SIMD de bloquer l’exécution du code à virgule flottante. Ces nouvelles TCU sont également capables d’émettre des instructions aux unités SIMD8 et SIMD2 simultanément. Intel transférera également le contrôle du tableau de bord des unités matérielles au logiciel.

Un certain nombre de ces mouvements sont similaires aux changements que Nvidia a faits il y a des années avec Kepler ou qu’AMD a fait plus récemment avec RDNA. Intel est en train de changer son organisation globale de l’UE et de déplacer différentes charges de travail vers différents domaines de la combinaison CPU + GPU afin d’améliorer son efficacité d’exécution et ses performances. Les taux d’instruction sont pour la plupart inchangés – 16 opérations FP32 / horloge et 32 ​​opérations FP16 / horloge sont les mêmes que Gen11, tandis que le débit INT32 a doublé de 4 opérations / horloge à 8. Le débit INT16 a quadruplé, de 8 opérations / horloge à 32, et l’architecture Xe-LP est capable de 64 opérations / horloge en INT8, alors que la Gen11 ne supportait pas du tout ce format. (Toutes les mesures d’opérations / d’horloge sont par UE).

En ce qui concerne les changements d’organisation de la mémoire, le cache L3 spécifique au GPU à la puce peut désormais atteindre 16 Mo, bien que celui de Tiger Lake ne pèse que 3,8 Mo, avec une bande passante plus élevée. Le plus grand cache est probablement réservé à des parties comme DG1 ou même SG1, si Intel décide de configurer ces puces différemment. La bande passante totale vers le L3 a été doublée, donnant un IGP 1,6 GHz sur 200 Go / s de bande passante de mémoire interne. La L3 n’est peut-être pas grande, mais sa bande passante sera extrêmement élevée. La bande passante du bus en anneau a également été doublée pour tenir compte de ces changements.

Il y a beaucoup de choses qu’Intel n’a pas encore partagées sur DG1, y compris si le GPU sera capable de fonctionner de concert avec les solutions embarquées de Tiger Lake pour le rendu multi-GPU ou à quel type de performances nous devrions nous attendre par rapport aux pièces Ryzen 4000 Mobile d’AMD . Dans l’ensemble, Tiger Lake ressemble à un concurrent important pour AMD tant du côté du processeur que du côté GPU de l’équation.

Qu’en est-il des jeux passionnés?

Cela nous amène à Xe-HPG, la partie passionnée des joueurs qu’Intel envisage de lancer. Ce GPU prendra en charge le traçage de rayons et probablement la norme complète DirectX 12 Ultimate. Contrairement à Xe-HP (fonctionnalités du centre de données, FP64) ou Xe-HPC (Ponte Vecchio, construit à partir d’une pile de quatre puces), Xe-HPG est entièrement axé sur les joueurs. Intel affirme qu’il tirera parti des améliorations de la vitesse d’horloge de Xe-HPC et mettra l’accent sur l’évolutivité brute pour Xe-HPG. Il n’est pas clair dans quelle mesure ces puces seront différentes au niveau architectural; Nvidia et AMD limitent généralement leurs cartes grand public de plusieurs manières par rapport aux variantes du centre de données, tandis qu’une grande partie de l’architecture sous-jacente reste inchangée. Intel a confirmé, cependant, que Xe-HPG utilisera GDDR6 plutôt que HBM, avec le contrôleur de mémoire sous licence d’une source non Intel. Intel n’a pas confirmé son partenaire de fonderie pour Xe-HPG, mais il ne sera pas construit chez Intel, laissant TSMC ou Samsung en option.

Le lancement du Xe-HPG est prévu en 2021.

