Tester les annonces Google Ads : tests RSA rigoureux

Les Responsive Search Ads (RSA) ne se testent pas comme les Expanded Text Ads (ETA). Google assemble chaque impression en combinant jusqu’à 15 titres et 4 descriptions en temps réel, donc comparer « annonce A vs annonce B » perd son sens quand les deux partagent les mêmes assets. La bonne question n’est pas « quelle annonce gagne », mais quels assets font gagner l’ensemble.

Ce guide explique ce qui est réellement testable dans les RSA, comment concevoir l’expérimentation pour qu’elle ait une validité statistique, quelles métriques surveiller et les erreurs les plus courantes qui invalident les tests avant même de commencer.

En 30 secondes :

Les RSA sont la seule option pour les annonces de recherche depuis juin 2022 (Google Ads Help, 2022)

Le score Ad Strength de Google ne prédit pas la performance réelle : l’étude d’Optmyzr sur des RSA a trouvé que les annonces avec Ad Strength « Excellent » ont le pire CPA (28,68 $) et le CVR le plus bas (4,97 %), tandis que les « Average » ont obtenu le meilleur CPA (12,43 $) et le meilleur CVR (12,65 %) (Optmyzr, 2024)

Ce qu’on teste n’est plus des annonces complètes, mais des assets individuels (titres, descriptions) et des angles thématiques

La bonne méthode : Drafts & Experiments avec des campagnes parallèles, minimum 4 semaines, minimum 100 conversions par bras

Cadence recommandée : un test actif par ad group toutes les 4-6 semaines, pas plus

Pourquoi les RSA ne se testent plus comme avant

Avec le modèle ETA, chaque annonce était une unité fermée : deux titres, une description, une URL. Vous compariez l’annonce A à l’annonce B et la statistique était simple. Avec les RSA, Google décide à chaque enchère quelle combinaison d’assets servir, ajustée à l’utilisateur, à l’appareil et au terme de recherche. Deux comptes avec les mêmes assets peuvent voir des combinaisons différentes.

Cela change trois choses :

Vous ne pouvez pas comparer « annonce contre annonce » dans un même ad group parce qu’elles partagent des assets. Si vous ajoutez une annonce B avec les mêmes 15 titres et changez 2 descriptions, Google va les mélanger et attribuer les impressions à l’une ou à l’autre sans logique que vous contrôlez.
L’Ad Strength est indicatif, pas prédictif. L’étude d’Optmyzr sur des RSA en comptes réels a trouvé que les annonces avec Ad Strength « Excellent » ont le pire CPA (28,68 $) et le CVR le plus bas (4,97 %) du dataset, tandis que les « Average » ont obtenu le meilleur CPA (12,43 $) et le meilleur CVR (12,65 %) (Optmyzr, 2024). Il sert à vérifier qu’on ne fait pas d’erreurs de configuration de base (longueur, mots-clés manquants), pas à miser sur le gagnant.
Le rapport des combinaisons est opaque. Google montre les impressions par asset, mais pas les impressions par combinaison servie. Cela rend impossible la reconstitution de la paire titre+description qui a le mieux fonctionné.

Quand j’arrive sur un nouveau compte et que je vois un « test » de deux RSA quasi identiques dans le même ad group, la première chose que je fais c’est généralement de le mettre en pause. Il ne mesurait pas ce que le client pensait qu’il mesurait.

Ce qui est réellement testable dans une RSA

Si Google assemble les combinaisons, qu’est-ce qui reste sous votre contrôle ? Plus qu’il n’y paraît, mais à des niveaux différents.

Assets individuels (titres et descriptions)

Google classe chaque asset comme Best, Good, Low ou Learning selon sa performance relative. Ce signal est utile pour identifier quels titres fonctionnent dans l’ensemble actuel. L’action concrète : mettre en pause ou remplacer les « Low » toutes les 2-4 semaines et les remplacer par des variations qui couvrent des angles différents (prix, preuve sociale, urgence, proposition de valeur).

Ce n’est pas un test statistique, c’est une rotation basée sur les signaux internes de Google. Mais c’est la friction d’optimisation la plus réaliste au quotidien.

Thèmes ou angles de copy au niveau campagne

C’est là que le testing devient rigoureux. Au lieu de comparer un titre à un autre, on compare deux campagnes parallèles avec deux approches de copy distinctes :

Campagne A : RSA avec des titres centrés sur prix + preuve sociale
Campagne B : RSA avec des titres centrés sur rapidité/commodité + garantie

On utilise la fonction Drafts & Experiments dans Google Ads pour diviser le trafic 50/50 entre les deux. L’unité de test n’est plus l’annonce : c’est le thème.

Configuration de pinning comme variable supplémentaire. Google permet de « pinner » des titres à des positions spécifiques (position 1, 2 ou 3). Appliquer le pinning réduit le nombre de combinaisons que Google peut générer, ce qui paradoxalement peut améliorer la pertinence pour des mots-clés précis au prix de la flexibilité. C’est testable comme couche supplémentaire : une campagne avec pinning stratégique vs une sans pinning, en mesurant CTR et CPA sur les deux.

Comment concevoir un test RSA avec validité statistique

Pour qu’un test vous dise quelque chose de réel, il faut trois conditions simultanées : assez d’échantillon, assez de temps et un bon isolement des variables.

Échantillon minimum par bras

La règle empirique en PPC est de 100 conversions par bras comme minimum absolu, et 300+ si la différence attendue entre versions est faible (moins de 15 %). En dessous, n’importe quelle différence observée est probablement du bruit statistique, pas un signal.

Sur un calculateur standard de significativité A/B (test z pour proportions), détecter un gain relatif de 10 % du taux de conversion avec un baseline de 3 % nécessite environ 4 700 conversions par bras à 95 % de confiance. La plupart des comptes n’atteignent pas ce volume en un mois. C’est pour ça que les tests réalistes portent sur des effets larges (plus de 20 % de différence) ou qu’on accepte de travailler à 90 % de confiance pour réduire la durée.

Temps minimum

Minimum 4 semaines, idéalement 6-8. Moins de 4 semaines et vous capturez le bruit du jour de la semaine, des pics saisonniers et de l’apprentissage de l’algorithme. Plus de 8 semaines et d’autres problèmes apparaissent : le comportement de recherche change, Google ajuste son modèle, les anciennes données perdent en pertinence.

Isolement des variables

Une seule variable change entre les bras. Si vous testez des titres avec des angles différents, gardez les descriptions, extensions, landing page, ciblage et enchères identiques entre A et B. Si deux variables changent en même temps, vous ne saurez pas laquelle a déplacé le résultat.

Les tests les plus rigoureux que j’ai vus sur des comptes avec des budgets entre 8 000 € et 50 000 €/mois sont ceux qui changent une seule dimension à la fois. C’est lent, et c’est la seule façon d’apprendre quelque chose d’actionnable.

Quelles métriques valident un test RSA ?

Ne regardez pas le CTR comme métrique principale. Le CTR répond à la position moyenne, à l’audience et au moment de la journée, pas seulement au copy. Les métriques qui comptent vraiment pour valider un test RSA sont :

Métrique	Pourquoi elle compte	Piège habituel
Conversions	C’est la métrique business	Attribuer les conversions tardives au mauvais bras
CPA	Reflète l’efficacité de la dépense	Peut s’améliorer par baisse du CPC sans que le copy ait bougé
CVR (Conversion Rate)	Isole l’effet du copy sur la décision	Nécessite un volume élevé pour être fiable
CTR	Indicateur de pertinence, pas de qualité des leads	Un CTR élevé peut amener du trafic non pertinent
Quality Score	Bouge lentement, reflète la cohérence de l’ensemble	Ne bouge pas sur des tests de 4 semaines, à utiliser en diagnostic

Pour le B2B avec des cycles de vente longs, le CPA dans Google Ads peut être trompeur parce que la conversion réelle (lead qualifié, opportunité fermée) arrive des mois plus tard. Dans ces cas, j’utilise les conversions offline importées du CRM comme métrique de validation : le copy A peut générer des leads moins chers, mais moins bien qualifiés que le copy B.

Erreurs fréquentes qui invalident un test RSA

Pourquoi tant de tests tournent-ils des mois sans rien conclure ? Quand j’audite des comptes, les schémas qui reviennent sont toujours les mêmes :

Deux RSA quasi identiques dans le même ad group. Google les fait tourner en interne et les assets partagés contaminent l’attribution. Si vous voulez comparer des approches de copy, utilisez Drafts & Experiments au niveau campagne, pas deux RSA en parallèle.
Changer plusieurs variables à la fois. Titres, descriptions et URL de destination modifiés simultanément. Quand le test se termine, vous ne savez à quoi attribuer la différence. Je l’ai vu dans plus de comptes que je ne voudrais.
Couper le test sur un « gagnant précoce ». Dans les 2 premières semaines, la variance est énorme. Ce qui ressemble à un gagnant à 30 conversions disparaît à 6 semaines avec 200. Résister à cette tentation est la différence entre testing et storytelling.
Ne pas documenter l’hypothèse. Si vous lancez un test sans écrire avant « j’attends que le copy B réduise le CPA de 15 % parce que l’angle urgence connecte mieux avec les recherches transactionnelles », le résultat (positif ou négatif) ne vous apprend rien de nouveau. Documenter les hypothèses, c’est ce qui transforme les tests en apprentissage cumulé.
Ignorer la landing page. Un changement de copy avec la même landing teste seulement la « promesse du clic ». Si la landing ne renforce pas le message de l’annonce, vous gagnez en CTR et perdez en conversion.

Cadence recommandée

Un ad group productif n’a pas besoin d’être en test en permanence. La cadence que je recommande aux clients avec des comptes de taille moyenne (50-200 ad groups actifs) :

Rotation d’assets individuels : toutes les 2-4 semaines, revoir les signaux « Low » et mettre en pause/remplacer.
Test de thème ou d’angle (Drafts & Experiments) : 1 par ad group stratégique toutes les 4-6 semaines, max 3-4 tests actifs en parallèle sur tout le compte.
Test de configuration (pinning, extensions) : trimestriel, uniquement sur les ad groups avec assez de volume pour que le résultat soit fiable.

Plus de tests actifs en simultané ne signifie pas plus d’apprentissage. Cela signifie moins d’attention par test et plus de probabilité de finir sans savoir ce qui s’est passé. En cas de doute, auditer la structure complète du compte avant de tester est un passage obligé.

Questions fréquentes

Puis-je tester deux RSA identiques en changeant un seul titre ?

Techniquement oui, mais le résultat sera difficile à interpréter. Google fait tourner les assets partagés entre les deux annonces et attribue les impressions selon son propre modèle, sans que vous contrôliez la distribution. Il vaut mieux isoler la variable au niveau campagne avec Drafts & Experiments.

Combien de titres une RSA doit-elle avoir pour bien tester ?

Une RSA avec moins de 8-10 titres ne tire pas parti de l’algorithme de Google. Le maximum est de 15 titres et 4 descriptions. Commencer avec 10-12 titres variés (prix, urgence, bénéfice, preuve sociale, garantie) et 3-4 descriptions est le point d’équilibre entre couverture et maintenance. Au-delà de 15, il n’y a pas d’option technique.

Quel budget faut-il pour des tests RSA fiables ?

Il faut du volume de conversions, pas du budget. Comme référence, un compte avec 100 conversions/mois peut tester des changements larges (plus de 25 % de différence) en 4-6 semaines. Pour détecter des changements faibles (moins de 10 %), il faut des comptes avec plusieurs milliers de conversions mensuelles. En dessous de 50 conversions/mois, presque tout test sera non concluant. Si vous voulez dimensionner l’investissement total (gestion + média), j’ai écrit un guide sur combien coûte un consultant Google Ads en 2026.

L’Ad Strength sert-il comme métrique de testing ?

Pas pour valider des tests, oui pour auditer la configuration. L’Ad Strength vous alerte si vous manquez de titres, si vos descriptions sont courtes ou si vous répétez des mots-clés. Il ne prédit pas quelle annonce convertira mieux. Comme métrique de succès d’un test, il est trompeur.

Faut-il pinner les titres ?

Par défaut non. Le pinning réduit les combinaisons que Google peut générer, ce qui limite l’optimisation de l’algorithme. Le pinning a du sens quand il faut garantir des messages de marque ou respecter des contraintes légales (ex : mentions obligatoires). Pour tout le reste, une liberté totale donnée à l’algorithme donne une meilleure performance moyenne.

Que faire d’un test qui ne montre pas de différence statistique après 6 semaines ?

Cela signifie que les deux versions performent de façon similaire. C’est une information utile : n’investissez pas plus de temps à optimiser le copy à ce niveau et déplacez votre attention vers un autre levier (audiences, enchères, landing page). Un test non concluant n’est pas un test raté.

Sources

Google Ads Help. About responsive search ads. https://support.google.com/google-ads/answer/7684791. 2025.
Google Ads Help. About expanded text ads (sunset 30 juin 2022). https://support.google.com/google-ads/answer/7056544. 2022.
Optmyzr. Google RSA performance study : does Ad Strength predict success ? https://www.optmyzr.com/blog/google-rsa-performance-study/. 2024.
Google Ads Help. About the Experiments page (formerly drafts and experiments). https://support.google.com/google-ads/answer/10682377. 2025.
WordStream. Responsive Search Ads best practices guide. https://www.wordstream.com/blog/responsive-search-ads. 2025.

Vous voulez un deuxième avis sur la structure de tests de votre compte ? Je propose des audits initiaux gratuits en tant que consultant Google Ads freelance — 30 minutes en visio, sans engagement. On revoit ensemble quels tests ont du sens pour votre volume et quelles métriques suivre.