Firmy na całym świecie wydają setki milionów dolarów rocznie na śledzenie widoczności marek w odpowiedziach AI. Problem w tym, że nikt dotąd nie sprawdził, czy te odpowiedzi są na tyle spójne, by w ogóle dało się je sensownie mierzyć. Zrobił to dopiero Rand Fishkin ze SparkToro — i wyniki są wyjątkowo wymowne.
Skąd wzięło się to badanie?
Fishkin od dawna był sceptyczny wobec narzędzi do „śledzenia rankingów AI”. Postanowił sprawdzić, czy mają w ogóle rację bytu. We współpracy z Patrickiem O’Donnellem z Gumshoe.ai zebrał 600 wolontariuszy, którzy przez dwa miesiące — listopad i grudzień 2025 — zadawali te same pytania w ChatGPT, Claude i Google AI (w trybie AI Overview lub AI Mode). Łącznie wykonano 2 961 zapytań przy użyciu 12 różnych promptów. Pytania dotyczyły m.in. noży kuchennych, słuchawek, szpitali onkologicznych, konsultantów digital marketingu i powieści science fiction. Każdy prompt był powtarzany od 60 do 100 razy na każdej platformie.
Wyniki? Prawie każda odpowiedź była unikalna
AI zwracała za każdym razem inne listy pod trzema względami jednocześnie: inny zestaw marek, inna kolejność i inna liczba pozycji na liście (czasem 2–3, czasem ponad 10). Matematycznie wygląda to tak: szansa na to, że ChatGPT lub Google AI zwróci identyczną listę marek dwa razy z rzędu, wynosi mniej niż 1 na 100. Szansa na tę samą listę w tej samej kolejności — mniej niż 1 na 1000. Claude był minimalnie bardziej konsekwentny w doborze marek, ale jeszcze mniej przewidywalny pod względem kolejności.
To nie jest błąd. To konstrukcja. Modele językowe są silnikami probabilistycznymi — generują nowe odpowiedzi za każdym razem, zamiast serwować zapamiętane zestawienia. Traktowanie ich jako wiarygodnego, powtarzalnego rankingu mija się z tym, jak te narzędzia faktycznie działają.
A co z prompts od prawdziwych użytkowników?
Fishkin poszedł o krok dalej i sprawdził, jak różnorodne są pytania, które realni użytkownicy wpisują do AI — nawet gdy mają na myśli dokładnie to samo. 142 osoby zostały poproszone o wpisanie własnego pytania o najlepsze słuchawki do podróży dla członka rodziny. Wynik: praktycznie żadne dwa pytania nie były do siebie podobne. Wskaźnik podobieństwa semantycznego wyniósł zaledwie 0,081 — dla porównania, Fishkin opisuje to jako różnicę między przepisem na kurczaka kung pao a masłem orzechowym. Coś wspólnego jest, ale tylko na poziomie najogólniejszej kategorii.
To rodzi kolejny problem dla branży AI trackingu: nawet gdyby AI odpowiadało spójnie na identyczne pytania, to realnych użytkowników nikt nie pyta tymi samymi słowami.
Czy w tym wszystkim jest cokolwiek mierzalnego?
Tutaj badanie przynosi zaskakujący wniosek — Fishkin przyznaje, że jego wyjściowa hipoteza była w połowie błędna. Choć pozycja w rankingu AI jest praktycznie bezwartościowa jako metryka, to częstotliwość pojawiania się marki w odpowiedziach (tzw. visibility %) może być sensownym wskaźnikiem — pod warunkiem że zbierze się wystarczająco dużo danych.
Przykład z badania: szpital City of Hope w Los Angeles pojawił się w 69 na 71 odpowiedzi ChatGPT na pytanie o najlepsze szpitale onkologiczne na Zachodnim Wybrzeżu USA — czyli w 97% przypadków. Jednocześnie był wymieniony jako pierwszy tylko w 25 z tych odpowiedzi. Pozycja: bezużyteczna. Obecność: bardzo wymowna.
Podobnie z pytaniami o słuchawki — pomimo radykalnie różnych sformułowań od 142 różnych użytkowników, marki takie jak Bose, Sony, Sennheiser i Apple pojawiały się w 55–77% ze wszystkich 994 wygenerowanych odpowiedzi. Wyniki dla promptów syntetycznych (tworzonych przez AI) i pisanych przez ludzi były zbliżone — co sugeruje, że visibility % może być realnym wskaźnikiem.
Co z tego wynika dla marketerów?
Kilka wniosków praktycznych, które Fishkin wyciąga z badania:
Śledzenie „pozycji w rankingu AI” jest marketingowym bełkotem. Każde narzędzie, które sprzedaje tę metrykę, dostarcza losowych danych pozbawionych wartości prognostycznej.
Visibility % — czyli jak często marka pojawia się w odpowiedziach AI przy danym pytaniu — to wskaźnik wart uwagi, ale tylko jeśli jest liczony na dużej próbie (minimum kilkadziesiąt powtórzeń tego samego promptu).
Szerokość kategorii ma znaczenie. W wąskich niszach (np. kilkanaście dilerów Volvo w Los Angeles, dostawcy chmury dla startupów SaaS) AI jest bardziej przewidywalne. W szerokich (powieści SF, agencje brandingowe) — wyniki są znacznie bardziej rozproszone.
Użytkownicy piszą do AI zupełnie inaczej niż wpisują hasła w Google. Nie można traktować trackingu AI tak jak monitorowania pozycji w wyszukiwarce.
Na koniec
Badanie SparkToro (pełna wersja dostępna na sparktoro.com) nie jest wyrokiem na cały sektor AI visibility. Jest jednak wyraźnym sygnałem, że branża musi zmienić podejście do tego, co i jak mierzy. Jeśli twoja agencja lub dostawca narzędzi raportuje „ranking w AI” bez pokazania metodologii i liczby powtórzeń — masz prawo pytać, co tak naprawdę mierzą.
W Media Click przyglądamy się tym zmianom na bieżąco, bo to bezpośrednio wpływa na strategie GEO i budowania widoczności marki w erze wyszukiwania generatywnego. Jeśli chcesz wiedzieć, jak to przekłada się na twoją branżę — porozmawiajmy.