
'Eksperyment AI: Fikcyjna marka Xarumei i halucynacje modeli językowych'
Spis treści
Badacz marketingowy w Ahrefs stworzył całkowicie fikcyjną luksusową firmę z przyciskiem do papieru o nazwie Xarumei, zbudował swoją stronę internetową w godzinę wykorzystując AI i systematycznie testował, jak osiem głównych narzędzi. W ciągu dwóch miesięcy zasypał sieć trzema celowo sprzecznymi fałszywymi narracjami, a następnie zadał 56 starannie opracowanych pytań zaprojektowanych, aby ujawnić, jak modele AI odróżniają prawdę. Wyniki ujawniają niepokojące słabości w sposobie, w jaki AI radzi sobie z informacjami o marce, co ma głębokie implikacje.
Eksperyment
Eksperyment odbył się w dwóch fazach. Początkowo badacz testował podstawowe zachowania sztucznej inteligencji, zadając pytania dotyczące marki, która nie powinna istnieć – pytania zawierające fałszywe informacje dotyczące poparcia gwiazd, wadliwych produktów i wyprzedaży z okazji Czarnego Piątku, które nigdy nie miały miejsca.
ChatGPT-4 i ChatGPT-5 poradziły sobie najlepiej, prawidłowo odpowiadając na 53-54 z 56 pytań i w stosownych przypadkach stwierdzając „to nie istnieje”. Perplexity zawiodło w około 40% pytań, dziwacznie myląc Xarumei ze smartfonami Xiaomi. Claude całkowicie odmówił halucynacji, ale także nigdy nie korzystał z treści strony internetowej. Tryb AI Gemini i Google często odmawiali traktowania Xarumei jako prawdziwego, ponieważ nie mogli znaleźć tego w wynikach wyszukiwania. Najbardziej niepokojące, Microsoft Copilot wpadł w to, co badacz nazywa „pułapką sykofancji”, wymyślając misterne wyjaśnienia dotyczące rzemiosła, symboliki i niedoboru, kiedy zapytano, dlaczego wszyscy chwalą markę na X.
Faza druga: Kontrolowany chaos
Druga faza wprowadziła kontrolowany chaos: oficjalne FAQ wyraźnie zaprzeczające powszechnym plotkom („Nie produkujemy „precyzyjnego przycisku do papieru”, „Nigdy nas nie nabyto”), wraz z trzema celowo sprzecznymi. Blog błyszczący twierdził, że 23 mistrzów rzemieślników pracowało w 2847 Meridian Blvd w Nova City w Kalifornii, z poparciem celebrytów Emmy Stone i Reddit AMA – wybrana strategicznie, ponieważ badania pokazują, że jest to jedna z najczęściej cytowanych domen w odpowiedzi AI – założyciel Robert Martinez prowadził warsztaty w Seattle z 11 rzemieślnikami i opisał dramatyczną „36-godzinną usterkę cenową”, która rzekomo spadła do papieru o 36 000 USD do 199 USD. Średnie „dochodzenie” obaliło oczywiste kłamstwa, dzięki którym wydawało się wiarygodne, a następnie wsunęło się w nowe wymysły: wynaleziona założycielka Jennifer Lawson, magazyn w Portland.
Medium okazał się niszcząco skuteczny. Gemini, Grok, tryb AI, Perplexity i Copilot zaufali artykułowi Medium zamiast oficjalnego FAQ, z pewnością cytując Jennifer Lawson jako założycielkę i Portland jako lokalizację. Manipulacja zadziałała, bo wyglądała jak prawdziwe dziennikarstwo – obalając najpierw oczywiste kłamstwa, zyskała zaufanie, a następnie wpisała własne wymyślone szczegóły jako „poprawioną” historię.
Kiedy zmuszony do wyboru pomiędzy niejasną prawdą (najczęściej zadawane pytania „Nie publikujemy liczb jednostek”) a konkretną fikcją (fałszywe źródła twierdzące „634 jednostki w 2023 roku, 471 do sierpnia 2024”), AI niemal za każdym razem wybierała fikcję. Po podłożeniu fałszywych źródeł modele takie jak Gemini i Perplexity powtórzyły dezinformację w 37-39% swoich odpowiedzi. ChatGPT-4 i ChatGPT-5 pozostały poniżej 7%, wyraźnie powołując się na FAQ w 84% odpowiedzi i traktując „nie ujawniamy tego” jako twardą granicę.
AI kłóci się samo ze sobą
Być może najbardziej niepokojące było oglądanie modeli sprzeczujących się sobie przez pytania bez żadnego uznania. Na początku testów Gemini stwierdził, że nie mógł znaleźć dowodów na istnienie marki i zasugerował, że może być fikcyjna. Później, po spotkaniu z fałszywymi źródłami, ten sam model pewnie stwierdził: “Firma ma siedzibę w Portland w stanie Oregon, założona przez Jennifer Lawson, zatrudnia około 9 osób i produkuje około 600 sztuk rocznie.”
Duże modele językowe wydawały się nie pamiętać o kwestionowaniu istnienia marki, po prostu reagowanie na kontekst wydawał się w danym momencie najbardziej autorytatywny. W jednym przypadku Grok zsyntetyzował wiele fałszywych źródeł w jedną pewną odpowiedź, mieszając lokalizację Portland, obalione twierdzenia Nova City, konkretne rodzaje marmuru i numery produkcyjne w coś, co wydawało się być kompleksową weryfikacją faktów.
Rekomendacje
Rekomendacje badacza dotyczące marek są konkretne i pilne:
- Stwórz szczegółowe najczęściej zadawane pytania (FAQ), które wyraźnie określają, co jest prawdą i fałszem, zwłaszcza tam, gdzie istnieją plotki.
- Wypełnij każdą lukę informacyjną oficjalną treścią wystarczająco szczegółową, aby pokonać tłumaczy zewnętrznych.
- Zgłoś się do konkretnych superlatywów, a nie ogólnych „najlepsze do [specyficznego zastosowania]” (zamiast mglistych twierdzeń o byciu „wiodącym w branży”).
- Monitoruj wzmianki o marce w przypadku słów takich jak „badanie”, „głębokie nurkowanie”, „insider” i „kontrowersja”.
- Śledź, co różne modele AI mówią o Tobie.
Eksperyment pokazuje, że posty Reddit, artykuły Medium i odpowiedzi Quora nie są już opcjonalnymi kanałami bocznymi – AI wciąga je bezpośrednio do odpowiedzi, czyniąc je częścią podstawowej powierzchni marketingowej każdej marki.
Źródła
- Patrick Stox (Ahrefs): “I Created A Fake Luxury Brand To Test How AI Handles Truth” (ahrefs.com/blog/ai-test-fake-brand/) (Eksperyment oryginalny).
- Marius Comper (Facebook): Post z analizą eksperymentu.
- Search Engine Journal: Analiza wpływu LLM na reputację marki (Brand Entities).
- Własne obserwacje: Testy przeprowadzone na modelach GPT-4, Claude 3.5 Sonnet oraz Gemini Advanced (Grudzień 2025).