Data driven attribution a pozostałe modele atrybucji – który model atrybucji jest najlepszy?

Łukasz Piątek, Oskar Maciejek
Data Architect
Analiza danych
Nov 21, 2019

Atrybucja (łac. attributio; ang. attribution) pojęcie występujące w wielu znaczeniach. Najczęściej atrybucja polega na przypisywaniu czegoś komuś/czemuś, a także oznacza wnioskowanie, wyjaśnianie czyichś zachowań. W psychologii mianem atrybucji określa się rozpoznawanie przez ludzi postaw, zjawisk i sytuacji występujących wokół nich. W tym ostatnim znaczeniu pojęcie atrybucji wprowadził w 1958 roku Fritz Heider (1896–1988), amerykański psycholog austriackiego pochodzenia.
 
Atrybucja w działaniach marketingowych pozwala na przypisanie odpowiedniej wartości wybranym metrykom. W marketingu internetowym metryki odnoszą się do wszelkich danych zbieranych, np. przez sklep internetowy podczas odwiedzin klientów, a także do źródeł odwiedzin danej strony. Można wskazać ruch bezpośredni (np. podczas wpisywania przez klienta nazwy określonej domeny bezpośrednio w przeglądarce), ruch organiczny wywodzący się z wyszukiwarki, ruch pochodzący z mediów społecznościowych, ruch z linków (np. podczas jednoczesnego odwiedzania przez klienta zarówno określonej strony internetowej, jak i klikania w linki znajdujące się na innych stronach), płatny ruch (np. podczas kampanii reklamowych Google Ads).
 
Metryki są zatem narzędziem zwiększającym ruch na stronie. Jednak, aby działania te przynosiły faktyczne korzyści trzeba uważnie przeanalizować dane i podjąć stosowne czynności zwiększające sprzedaż.
 
Z każdym rokiem zainteresowanie zjawiskiem atrybucji w działaniach marketingowych staje się coraz większe. Świadczą o tym liczne prezentacje czy wpisy na blogach. W niniejszym artykule zajmiemy się omówieniem najbardziej popularnych modeli atrybucji w kontekście możliwości i narzędzia Google Analytics.
 
Modele atrybucji stanowią regułę lub zbiór reguł określających sposób przypisywania sprzedaży i konwersji (czyli działania odbiorcy – potencjalnego klienta w odpowiedzi na dedykowaną mu kampanię reklamową zamieszczoną w sieci lub inicjatywy przypisane do SEO) do kliknięć, czyli punktów styczności.
 
Do popularnych modeli atrybucji można zaliczyć: model ostatniego i pierwszego kliknięcia, model liniowy, model rozkład czasu, a także model bazujący na pozycji. W erze rozwoju technologii oraz wzrastającej popularności coraz bardziej złożonych ścieżek zakupowych użytkowników pojawiły się bardziej zaawansowane modele oparte na danych (ang. data driven), np.: Data Driven Google Ads, DoubleClick Search, Google Analytics Premium (model Shapley’a). Obecnie bardzo znanym modelem złożonym stały się również model Markowa mający zastosowanie interdyscyplinarne.
 

MODEL ATRYBUCJI OSTATNIEGO KLIKNIĘCIA (ang. last click attribiution model)

Img

Z naszych obserwacji wynika, że najbardziej popularnym modelem jest model atrybucji ostatniego kliknięcia, który przypisuje wartość (przychód, pozyskane kontakty) do ostatniej interakcji użytkownika (kampania, źródło/medium). Przyczyną popularności tego modelu może być jego nieskomplikowana natura, ponieważ stanowi najprostsze narzędzie w zrozumieniu oraz mierzeniu.
 
Zalety atrybucji modelu ostatniego kliknięcia
Do pewnego etapu rozwoju działalności biznesowej ten model wydaje się być wystarczający. Pozytywnymi cechami modelu atrybucji ostatniego kliknięcia są: nastawienie na wynik, nieskomplikowane zasady działania oraz dostępność mierzenia (np. system Google Analytics).
 
Wady modelu atrybucji ostatniego kliknięcia
Model atrybucji ostatniego kliknięcia może nie być w pełni miarodajny dla firm rozwijających się, które stosują wiele możliwości sprowadzania ruchu do swojego ekosystemu internetowego. Model ten nie odzwierciedla możliwego przenikania się kanałów, a tym samym utrudnia analizę, a także nadanie wartości każdemu z działań. W dalszej konsekwencji ta sytuacja może utrudniać wejście na wyższy poziom wyników biznesowych. Trzeba sobie uświadomić, że model ostatniego kliknięcia atrybucji w dużym stopniu opiera się na wynikach po kliknięciu oraz optymalizacji kosztów. Dlatego też w rozwijającej się firmie wyłączne bazowanie na tym sposobie reguł określających przypisywanie sprzedaży i konwersji może okazać się działaniem nierozważnym i krótkowzrocznym.
 

MODEL ATRYBUCJI PIERWSZEGO KLIKNIĘCIA (ang. first click attribiuton model)

Img

 
Model atrybucji pierwszego kliknięcia przypisuje 100 procent wartości do kanału (np. źródła ruchu), który pierwszy wystąpił na ścieżce do wygenerowania wartości (przychodu, konwersji), pomijając ostatnią interakcję (ostatnie kliknięcie), a także interakcję pomiędzy zapoczątkowaniem ścieżki użytkownika oraz ostatnią interakcją.
 
Zalety modelu atrybucji pierwszego kliknięcia
Model atrybucji pierwszego kliknięcia może okazać się korzystny podczas poszukiwaniu kanałów marketingowych, które są bardziej wartościowe pod kątem akwizycji (skalowania projektu, poszukiwania nowych klientów).
 
Wady modelu atrybucji pierwszego kliknięcia
Model pierwszego kliknięcia atrybucji nie uwzględnia dalszej ścieżki użytkownika oraz najbardziej popularnego modelu ostatniego kliknięcia (ang. last click), czyli kanałów znajdujących się na końcu procesu sprzedaży. Dlatego też specjaliści marketingu mogą mieć problem z uzasadnieniem wyników bazujących wyłącznie na atrybucji pierwszego kliknięcia (ang. first click).
 

LINIOWY MODEL ATRYBUCJI (ang. linear attribiution model)

Img

 
Liniowy model atrybucji charakteryzuje się tym, że każdy punkt styczności na ścieżce konwersji ma taki sam udział w wyniku sprzedaży.
 
Zalety liniowego modelu atrybucji
Niewątpliwą korzyścią wynikającą z modelu liniowego atrybucji jest optymalizacja budżetów reklamowych na całej ścieżce zakupowej użytkownika, a nie tylko na jednym styku. Ten model atrybucji przydziela taki sam udział wartości konwersji wszystkim ścieżkom, z którymi klient miał do czynienia przed dokonaniem zakupu.
 
Wady liniowego modelu atrybucji
Z racji tego, że liniowy model atrybucji przypisuje taki sam udział wartości konwersji wszystkim kanałom, pojawia się ryzyko, że w ten sam sposób są traktowane zarówno wartościowe, jak i nieznaczące kanały. Ta sytuacja może prowadzić do zafałszowania analizy
i niedoceniania najważniejszych punktów styku.
 

MODEL ATRYBUCJI OPARTY NA POZYCJI (ang. position-based attribiution model)

Img

 
Model atrybucji oparty na pozycji uwzględnia całą ścieżkę konwersji, przypisując największy udział w jej tworzeniu pierwszemu i ostatniemu źródłu odwiedzin użytkownika.
 
Zalety modelu atrybucji opartego na pozycji
Niewątpliwą korzyścią tego modelu jest docenienie pierwszych i ostatnich punktów styku, a nie wyłącznie jednego punktu styku. Jest to szczególnie pomocne w działaniach promocyjnych, w których wykorzystuje się remarketing. Dzieje się tak dlatego, że pierwszy punkt styku z potencjalnym klientem pozwoli zdobyć informacje, w jakich miejscach powinno się szukać nowych użytkowników. Z kolei ostatni punkt styku informuje, gdzie należy zwiększyć widoczność danej reklamy, aby akwizycję przełożyć na sukces.
 
Wady modelu atrybucji opartego na pozycji
Pierwsza oraz ostatnia interakcja jest wartościowana po równo. Nie każdy kanał może kończyć sprzedaż, a także inicjować ją w tym samym stopniu.
 

MODEL ATRYBUCJI ROZKŁADU CZASOWEGO (ang. time decay attribiution model)

Img

 
Model atrybucji rozkładu czasowego przypisuje największą wartość najbliższemu punktowi konwersji. Im dalej znajduje się punkt styku, tym jego wartość maleje (zgodnie z oddalaniem się od miejsca konwersji). Kolejne punkty mają przypisywane mniejsze wartości zgodnie z oddalaniem się od dokonania konwersji. Model rozkładu czasowego można wykorzystać w kampaniach reklamowych bazujących na rozmaitych kanałach promocji.
 
Zalety modelu atrybucji rozkładu czasowego
Ten model może stanowić alternatywę dla modelu atrybucji ostatniego kliknięcia, ponieważ uwzględnia całą ścieżkę, a także przypisuje dużą wartość do ostatniego kliknięcia. Zaletą modelu jest nastawienie na wynik oraz nieskomplikowane zasady działania, podobnie jak w przypadku modelu ostatniego kliknięcia.
 
Wady modelu atrybucji rozkładu czasowego
Ryzykiem wynikającym z modelu atrybucji rozkładu czasowego jest marginalizacja wartości styków inicjujących ścieżkę. Trzeba uwzględnić tę sytuację w przypadku potrzeby skalowania biznesu oraz analizy kanałów inicjujących sprzedaż.
 

ZARZĄDZANIE PROJEKTEM, KAMIENIE MILOWE (ang. milestones)

Warto sobie uzmysłowić, że kamienie milowe pozwalają na koordynację i kontrolę projektu.
W kontekście atrybucji pojawiają się dwa kluczowe etapy, czyli kamienie milowe. Ich realizacja wiąże się z odpowiedzią na następujące pytania:
W jaki sposób można przełamać ograniczenia technologiczne oraz narzędziowe?
Który model atrybucji należy wybrać? Jaki model atrybucji jest najlepszy i najbardziej skuteczny?
 

ATRYBUCJA DOSTĘPNA W NARZĘDZIU GOOGLE ANALYTICS

Raport konwersji Google Analytics – najważniejsze ścieżki konwersji

Img

 
Niniejszy raport o charakterze obrazowym przedstawia ścieżki użytkownika prowadzące do zakupu. To daje możliwość określenia, które kanały najczęściej wpływały na zwiększenie sprzedaży. Tymi kanałami są: wejścia organiczne, wejścia bezpośrednie oraz wejścia płatne z wyszukiwarek. Trzeba sobie uświadomić, że racji obrazowego charakteru powyższego zestawienia, nie znajdziemy w nim zgrupowania ścieżek oraz wartości (np. w postaci przychodu dla grupy ścieżek).
 

WARTOŚĆ PRZYCHODU NA ŚCIEŻKĘ A ATRYBUCJA - RAPORT KONWERSJI GOOGLE ANALYTICS – PORÓWNANIE MODELI ATRYBUCJI

  MODEL ATRYBUCJI OSTATNIEGO KLIKNIĘCIA (ang. last click attribiution model)

Img

 
MODEL ATRYBUCJI PIERWSZEGO KLIKNIĘCIA (ang. first click attribiuton model)

Img

 
W popularnym narzędziu możemy porównać niektóre z modeli atrybucji (model atrybucji ostatniego kliknięcia, model atrybucji pierwszego kliknięcia, linearny model atrybucji, model atrybucji rozkładu czasowego, model atrybucji oparty na pozycji). Taka sytuacja jest dowodem na to, że dane o atrybucji nie wymagają ponoszenia wysokich nakładów finansowych zarówno pod względem technologicznym, jak i w zakresie wykorzystania dedykowanych narzędzi.
 

KTÓRY Z MODELI ATRYBUCJI JEST NAJLEPSZY W KONTEKŚCIE CAŁEJ ŚCIEŻKI?

Warto sobie uświadomić, że istnieje wiele modeli atrybucji. Dlatego też podjęcie decyzji o tym, który z nich jest najlepszy, stanowi nie lada wyzwanie. Jednak odpowiedź na to pytanie jest prosta. Żaden model nie jest optymalny i najlepsze wyniki daje wzajemne porównanie modeli atrybucji ze sobą.
Zagadnienie to zostanie omówione na poniższym przykładzie, w którym dokonamy porównania bezpłatnego ruchu z wyszukiwarek (ang. direct), a także ruch płatny z wejść bezpośrednich (ang. paid search).

Img

 
Kanał wejść bezpośrednich w atrybucji pierwszego kliknięcia wytworzył ponad 378 tysięcy mniej wejść na rzecz atrybucji ostatniego kliknięcia. Może to oznaczać, że kanał wejść bezpośrednich skutecznie kończy proces sprzedaży, lecz inne kanały miały w tym udział. Natomiast kanał płatnej wyszukiwarki miał większą wagę pod kątem generowania popytu. Jest działaniem wspierającym akwizycję, ponieważ w atrybucji pierwszego kliknięcia generuje o 109 tysięcy więcej, niż w przypadku atrybucji ostatniego kliknięcia.
 
Moduł Google Analytics pozwala zebrać bardzo wartościowe dane częściowo rozwiązujące oba kamienie milowe (czyli dostęp do narzędzia atrybucyjnego), a także problem wyboru modelu atrybucyjnego. Trzeba sobie jednak uświadomić, że bezpłatna wersja Google Analytics posiada kilka minusów. Wśród nich należy wskazać:

  • niewygodną formę do porównania danych – w celu przedstawienia powyższego porównania na przychodzie pojawiła się konieczność przepisania danych do arkusza kalkulacyjnego, a także wykonania obliczenia;
  • brak złożonych modeli atrybucji: modelu opartego na danych, model Markowa oraz model Shapley’a
  • brak możliwości atrybucji na danych znajdujących poza siecią (dane z CRM, dane biznesowe); wersja Google Analytics Premium, którą opisano w raporcie przedstawionym powyżej, zawiera dodatkową atrybucję odnoszącą się do modelu Shapley’a; trzeba mieć jednak na uwadze, że wersja narzędzia jest płatna, a tym samym bariera wejścia ze względu na koszt staje się dość wysoka; narzędzie są udostępniane przez wybranych pośredników w sprzedaży (ang. reseller), którzy oferują również wdrożenie pracownika do nowych obowiązków, w taki sposób, aby jak najszybciej rozpoczął efektywną pracę (ang. onboarding) w zakresie efektywnego wykorzystania Analytics Premium (ang. streaming).
     

ATRYBUCJA ŚCIEŻKI W ODNIESIENIU DO ENHANCED ECOMMERCE (CZYLI ULEPSZONEJ WERSJI E-COMMERCE) I INNYCH ZDARZEŃ (MODELU ATRYBUCJI OPARTEGO NA ŚCIEŻCE, CZYLI FUNNEL BASED ATTRIBUTION MODEL)

W tradycyjnych modelach atrybucyjnych skupiamy się na dwóch następujących kwestiach:

  • konwersji (analizowanej w niniejszym tekście)
  • kolejności źródeł ruchu użytkowników trafiających na daną stronę internetową przed dokonaniem konwersji
     
    Warto podkreślić, że żaden z tych modeli atrybucji nie uwzględnia interakcji potencjalnego klienta z daną stroną internetową w trakcie jego źródeł ruchu w taki sposób, aby ocenić ich jakość i wkład w realizację danej transakcji.
    Analiza poniższego schematu pozwoli zauważyć, że każde źródło ruchu odgrywa inną rolę na ścieżce użytkownika.

Img

 

  • Źródło A (etap świadomości) – rozpoczyna przygodę użytkownika ze stroną internetową, ale w żaden sposób nie prowadzi do zakupu, gdyż niemal natychmiast klient opuszcza witrynę. Rolą źródła, które wygenerowało wyjście ze strony jest jedynie budowanie świadomości użytkownika na temat istnienia danej firmy lub produktu.
  • Źródło B (etap rozważania) – znajduje się na środku ścieżki, wzbudzając u użytkownika zainteresowanie daną firmą lub produktem na skutek przeglądania przez niego katalogu ofert/artykułów.
  • Źródło C (etap decyzji/konwersji) – znajduje się na końcu ścieżki użytkownika, wiąże się z dodaniem produktu do koszyka, a także z dokonaniem zakupu.
     
    W związku z tym rodzi się pytanie: Czy informacja o kolejności pojawiania się poszczególnych źródeł ruchu użytkownika/klienta stanowi wystarczającą informację
    do przypisania konwersji odpowiedniej wartości?

     
    Rozwiązaniem dla osób uważających, że każde źródło ruchu powinno mieć przypisaną indywidualną wartość konwersji w zależności od zdarzeń, jakie użytkownik wykonał dzięki nim, jest model atrybucji oparty na ścieżce. Model ten uwzględnia więcej informacji niż wynika z faktu odwiedzin klienta i dokonania konwersji. Atrybucja ścieżki użytkownika ma na względzie konkretne zdarzenia, które wykonuje użytkownik podczas przejścia przez całą ścieżkę zakupową.
     
    Przykładowa ścieżka zakupowa w sklepie internetowym wygląda następująco (wykres):
  • wejście użytkownika/klienta na stronę internetową
  • zapoznanie się użytkownika z kategoriami produktowymi na danej stronie lub + skorzystanie z wyszukiwarki do tego celu
    odwiedzenie przez użytkownika strony internetowej konkretnego produktu
  • dodanie produkt do koszyka
  • dokonanie zakupu przez użytkownika/klienta
     
    Na podstawie powyższej ścieżki zakupowej są realizowane następujące kroki:
  • Do poszczególnych kroków/zdarzeń, które użytkownicy wykonywali na ścieżce zakupowej są przypisywane wagi, czyli system punktacji (ang. scoring). Jeżeli dane źródło/medium jako pierwsze wprowadziło na ścieżce do danego zdarzenia, wówczas przypisuje się mu odpowiednią wartość konwersji na podstawie wcześniej ustalonego systemu punktowania.
  • Przychody są atrybuowane według przypisanych wag, czyli systemu punktacji poszczególnych zdarzeń i sumowane do źródeł ruchu lub innych wymiarów.
     
    Jakie są niezbędne elementy do wykonania tego modelu atrybucji?
    Data Warehouse (oprogramowanie bazy danych) – własny zbiór danych umieszczony w jednym ekosystemie (np. Google Cloud Big Query czy bazy danych Google Analytics Premium). Z racji tego, że każdy użytkownik/klient przechodzi własną ścieżkę zakupową, proces opracowywania danych jest niezwykle złożony i zróżnicowany, a nade wszystko indywidualny i zależny od charakteru projektu. Stąd też rodzi się potrzeba stworzenia bazy danych pozwalającej na łatwą migrację danych oraz dokonywanie operacji na na bazie pod własne potrzeby.
     
    Co jeszcze warto uwzględnić w tym modelu atrybucji?
     
  1. Cele niestandardowe – posiadanie bazy danych umożliwia pisanie zaawansowanych zapytań SQL, a tym samym pozwala na tworzenie nieograniczonej liczby własnych celów i segmentów wykonanych przez użytkowników.
    Poniżej zamieszczono przykładowe cele.
  • Cel modelu atrybucji: zaangażowani użytkownicy przebywający na stronie internetowej w określonym czasie, którzy wygenerowali określoną ilość odsłon serwisu oraz weszli z mobile.

Img

  • Cel modelu atrybucji: użytkownicy przeglądający na stronie internetowej produkty kosztujące powyżej 1000 zł

Img

Warto sobie uświadomić, jak ważne jest stworzenie zintegrowanego modelu atrybucji łączącego dane online i offline, który stanowiłby pomost między działaniami marketingowymi i zakupami poza siecią z danymi zawartymi w internecie.

  1. Dane w sieci (online) – warto uwzględnić integrację posiadanej bazy danych z danymi dostępnymi w sieci, z wydatkami marketingowymi w różnych systemach. Pliki danych Google Analytics dostarczają wyłącznie informacje o kosztach Google Ads. Dlatego nie lada wyzwanie dla analityków stanowi integracja kosztów z systemów do afiliacji, nakłady finansowe na reklamę zamieszczoną na portalu Facebook, a także koszty pozycjonowania strony i wielu innych.
  2. Dane spoza sieci (offline) – ostatnim ważnym elementem służącym do analizy atrybucji są dane offline, czyli dane biznesowe realizowane po dokonaniu transakcji na stronie,
    np.: zwroty produktów w sklepie internetowym, status zamówienia z systemu do obsługi klienta pozostawiającego e-mail do kontaktu, status po rozmowie z konsultantem na infolinii.

REZULTATY

Poniżej zamieszczono analizę rezultatów zastosowania w praktyce modelu atrybucji opartego na ścieżce na przykładzie sklepu internetowego.

Img

Dane zaprezentowane w tabeli zawierają błędy wdrożenia i konfiguracji Google Analytics. Z zestawienia nie została również wykluczona domena szybkich płatności (https://platnosci.bm.pl/), która odkłada się na ścieżce jako nowe źródło ruchu, zatracając właściwe źródło. Warto przyjrzeć się temu, w jaki sposób poszczególne modele atrybucji radzą sobie z takim błędem.
 
Z pomocą przychodzi atrybucja i jej modele, które na podstawie danych z analizy ruchu na danej stronie internetowej w logiczny sposób przyporządkują transakcje odpowiednim źródłom (w tym wypadku informują o tym, że źródło/medium nie początkowało wygenerowania przychodu). Godne podkreślenia jest to, że podstawowe modele w Google Analytics są dostępne w wersji darmowej. Jednak dla lepszego zobrazowania i porównania zjawiska uwzględniono model atrybucji pierwszego kliknięcia, który najlepiej poradził sobie z wykryciem błędu. Jest to uzasadnione, ponieważ ruch gubi się w trakcie i powstaje nowe źródło/medium.
 

MODEL ATRYBUCJI MARKOWA

Ten model wykrył problem, lecz kanał w niewielkim stopniu został zmarginalizowany. Model Markowa pokazuje ponad 20 procent mniej przychodu. Dlatego z analizy tego modelu wynika, że nie jest on właściwym narzędziem do wykrycia anomalii opisanej powyżej.
 

MODEL ATRYBUCJI OPARTY NA ŚCIEŻCE

Na czym polega model, zaprezentowaliśmy w poniższym video.

https://www.youtube.com/watch?v=P6UG134fBjc

Model wykrył problem błędnego wdrożenia i zmarginalizował kanał, przypisując mu minimalną wartość przychodu. Na podstawie analizy ścieżki zakupu oraz granularnych zdarzeń zachodzących na niej wynika, że ten model doskonale radzi sobie z wykryciem anomalii w danych. Okazuje się bowiem, że żadne poprzednie zdarzenia nie były związane z danym źródłem ruchu. Tym samym potwierdza to anomalię i błąd w danych, gdyż w praktyce taka sytuacja występuje niezwykle rzadko.
 

Jakich narzędzi użyto w odpowiedzi na wyzwania i kamienie milowe?
Integracja danych, dostarczenie bazy danych, ścieżka użytkownika, niestandardowe cele (ang. custom goals) i zdarzenia oraz sam model atrybucji zostały opracowane za pomocą narzędzia WitCloud, które pozwala na integrację danych w systemie Google Cloud i zapewnia zautomatyzowany system atrybucji oparty na BigQuery. Narzędzie WitCloud jest przeznaczone dla podmiotów i osób nieposiadających zasobów programistycznych w języku R lub niebędących w posiadaniu odpowiedniej bazy danych.


Rate article

Rates: 0 Avarage rate: 0