Dobór próby jest to proces obejmujący zdefiniowanie badanej zbiorowości, określenie operatu losowania, ustalenie liczebności próby, wybór metody doboru próby oraz pobranie próby z określonego planu. Metoda doboru próby jest to sposób, w jaki elementy populacji badanej są dobierane z tej populacji. W procesie doboru próby wykorzystuje się wykazy, czyli operat populacji badanej, który jest zbiorem elementów tej populacji odwzorowany na określonej liście, z której dobiera się próbę. Metody doboru próby dzielą się zasadniczo na dwie grupy: metody doboru losowego – probabilistyczne oraz metody nielosowe – nieprobabilistyczne.
Reprezentatywną próbę jednostek populacji można otrzymać, stosując zarówno probabilistyczne (losowe), jak i nieprobabilistyczne (nielosowe) techniki wyboru próby. W zależności od przyjętej metodologii badawczej, BBM stosuje niżej wymienione techniki pobierania próby.
Metodu doboru losowego – probabilistyczne
Metody doboru losowego, to procedury oparte na mechanizmach losujących elementy do próby w taki sposób, aby każda jednostka populacji miała jednakową szansę dostania się do próby.
- dobór losowy prosty – jest najprostszym sposobem doboru próby badawczej. Polega on na bezpośrednim i nieograniczonym doborze jednostek badanych do próby statystycznej wprost z populacji generalnej i bez ograniczeń. Istnieją dwa rodzaje doboru losowego prostego: dobór losowy prosty niezależny, czyli ze zwarciem, oraz dobór losowy prosty zależny, czyli bez zwarcia. Wśród technik doboru losowego prostego stosuje się wiele sposobów bezpośredniego i nieograniczonego doboru. Klasycznym sposobem jest losowanie za pomocą urny. Polega ono na zastąpieniu poszczególnych jednostek badanych losami (numerami), które umieszcza się w odpowioedniej urnie, a następnie po dokonaniu wymieszania losuje się, z zachowaniem wszelkich reguł prawdopodobieństwa, odpowiednią liczbę losów niezbędną do badań. Próba tak dobrana ma wszelkie cechy próby reprezentacyjnej. Drugim sposobem doboru jednostek do próby jest losowanie za pomocą tablicy liczb losowych. Polega on na ponumerowaniu wszystkich jednostek populacji generalnej i odczytaniu w ustalonej kolejności liczb z tablic liczb losowych.
- dobór losowy systematyczny – należy również do typu losowania bezpośredniego, ale ograniczonego. Mianowicie, dobór ten jest ograniczony do jednostek z pewnego przedziału liczbowego. Metoda doboru losowego systematycznego polega na wyborze z uporządkowanego zbioru jednostek populacji – odpowiedniej liczby jednostek w równych odstępach (interwałach - k). Np. N=2000, n-200, K=N/n
- dobór losowy warstwowy – polega na podziale całej populacji generalnej na tzw. warstwy i dokonaniu bezpośredniego losowania niezależnych prób w obrębie każdej warstwy. Podział populacji na warstwy musi być przeprowadzony w taki sposób, aby każdy element wchodził tylko do jednej warstwy i znajdował się w któreś z nich. Same warstwy powinny być jednorodne i różnić się między sobą istotnie. Wyróżnia się trzy rodzaje doboru losowania warstwowego: dobór proporcjonalny, dobór nieproporcjonalny i dobór optymalny.
- dobór losowy grupowy (zespołowy) – losuje się bezpośrednio nie jednostki badawcze, lecz ich zespoły, a więc grupy tych jednostek, np. rodziny, klasy szkolne, zakłady pracy, dzielnice itp. Dobór próby w tym schemacie polega na wylosowaniu do próby pewnej liczby grup i badaniu wszystkich jednostek należących do tych grup. Istnieją dwa sposoby doboru losowego grupowego: dobór z jednakowymi prawdopodobieństwami wyboru oraz dobór z różnymi prawdopodobieństwami wyboru.
- dobór losowy wielostopniowy – jest metodą kolejnego losowania zespołów jednostek coraz to niższego stopnia, powstających z podziału zespołów wyższego stopnia. Najpierw wybiera się jednostki losowania pierwszego stopnia, składające się dużych zespołów jednostek badania. Następnie jednostki te dzieli się na mniejsze zespoły, zwane jednostkami losowania drugiego stopnia. Z kolei jednostki te dzieli się na jeszcze mniejsze zespoły, zwane jednostkami losowania trzeciego stopnia, aż w końcu dochodzi się do podstawowych jednostek badania.
- dobór losowy wielofazowy – jest metodą doboru prób losowych w kilku fazach, ale zawsze w obrębie tej samej kategorii jednostek. Dobór wielofazowy polega na wyborze w pierwszej fazie większej próby losowej, a w drugiej (lub dalszej) fazie – na wyborze z niej jednej lub więcej mniejszych prób losowych. Dobór losowy wielofazowy stosuje się w przypadku gdy uzyskanie informacji jest trudne (wywiad głębinowy) lub zbyt kosztowne (eksperyment rynkowy), skutkiem czego należy ograniczyć badania do stosunkowo niewielkiej i dobrze wyselekcjonowanej próby.
Metoda doboru nielosowego – nieprobabilistyczne
Metody doboru nielosowego, to takie techniki wyboru próby, w których nie stosuje się procedur losowania, lecz inne procedury, oparte przede wszystkim na subiektywnych decyzjach, opartych na znanych danych obiektywnych, odnoszących się do znajomości struktury badanej populacji.
- dobór kwotowy – w doborze próby możliwe jest określenie przez badacza, w sposób arbitralny, które z jednostek populacji generalnej znajdują się w próbie. Dobór kwotowy opiera się on na znajomości struktury populacji generalnej. Do próby dobiera się te elementy, które spełniają żądane cechy w taki sposób aby ich rozkład w próbie odpowiadał rozkładowi tych cech w populacji generalnej. Jest to jeden z najbardziej popularnych doborów próby w badaniach marketingowych.
- dobór jednostek typowych – należy do często stosowanych metod doboru nielosowego. Polega on na wyborze najbardziej typowych reprezentantów populacji generalnej przez przyjecie jednostek przeciętnych. Jednostki te przez swą „przeciętność” nie muszą być zbyt liczne.
- dobór przez eliminację – jest w pewnym sensie przeciwieństwem doboru jednostek typowych. Zamiast bowiem dobierać jednostki typowe – eliminuje się wszystkie jednostki nietypowe, odbiegające znacznie od przeciętnych.
- dobór celowy – jest najbardziej typowym przypadkiem doboru nielosowego. Polega on bowiem na całkowicie subiektywnym wyborze jednostek badanych do próby, w nadziei uzyskania najszerszych i najpełniejszych informacji.
- dobór przypadkowy – wbrew jego nazwie jest również doborem nielosowym. Polega on bowiem na przypadkowym (na „chybił – trafił”) doborze pewnych jednostek, które w danej (przypadkowej) sytuacji znalazły się w dogodnym zasięgu. Może to być np. wywiad na ulicy czy w sklepie w czasie przypadkowych sytuacji.
- dobór wygodny – technika doboru nielosowego, polegająca na wyborze osób badanych z grona bliskich krewnych bądź znajomych.
- dobór sieciowy – technika doboru nielosowego polegająca na wyborze respondentów spośród klientów określonej sieci usługowej, np. pacjentów gabinetu dentystycznego.
- dobór kuli śniegowej – dobór polegający na dotarciu do nielicznej grupy badanych, a następnie za ich pośrednictwem do kolejnych znanych im jednostek o podobnych cechach. W ten sposób następuje zwiększenie liczby jednostek w próbie aż do uzyskania zakładanej liczebności próby.
Wielkość próby badawczej
Jest to określenie liczebności próby, jak liczna ma być próba, aby na podstawie wyników jej pomiaru możliwe było wyciąganie wniosków o badanej populacji, wniosków charakteryzujących się określoną dokładnością i stopniem pewności. Ustalenie wielkości próby badawczej jest procedurą dość skomplikowaną i wymaga pewnej wiedzy z zakresu wnioskowania statystycznego i teorii próby losowej. Istnieją zasadniczo cztery sposoby określenia rozmiaru próby:
- Pierwsze podejście – polega na tym, że analityk może wybrać próbę albo arbitralnie, albo na podstawie własnych osądów.
- Drugi podejście – zdeterminowane analizami, charakteryzuje się tym , że rozmiar próby jest określony poprzez minimalne liczby potrzebnych obserwacji w tablicy kondygnacji.
- Trzeci podejście – budżet może ograniczyć rozmiar próby.
Wszystkie powyższe metody mimo że nie mają probabilistycznego podłoża, to jednak mogą być stosowane również w metodach o losowym doborze.
- Czwarte podejście – to ustalenie rozmiaru próby na podstawie określonego z góry poziomu precyzji.
Istnieją dwie klasy procedur dostępnych do szacowania rozmiaru próby. Pierwsza oparta jest na konstruowaniu przedziałów ufności wokół średniej próby lub proporcji próby. Ta klasa może być nazwana podejściem opartym na przedziałach ufności. Druga jest oparta na sprawdzaniu hipotez z uwzględnieniem zarówno błędu I rodzaju (odrzucenia prawdziwej hipotezy zerowej), jak i błędu II rodzaju (przyjęcie fałszywej hipotezy zerowej). Obydwie procedury zależą od przyjętego schematu losowania.
Czynniki określające wielkość próby
- Szacowany parametr populacji – oznacza, że liczebność próby może być różna w zależności od tego, jakiego parametru populacji dotyczy wnioskowanie statystyczne.
- Żądane kryterium wiarygodności lub precyzji wnioskowania, jakie parametry ma spełniać próba – np. postulat, aby błęd statystyczny uzyskanych wyników nie był wiekszy niż np. +/- 2%.
- Technika losowania próby – efektywność wnioskowania statystycznego, a więc także możliwości spełnienia przez próbę zadanych warunków precyzji, zależy od techniki jej losowania.
- Rozkład badanej cechy w populacji – dot. rozproszenia oraz koncentracji.
W wielu przypadkach prowadzenie badań marketingowych opiera się na założonych wielkościach prób badawczych. Jedną z praktycznych metod określenia liczebności próby jest podejście oparte o oczekiwaną szczegółowość klasyfikacji krzyżowej w analizie tabularycznej danych, która jest jedną z najbardziej popularnych form analizy danych empirycznych. Ostateczna wielkość próby uzależniona jest przede wszystkim od zakresu terytorialnego badania, rodzaju podmiotów uczestniczących w badaniu oraz liczby analizowanych podgrup (segmentów).
Przykładowe wielkości prób badawczych w zależności od typu tabulacji krzyżowej.
| Liczba analizowanych podgrup | Jednostki lub gospodarstwa domowe | Instytucje |
| Krajowe | Regionalne lub specjalne | Krajowe | Regionalne lub specjalne |
| Niewiele 1 - 9 | 1000 - 1500 | 200 - 500 | 200 - 500 | 50 - 200 |
| Przeciętnie 10 - 30 | 1500 - 2500 | 500 - 1000 | 500 - 1000 | 200 - 500 |
| Wiele powyżej 30 | 2500+ | 1000+ | 1000+ | 500+ |
Źródło: J.Bazarnik, T.Grabiński, E.Kąciak, S.Mynarski, A.Sagan, Badania Marketingowe. Metody i Oprogramowanie Komputerowe, Canadian Consortium of Management Schools, Akademia Ekonomiczna w Krakowie, Warszawa – Kraków 1992, str.16.
Uwaga: należy pamiętać, że uogólnianie wyników badań uzyskanych na próbach mniejszych niż 100 konsumentów lub gospodarstw domowych oraz mniejszych niż 50 przedsiębiorstw lub instytucji jest w zasadzie niemożliwe i wyniki takie należy traktować z największą ostrożnością. Zalecana minimalna liczebność próby badawczej powinna wynosić n = 200.
Pojęcia
Błędy w badaniach marketingowych: błędy losowe (sampling error) oraz błędy nielosowe (nonsampling error). Błędy losowe związane z procedurą losowania i polegają na występowaniu różnic pomiędzy uzyskaną wartością estymatora z próby a rzeczywistą wartością parametru populacji generalnej. Błędy nielosowe, które powstają w wyniku przeprowadzania badan ankietowych i zbierania oraz przetwarzania informacji. Wszystkie błędy nielosowe dzielą się na dwie grupy: błędy przypadkowe (random errors) i błędy systematyczne (biases). Błędy przypadkowe to takie błędy, które nie wzrastają wraz z powiększaniem się liczebności próby, a raczej zanikają, natomiast błędy systematyczne to takie błędy, które wzrastają wraz z wielkością próby: błąd specyfikacji populacji (population specification terror), błąd operacjonalizacji próby (sampling operations terror), błąd selekcji (selection terror), błąd operatu losowego (frame terror), błąd braku odpowiedzi (nonresponse terror), błąd pomiaru (measurement terror).
- Cechy statystyczne – jakościowe i ilościowe. Cechy jakościowe to takie, których warianty określa się za pomocą wyrażeń słownych, np. płeć (kobieta, mężczyzna). Cechy ilościowe to takie, których wariantami są liczby: np. dochód w zł.
- Estymator parametru charakteryzującego populację. Cechę można traktować jako zmienną losową, a wartości cechy poszczególnych elementów populacji – jako realizacje zmiennej losowej. Stąd też do charakterystyki populacji używamy wszystkich tych pojęć, które charakteryzują zmienną losową; możemy w szczególności określić rozkład populacji i parametry tego rozkładu. Wartości parametrów charakteryzujących populację można w przybliżeniu oszacować na podstawie próby. Tak otrzymaną wartość nazywamy estymatorem danego parametru. Jeden parametr może mieć wiele estymatorów. Estymatorem wartości oczekiwanej, na przykład, jest nie tylko średnia arytmetyczna, ale również modalna (wartość najczęstsza w próbie) czy też mediana. Wyróżnia się kilka kryteriów porównawczych z pośród których trzy są najważniejsze: Nieobciążoność – estymator t danego parametru q jest nieobciążony, jeżeli jego wartość oczekiwana jest równa wartości parametru w populacji. Zgodność – estymator nazywamy zgodnym, jeżeli wraz ze wzrostem liczebności próby wartość estymatora zbliża się dowolnie blisko do wartości parametru w populacji. Efektywność – miarą efektywności estymatora jest jego błąd standardowy. Mały błąd standardowy oznacza, że oceny parametru uzyskane z różnych prób (tej samej wielkości) będą bardzo skupione wokół wartości parametru w populacji. Estymator o najmniejszym błędzie standardowym nazywa się estymatorem najefektywniejszym. Najefektywniejszym estymatorem wartości średniej w populacji jest średnia arytmetyczna.
- Jednostka próby – jest to wielokrotność jednostek naturalnych tworzących populację badaną.
- Operat badanej populacji – nazywa się zbiór elementów tej populacji odwzorowany na określonej liście (wykaz), z której dobiera się próbę. Zasady sporządzania wykazu: odpowiedniość (odzwierciedla aktualny stan populacji), kompletność (wszystkie jednostki populacji), wyłączność (każda jednostka występuje tylko raz), dokładność (zawiera jednostki występujące lub należące do populacji), dogodność (ponumerowany i dostępny w jednym miejscu).
- Podmiot (element) próby – osoba biorąca udział w badaniu reprezentującym jednostkę próby.
- Populacja badana (generalna) – oznacza skończoną zbiorowość, o której badacz chce uzyskać określone dane. Na podstawie pomiaru próby formułuje się wnioski opisujące całą zbiorowość drogą tzw. wnioskowania statystycznego. Celem doboru próby jest więc opis badanej populacji na podstawie wyników pomiaru pobranej z niej próby.
- Próba badawcza – określana jako część populacji badanej poddana pomiarowi, w sytuacji gdy nie ma możliwości przeprowadzenia pomiaru na całej populacji.
- Reprezentatywność badań – zapewnia się poprzez odpowiedni dobór próby. Dobór ten opiera się na założeniu, że jeżeli niewielka liczba jednostek jest losowo wybrana z większej populacji, to tak wyodrębniona próba ma te same cechy, i w dodatku występuje w takich samych proporcjach, co populacja generalna. Jest zatem reprezentatywna dla całej populacji.
- Random route – metoda doboru respondenta inaczej "ustalona ścieżka"- poruszanie się po terenie wedle ustalonej zasady począwszy od podanego ankieterowi adresu startowego. Ankieter otrzymuje wybrany adres (punkt startowy - ang. start point) i rozpoczyna realizację badania, przeprowadzając kolejne wywiady w co n-tym mieszkaniu, od punktu startowego poczynając. Metoda ta zapewnia losowość doboru respondenta, co za tym idzie badanie na próbie reprezentatywnej. Stosowana jest w przypadku, gdy mamy do czynienia z: badaniem z próbą imienną – jako metoda doboru próby rezerwowej, w przypadku gdy konkretna, ustalona wcześniej osoba nie może zostać respondentem; badaniem z próbą losowo- kwotową – jako metoda dobru respondenta o określonych cechach; badaniem z próbą adresową – jako metoda doboru próby rezerwowej, gdy nie może dojść do wylosowania spośród członków wskazanego gospodarstwa osoby, która ma być respondentem lub gdy wylosowana osoba nie może zostać respondentem.
- Schemat losowania – sposób postępowania prowadzący do wyboru określonej próby. Klasyfikacja schematów losowania: losowanie niezależne i zależne, losowanie indywidualne i zespołowe, losowanie jednostopniowe i wielostopniowe, losowanie nieograniczone i ograniczone.
- Techniki losowania próby – tablice liczb losowych, generatory liczb losowych.
- Współczynnik ufności – przybierający w praktyce najczęściej jedną z trzech wartości: 0,9 (tj. 90%, t=1,64) lub 0,95 (tj. 95%, t=1,96) lub 0,99 (tj. 99%, t=2,58) wyraża stopień wiarygodności uzyskanej oceny. Informuje on o tym, z jakim prawdopodobieństwem przedział losowy, na którego podstawie uzyskano liczbowy szacunek parametru populacji, rzeczywiście zawiera ten nieznany parametr.