Dodatek B: Zbiór danych populacji syntetycznej

Kilka podejść dostosowawczych zastosowanych w tym badaniu wymaga zbioru danych, który jest wysoce reprezentatywny dla dorosłej populacji USA. Ten zbiór danych zasadniczo służy jako odniesienie do uczynienia ankiety (np. Próbki online opt-in) bardziej reprezentatywną. Wybierając zbiór danych dotyczących populacji, badacze zwykle korzystają z dużego, federalnego zestawu danych porównawczych, takiego jak American Community Survey (ACS) lub Current Population Survey (CPS), ponieważ badania te mają wysokie wskaźniki odpowiedzi, wysokie wskaźniki pokrycia populacji i rygorystyczną próbę opartą na prawdopodobieństwie projekty.


Jednym z ograniczeń korzystania z pojedynczej ankiety, takiej jak ACS, jest to, że jedynymi zmiennymi, które można wykorzystać do korekty, są te zmierzone w ACS. Oznacza to, że badacz może dostosować się do takich cech, jak wiek, dochód i wykształcenie, ale nie przynależność do partii politycznej, wyznanie czy rejestracja wyborców. Jednym z rozwiązań jest pobranie kilku wzorcowych zestawów danych mierzących nieco różne zmienne i połączenie ich w celu utworzenia plikusyntetycznyzbiór danych dotyczących populacji.25

Pytania, które ACS ma wspólne z innymi ankietami porównawczymi, są wykorzystywane do statystycznego modelowania prawdopodobnych odpowiedzi na pytania, które nie zostały zadane w ACS. W kolejnych sekcjach szczegółowo opisano, w jaki sposób skonstruowano syntetyczny zbiór danych populacji na potrzeby tego badania.

Konstrukcja syntetycznego zbioru danych dotyczących populacji

Zbiór danych populacji syntetycznej został utworzony w trzech głównych etapach:

Naukowcy pobrali zbiory danych do użytku publicznego na potrzeby dziewięciu badań porównawczych, a następnie ponownie zakodowali wspólne zmienne (np. Wiek i wykształcenie), aby były spójne we wszystkich badaniach. Następnie przeskalowali wagi każdej ankiety, aby zsumować je do nominalnej wielkości próby.

Każdy zbiór danych został następnie posortowany według wagi każdego rekordu i podzielony na 20 warstw w oparciu o skumulowaną sumę wag badania, tak aby każda warstwa reprezentowała 5% całej populacji. Następnie z każdej warstwy losowo wybrano próbę 1000 przypadków (wywiadów) z wymianą i prawdopodobieństwem proporcjonalnym do wagi przypadku. Spowodowało to „cofnięcie” wag i utworzenie zbioru danych o wielkości 20 000 przypadków dla każdego badania, który był reprezentatywny dla całej populacji.


Te 20 000 zestawów danych przypadków połączono następnie w jeden duży zbiór danych. Korzystając z tego połączonego zestawu danych, badacze stworzyli 25 zestawów danych z wielokrotnym imputowaniem za pomocą podejścia łańcuchowego.



Po przypisaniu zachowano tylko 20 000 przypadków pochodzących z ACS, a wszystkie pozostałe odrzucono. Zrobiono to w celu zapewnienia, że ​​rozkład głównych zmiennych demograficznych dokładnie odpowiada rozkładowi ACS, podczas gdy przypisane zmienne odzwierciedlają rozkład, którego można by oczekiwać na podstawie profilu demograficznego ACS.


Każdy z tych kroków omówiono szczegółowo poniżej.

Wybór i rekodowanie zbioru danych

Do skonstruowania syntetycznego zbioru danych dotyczących populacji wykorzystano dziewięć zbiorów danych: ACS 2015, Roczny dodatek społeczno-ekonomiczny CPS 2015 (CPS ASEC), Suplement dotyczący zaangażowania obywatelskiego CPS 2013 (CPS CivEng), Dodatek CPS dotyczący korzystania z komputera i Internetu z 2015 r. ), suplement CPS dla wolontariuszy z 2015 r. (wolontariusz CPS), dodatek do głosowania i rejestracji CPS z 2014 r. (głosowanie CPS), ogólne badanie społeczne z 2014 r. (GSS), badanie krajobrazu religijnego Pew Research Center z 2014 r. (RLS) oraz Pew Research Center z 2014 r. Badanie polaryzacji i typologii politycznej (pol.). Każde badanie wniosło do ramy szereg zmiennych. W sumie ramka zawiera 37 zmiennych, przy czym wiele z tych zmiennych występuje w wielu badaniach.


Wszystkie dziewięć zbiorów danych zawierało szereg wspólnych zmiennych demograficznych, takich jak płeć, wiek, rasa i pochodzenie etniczne Latynosów, wykształcenie, podział spisu ludności, stan cywilny, wielkość gospodarstwa domowego, liczba dzieci, urodzenie w USA, status obywatelstwa i dochód rodziny. Inne zmienne mierzono tylko w podzbiorze badań. Na przykład wolontariat jest obecny tylko w Suplemencie dla wolontariuszy CPS, podczas gdy identyfikacja partii jest obecna tylko w ankiecie polaryzacyjnej GSS, RLS i Pew Research Center, z których żadna nie jest ankietą rządu federalnego.

Zmienne, które były mierzone lub kodowane w różny sposób w różnych badaniach, zostały przekodowane, aby były jak najbardziej porównywalne. Często oznaczało to, że zmienne były zgrubne. Na przykład główne kody CPS starzeją się w wieku 85 lat lub więcej, więc ten sam schemat kodowania zastosowano również we wszystkich innych badaniach. W innych przypadkach wymagało to traktowania niespójnych wartości jako brakujących. Na przykład zarówno ACS, jak i różne ankiety CPS pytają respondentów, ile godzin zazwyczaj pracują w tygodniu. Jednak ankiety CPS pozwalają również respondentom wskazać, że liczba godzin, które zwykle pracują w tygodniu, jest różna, podczas gdy ACS nie ma takiej opcji. W powyższej tabeli nie brakuje danych dotyczących godzin przepracowanych w tygodniu w badaniach CPS; raczej składa się z osób, które wskazały, że ich godziny pracy są różne. Jednak dane te są traktowane jako brakujące dla spójności ze sposobem, w jaki są zadawane w ACS. Wartości przypisane można interpretować jako przewidywanie, jak te osoby odpowiedziałyby, gdyby zamiast tego zadano im pytanie ACS.

Próbkowanie warstwowe

Zestawy danych wzorcowych różniły się pod względem projektu i wielkości próby. Aby zająć się tymi różnicami, przed połączeniem ich razem wybraliśmy dokładnie 20 000 obserwacji na zbiór danych. Próbkowanie przeprowadzono z wymianą iz prawdopodobieństwem proporcjonalnym do wagi sprawy. Wielkość próby została wybrana w celu dostarczenia wystarczających danych dla zastosowanych metod dostosowawczych, które są nadal wykonalne obliczeniowo. W przypadku Dodatku internetowego CPS, GSS i badania polaryzacyjnego gwarantowało to wielokrotne próbkowanie obserwacji.

Zastosowaliśmy odpowiednie wagi dla każdego zbioru danych. W przypadku ACS zastosowano wagę na poziomie osoby, w przypadku CPS ASEC wagę dodatku na osobę, aw przypadku dodatku CPS Civic Engagement zastosowano wagę dodatku do własnej odpowiedzi. Dodatek internetowy CPS został przefiltrowany do respondentów, którzy mieli przypadkową wagę respondentów, ponieważ zmienne dotyczące wiadomości tekstowych i sieci społecznościowych były mierzone tylko dla tych respondentów. Waga braku odpowiedzi została wykorzystana w Suplemencie dla wolontariusza CPS, podczas gdy waga braku odpowiedzi uwzględniająca zarówno przekroje, jak i przypadki panelowe została użyta dla GSS. Pełne wagi próbek wykorzystano do RLS i badania polaryzacyjnego. Wreszcie, w przypadku Suplementu do głosowania CPS, wagi drugiego etapu zostały dostosowane zgodnie z zaleceniami Hur i Achen26skorygować stronniczość wynikającą z traktowania braku odpowiedzi na przedmiot jako braku głosowania. Każda z tych wag została przeskalowana, aby zsumować wielkość próby każdego z odpowiednich zbiorów danych.


Aby upewnić się, że próbki zawierały prawidłową proporcję przypadków zarówno o dużej, jak i małej wadze, każdy zestaw danych został posortowany według wag i podzielony na 20 warstw, z których każda stanowiła 5% ważonej próbki.

Przypisanie

Dziewięć zestawów danych połączono następnie w jeden zestaw danych, a wszystkie brakujące wartości przypisano za pomocą podejścia „łańcuchowych równań”, które iteruje poprzez modelowanie każdej zmiennej jako funkcji wszystkich pozostałych.27Na przykład, jeśli wiek, płeć i wykształcenie były jedynymi zmiennymi, podejście oparte na równaniach łańcuchowych mogłoby najpierw przypisać wiek na podstawie płci i wykształcenia, następnie płeć opartą na wieku i wykształceniu, a następnie edukację opartą na wieku i płci i powtórzyć ten cykl dla pewną liczbę iteracji w celu osiągnięcia stabilności. Cała procedura jest również powtarzana 25 razy, niezależnie od siebie, w celu wytworzenia wielu syntetycznych ramek, które można porównać ze sobą, aby ocenić wariancję wynikającą z procesu imputacji. Każda klatka przeszła 10 iteracji.

Istnieje wiele różnych modeli, które można wykorzystać do przypisania każdej pojedynczej zmiennej zależnej od wszystkich innych, takich jak modele regresji lub metody „gorącej talii”, w których każda brakująca wartość jest zastępowana obserwowaną odpowiedzią z „podobnej” jednostki. W przypadku syntetycznego zbioru danych populacji każda zmienna została imputowana przy użyciu losowej metody „gorącego pokładu” lasu.28

Po imputacji, ostateczny syntetyczny zbiór danych populacji został utworzony poprzez usunięcie wszystkich z wyjątkiem przypadków, które pierwotnie pochodziły z ACS. Zapewnia to, że rozkład demograficzny ściśle odpowiada rozkładowi pierwotnego ACS, podczas gdy przypisane zmienne odzwierciedlają wspólny rozkład, którego można by się spodziewać na podstawie zmiennych, które były wspólne dla każdego zbioru danych.

Ocena jakości imputacji

Podjęliśmy kilka kroków, aby zapewnić, że procedura imputacji przyniesie wyniki, które dokładnie odzwierciedlają oryginalne zbiory danych. Najpierw skrzyżowaliśmy każdą przypisaną zmienną (np. Rejestrację wyborców i identyfikację partii) z w pełni zaobserwowanymi zmiennymi (np. Wiek, płeć i wykształcenie) i dla każdej komórki porównaliśmy rozmiar komórki w zbiorze danych ACS z jej rozmiar w oryginalnym zbiorze danych, z którego został przypisany. Ogólnie rzecz biorąc, przypisane rozkłady były dość zbliżone do oryginałów. Średnia bezwzględna różnica między wartościami przypisanymi a pierwotnymi dla każdej klasyfikacji krzyżowej wynosiła 2 punkty procentowe. Oznacza to, że średnio wartości imputowane nie tylko odpowiadały rozkładowi dla całej populacji, ale także odpowiadały rozkładowi w podgrupach demograficznych.

Chociaż procedura wielokrotnej imputacji stworzyła 25 wersji syntetycznego zbioru danych populacji, tylko jedna z nich została wykorzystana do wykonania korekt w tym badaniu. Jedną z obaw związanych z tym podejściem jest możliwość, że wyniki mogą się znacznie różnić w zależności od tego, która z 25 populacji syntetycznych została użyta. Chociaż nie było możliwe obliczeniowo powtórzenie całej analizy na każdym z przypisanych im zbiorów danych, powtórzyliśmy jedną z procedur dostosowawczych dla wszystkich 25 zbiorów danych, aby ocenić stopień, w jakim procedura imputacji może wpływać na wyniki badania.

Dla każdego z 25 imputowanych zbiorów danych przeprowadziliśmy raking z uwzględnieniem zmiennych demograficznych i politycznych na 1000 próbek typu bootstrap o wartości n = 3500, stosując tę ​​samą procedurę, która została zastosowana w treści niniejszego raportu. Dla każdej kategorii merytorycznej w 24 zmiennych wzorcowych obliczyliśmy ważony procent dla każdej próby bootstrap. Następnie obliczyliśmycałkowita wariancja(średni kwadrat błędu) dla każdego oszacowania z połączonymi wszystkimi 25 000 próbek bootstrap. Na koniec obliczyliśmy wariancję oddzielnie dla każdego z 25 zestawów oszacowań i wzięliśmy średnią. To jestwariancja wewnątrz imputacji. Ten proces został powtórzony dla wszystkich trzech dostawców.

Jeśli całkowita wariancja jest znacznie większa niż wariancja w ramach imputacji, wówczas oszacowana zmienność i marginesy błędu, które wykorzystują tylko jedną imputację (jak to zrobiono w tym badaniu), byłyby niedoszacowane. W tym przypadku całkowita wariancja była tylko 1,002 razy większa niż średnia wariancja wewnątrz imputacji. Oznacza to, że szacowana zmienność opisana w raporcie jest pod względem praktycznym taka sama, jak gdyby analizę powtórzono dla wszystkich 25 imputacji.

Powód, dla którego te dwie wartości są tak bliskie, prawdopodobnie wynika z faktu, że imputacja wpływa tylko pośrednio na zmienność szacunków badania i stanowi tylko niewielką część zmienności badania. Gdybyśmy mieli porównać zmienność całkowitą i zmienność w ramach imputacji dla samych imputowanych wartości (tak jak moglibyśmy, gdyby syntetyczny zbiór danych populacji był głównym przedmiotem analizy, a nie tylko wkładem do ważenia), różnica byłaby prawdopodobnie większa.

Zmienne korygujące wykorzystane w badaniu

Podstawowymi zmiennymi demograficznymi użytymi w badaniu były: wiek, płeć, poziom wykształcenia w 5 kategoriach, rasa i pochodzenie latynoskie oraz podział spisowy. Rozszerzone zmienne polityczne dodają do tej 3 kategorii przynależności do partii politycznej, 3 kategorii ideologii politycznej, rejestracji wyborców oraz tego, czy respondent identyfikuje się jako ewangeliczny chrześcijanin.

W poniższej tabeli porównano rozkład zmiennych korygujących w zbiorze danych populacji syntetycznej z jednym z oryginalnych zestawów danych z badań o wysokiej jakości wykorzystanych do utworzenia syntetycznego zestawu danych. Wszystkie zmienne demograficzne były w pełni obserwowane w ACS, więc syntetyczny układ będzie się różnił od oryginalnego źródła tylko zestawem rozszerzonych zmiennych politycznych.

Największa różnica między ankietą źródłową a syntetyczną ramą dotyczyła ideologii politycznej. Szacunkowy udział konserwatystów, którzy sami siebie opisali, wyniósł 32% w GSS w porównaniu z 35% w ujęciu syntetycznym. To ostatnie oszacowanie jest podobne do pomiarów z Badania Krajobrazu Religijnego Pew Research Center oraz Badania Polaryzacji i Typologii Politycznej, które również zostały użyte w ramach badania. Dokładna przyczyna tej rozbieżności jest niejasna, ale istnieje kilka potencjalnych czynników. W przeciwieństwie do środków Centrum, które są zbierane podczas rozmów telefonicznych na żywo, pytanie GSS jest kierowane osobiście za pomocą wizytówki. Ponadto pytanie GSS używa skali siedmiostopniowej, podczas gdy pytania Centrum - pięciostopniowej. Wreszcie, mogą istnieć istotne różnice między demograficznym składem respondentów ankietowanych w GSS i respondentów z ACS.