我之前已经提到过这一点,但是我认为再次重复将很有用。 我的许多与社会科学相关的帖子都使用Berkeley的网络界面与 一般社会调查。 人们经常在评论中询问我有关变量的详细信息,或者对方法进行更明确的阐述。 首先,这是一个博客,而不是我发表学术论文的场所。 与GSS相关的大多数帖子都是“快速而肮脏的”,并鼓励读者进一步探索。 不幸的是,后续行动很少发生。 可以推测原因,但事实就是如此。 不过,我想我会很快重复一遍如何以基本方式使用GSS。
首先,这是URL:
http://sda.berkeley.edu/cgi-bin/hsda?harcsda+gss08
这是1972年至2008年的数据库。您将看到一个类似这样的屏幕:
页面混乱,但是基本上在右侧是您要交叉或比较的行和列变量的输入位置。 左侧允许您浏览变量。 搜索和选择非常简单,而您可以在左下角的菜单中浏览变量列表。 最简单的方法是查看针对特定类别A,B和C的X,Y和Z的频率(例如,受教育程度与性别之间的关系)。 但是您可以做更多的事情,如果选择“分析”,则在左上角有更多选项:
我一直在研究平均值。 有时平均值很明显,因为变量是定量的。 但是,如果您谈论的是二分法响应,那么它会以数字方式“重新编码”(例如,0对1),因此,请记住,均值只是底层数据的表示形式。 也有相关性和回归性。 使用GSS可以做很多事情,但是分析中变得越复杂或越详细,就越不适合“快速而肮脏”。 我一直在回避提出回归,因为要做到这一点,您必须要小心,如果您丢掉一堆beta,人们将不会复制您的分析,并且可能会在模型中投入过多的库存。 (而且,仅通过操作变量集就可以轻松获得使用变量获得的beta)。
这是一个简单的查询示例:
WORDSUM将输出WORDSUM词汇测试中0分中得分为1、2、10等的样本中的%。 我想对照获得的最高学历来核对它。 我决定将那些没有高中文凭的人,那些具有高中文凭的人和一些大学合并为一类,并标记为“没有大学”。 接下来,我将那些与学士学位和研究生学位相结合的类别。 然后我控制了男性和女性,因此它将为每个控件两次输出行和列变量。 最后,我将数据集限制在1999年以后至今(本次调查为2008年)接受调查的非西班牙裔白人中。
这是男性的结果:
是否有我可以找到的选择过滤器的一般列表? 操纵 s#!+s 和咯咯笑很有趣。
浏览分层菜单中的人口统计变量。 这是我经常使用的
性别,1 = 男性,2= 女性(例如,性别(1)
年龄(只需输入数字,例如年龄(65-*)或年龄(18-35)
种族,1 = 白人,2 = 黑人,3 = 其他
年
polviews,0 = 非常自由,6 = 非常保守,3 = 中等(有轻微且只是通用的 lib 或两者之间的缺点)
partyid,像 polviews,但 1-7 强 dem 到强 repub
上帝,从无神论者到“知道上帝存在”(输入数字,我认为是 1 到 7)
学位,0-4,没有 HS 到研究生院
wordsum,0-10,我通常把 0-4 放在一个“愚蠢”的班级中,因为 N 在这里变小了
圣经, 文字主义者, 非文字主义者, 圣经寓言书
宗教
地区
只需对其中一些使用“查看”功能
很多很多,谢谢你。 作为一个喜欢在几乎不健康的程度上讨论政治和社会问题的人,我可以看到这对我来说将是一座金矿。