摘要:本文内容整理自医咖会《公开数据库挖掘与SCI论文发表实战指南》专栏,小咖针对常用医学公开数据库相关的内容进行了整理,可点击左下角“阅读原文”查看完整视频。
UK Biobank
UK Biobank(http://www.ukbiobank.ac.uk/)是在英国进行的前瞻性流行病学研究,根据不同的费用等级开放不同层次的数据。
UK Biobank具有极大规模的样本量,收集了50万例40-69岁志愿者的数据,进行了很多昂贵的检测,如基因、多模态影像等,数据丰富。这项研究拥有从2006年持续至今的纵向数据,具有时间属性,可以进行因果推断。
UK Biobank包括很多健康结局,包括癌症、心血管疾病等,旨在研究遗传因素、环境因素、生活习惯等与人类疾病的关联,近年常见“环境因素+遗传因素+孟德尔随机化+健康结局”研究。
UK Biobank的缺点是数据量大,数据清理工作较为耗时,需要足够的经济和团队的支持。
DHS
DHS(http://dhsprogram.com/)是一项自1984年在世界范围内低收入国家进行的全国性健康调查,收集了90多个国家/地区的人口、健康、营养等数据,更适合进行健康不平等性相关研究。
DHS拥有丰富全面的数据,如儿童死亡率、疟疾、财富指数、可持续发展目标、HIV、烟草、家庭暴力、医疗支出等不同主题。
和UK Biobank一样,DHS也不是很好进行数据清理。
NHANES
相对于前两个数据库,NHANES的数据处理相对更好上手。
NHANES(https://www.cdc.gov/nchs/nhanes/index.html)是美国CDC进行的一项评估健康营养的调查,每年从全国抽取约5000人进行,收集了人口统计、社会经济、饮食健康、医学检查等大量数据。
CHARLS
CHARLS(https://charls.pku.edu.cn/gy/gyxm.htm)是中国健康与养老追踪调查,主要针对中国45岁及以上中老年人人群,覆盖全国28个省。
CHARLS调查时的数据追踪是动态的,每次调查都有可能存在新增和失访人群,既可以进行横截面研究,又可以进行纵向研究,但纵向队列或许并不能匹配到大量数据。
CHARLS包括参与者的全面信息,如个人基本信息、家庭结构、健康状况、生化指标等,目前这些数据是免费开放的,数据处理同样较为友好。
CLHLS
CLHLS(https://opendata.pku.edu.cn/dataverse/CHADS)是中国老年健康与家庭幸福调查,主要针对老年人,尤其是高龄老年人进行的调查,包括认知功能、生活习惯、死亡等丰富的微观数据。可以考虑联合CHARLS数据进行中老年人群的相关研究。
CFPS(https://opendata.pku.edu.cn/dataverse/CFPS)是中国家庭追踪调查,主要收集个体、家庭、社区三个层次的数据,覆盖25个省/市/自治区,包括16000户的全部家庭成员。
研究设计、统计分析、论文投稿难题,快联系小咖()
来源:不寻常科学