R包statcheck:自动提取文章中统计数据并计算P值


NeuroTimes | Nov. 19, 2015



荷兰 Tilburg University开发了新的R package --“statcheck”,可以提取文章中统计数据并重新计算P值,专门对文章中的统计学数据进行检查。

他们用其检索了1985年到2013年8家不同杂志发表的超过3万篇文章,在使用了统计学数据的文章中有超过半数存在不符合统计学参数测试的情况,还有13%的文章存在结论与统计数据自相矛盾的情况。人工检测一篇文章需要10分钟左右,而statcheck检查完所有文章只用了不到2个小时。

主框架包括:
1. 转PDF和HTML到纯文本;
2. 搜索统计数据;
3. 提取编号,计算P值;
4. 比较新计算的P值和文章里的;

按照作者的想法,这个R包不但可以用来检验别人的数据、自检以提高自己文章结论的准确性,还可以用来使meta analysis更简便。

不过作者也警告说目前statcheck 仍然存在不完善的地方,偶尔会发生错误判断。估计主要需要提升搜索和定位统计数据的准确度。
 

报道地址

R package地址

Github地址




分享到


© 2014-2015 NeuroTimes