喵小昭 发表于 2020-3-10 20:08:30

【非主流精算问题】R的sqldf包洗数出bug

有木有童鞋用过R里面的sqldf包来清洗数据的?功能大概类似SQL,稍微快点儿~原始数据文件是csv,量级大概几十万条吧。比如设置好group by条件,筛选保费和件数两个字段,发现得到的件数是没问题的,但是保费数值会和实际数值有差异,感觉很诡异......确定代码和逻辑都没问题。如果朋友遇到过类似的情况,求交流~

江湖小菜鸟 发表于 2020-3-10 21:02:29

会不会是四舍五入问题

tusiyu1020 发表于 2020-3-10 21:33:12

具体差异有多大? 原字段的小数位数有多少, 很有可能是舍入误差的影响。可以尝试先计算少量数据来确认问题

喵小昭 发表于 2020-3-10 21:39:16

江湖小菜鸟 发表于 2020-3-10 21:02
会不会是四舍五入问题
结果差10%还多,应该不是小数位问题

喵小昭 发表于 2020-3-10 21:40:04

tusiyu1020 发表于 2020-3-10 21:33
具体差异有多大? 原字段的小数位数有多少, 很有可能是舍入误差的影响。可以尝试先计算少量数据来确认问题

差百分之十几吧,应该不是小数位舍入误差的问题

喵小昭 发表于 2020-3-10 21:57:15

貌似是源文件的数据格式的问题,csv里的保费那一列,手动设置成常规格式,就没问题了
页: [1]
查看完整版本: 【非主流精算问题】R的sqldf包洗数出bug