问题很简单。有一个客户清单表,其中有“性别”变量大约有10%的纪录此字段缺失/
但性别变量和姓名变量应该是有强相关性的
所以我觉得应该可以通过姓名来估算性别
例如
李刚 --> 男
张红 --> 女
如果靠人工去筛选这些类似“刚”、“红”一类的具有明显性别特征的字大约也可以解决。但是时间和效率有限。
各位大虾看一看,能否通过一些机器学习算法(无监督)的,在已有训练样本集上,对这种 姓名-->性别 关系做一个学习,然后用于对缺失数据作预测
真心求大虾们赐教,给出思路也可以+。


雷达卡




京公网安备 11010802022788号







