Skip to content

Feature_Engineering

Chen edited this page Mar 24, 2020 · 2 revisions

此处会列出算法中关于特征工程的常见问题以及相应的注意事项和解决方案。

常见问题

  1. Q: Hetero Feature Selection模块中的local_only参数的具体含义是什么?
    A:在需要使用iv的过滤器中用到,指guest端只对自己单边的特征做iv值计算,而不管host的数据。

  2. Q:woe计算的时候,如果y在B,X在A,是如何处理的呢?
    A: 会把y和1-y分别加密发送到A,然后A根据分箱,对每个箱的Y进行求和,把求和结果发回B,然后B再计算woe

  3. Q: FeatureBinningParam 的head_size参数具体意思是什么?
    A: binning在做的时候是用的gk-summary算法,会选择性把数据排序压缩。因此会积累一个buffer,head size就是这个buffer的大小。

  4. Q: FATE有数据切分功能吗?
    A: 目前版本不提供数据切分,可以考虑先求交集,本地切分交集结果后再上传数据训练。数据切分相关功能请关注未来版本更新。

  5. Q: 分箱(binning)可以接受string类型的特征数据吗?
    A: 现在binning还不接受str类型的数据,需要本地先转化成数字。

  6. **Q: 如果guest只提供了id,和Y. host提供了x.这种情况下,可以接分箱组件吗? 我接了分箱组件,报错了,报错信息为Number of features of DTables is 0 **
    A: 目前纵向场景,是不支持某一方没有feature的。如果guest只有id和y,可以添加一列特征,值都是0.00001这样。不过这种做法存在一定风险。 目前fate的组件需要特征不为空,因为在纵向联邦场景,我们认为双方都需要有数据参与建模,如果某一方特征为空,我们更希望这被提前感知到。

  7. Q: 计算woe&iv的时候,a侧会不会猜出b侧传过来的加密的标签是什么呢,毕竟只有0,1两个项?
    A: 不会,同态加密有混淆项,即使两个同样的数,密文也是不同的。

  8. Q: 为什么分箱和特征选择组件的输入是一样的呀?
    A: 特征分箱用来计算iv值,为后续特征选择做准备,也可以转化数据,使数据离散化,如果不需要数据离散化,就可以用分箱的上一个组件的数据作为特征选择的数据输入,然后把分箱得到的iv结果传给特征选择就可以了。

Clone this wiki locally