查看原文
其他

转 | 数据集存取新方案-认识feature hashing

CS的陋室 2022-08-08

The following article is from 小小挖掘机 Author 石晓文

昨天发布了一版有关数据集存取方案的文章,于是有了一些前辈的评价和建议,秉承虚心接受的态度,学习了新的方法,来看看整个过程:



公众号传送门:R&S | 手把手搞推荐[3]:数据集存取思路


然后就被Diss了:



费了点心机想多了解了解:



最终,发现了新大陆!



没错,就是feature hashing!



原文在这里了:https://www.cnblogs.com/pinard/p/6688348.html

英文论文:http://alex.smola.org/papers/2009/Weinbergeretal09.pdf


简单总结一下:

  • scipy似乎在工业界用的非常少

  • feature hashing似乎是一种比较流行的特征处理办法,由于是无偏估计,所以可靠性还是很高的,后面可以试试


此处也给各位道歉,虽然自己已经实践了原文提到的方法,但由于自己学艺不精,误导了大家,没有给出更优的方案,非常抱歉,后续我会认真学习一下有关方法并给大家介绍,不辜负各位的关注和支持,同时,永久欢迎大家提出宝贵意见,一起商讨交流~



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存