书中的技术，是真的吗？ (2 / 2)_开源之路

书中的技术，是真的吗？ (2 / 2)
        1、“分词+BOW+停用词过滤”

        2、“分词+TF-IDF+停用词过滤”

        3、“分词+BOW/TF-IDF+卡方检验（或者其他特征过滤方法）”

        4、“分词+Word2Vec”

        以上几种都能配合上，传统的机器学习，或者神经网络。当然，第4种，本身亦包括了神经网络技术，所以特别复杂。

        而文中提到的，“二元语法+BOW（词袋模型）+卡方检验”，即便使用了传统的机器学习模型，也可以与“分词+Word2Vec”，加上神经网络的效果媲美。前者只使用了一个“小模型”。后者呢？使用了“三个大模型”。第一是分词器，需要的CFR模型（条件随机场），第二是Word2Vec所要的3层神经网络，第三就是分类本身需要的神经网络。

        更重要的是，后者转换成向量（词向量）后，词向量非常、非常的大！而文中提到的，虽然大，但可以采用特殊的存储方式，避免内存炸掉。

        至于书中坎德拉那个桥段，是否真实。请再次恕笔者，无法透露。不过值得一提，“坎德拉”确有其人。也希望热心的网友在帮助别人时，想一想自己的热心，是否用在值得的人身上。

        七是机器学习的软件。这个当然是真的。而且书中，周启源所说的那个现象，也的确是真的。一些人，就会生搬硬套网上现成的代码。特别是那些，自称是“掌握深度学习”的家伙。还有，的确是有很多人，沉迷与sklearn。当然，作为入门，使用sklearn未为不可。然而，作为一个工程师，使用sklearn，就要闹出不少的笑话了。

        笔者也曾经想过，要开发一个傻瓜式的机器学习软件。让机器学习，不再成为神秘莫测的东西。底层的代码，也已经在笔者的技术书中，写得差不多了。但是，在GUI的开发上，真的是费了很多脑筋。因为内容确实太多了。而且，这个软件如果发布出去，会有很多人失去工作。所以，在这两个原因下，笔者还是打算，将它雪藏起来。

        不过，相信有一天，这个软件，也终会再次见到阳光。

        好了，书中的技术，大概就是这些了。

        机器学习是二十一世纪，改变社会的高新技术。如果有人，被书中描述的那种恢弘而感动，欢迎加入周启源行列。

        【本章阅读完毕，更多请搜索墨缘文学网;http://wap.mywenxue.org 阅读更多精彩小说】

更多完整内容阅读登陆

《墨缘文学网，https://wap.mywenxue.org》