字体:大 中 小
护眼
关灯
上一章
目录
下一章
书中的技术,是真的吗? (2 / 2)
1、“分词+BOW+停用词过滤”
2、“分词+TF-IDF+停用词过滤”
3、“分词+BOW/TF-IDF+卡方检验(或者其他特征过滤方法)”
4、“分词+Word2Vec”
以上几种都能配合上,传统的机器学习,或者神经网络。当然,第4种,本身亦包括了神经网络技术,所以特别复杂。
而文中提到的,“二元语法+BOW(词袋模型)+卡方检验”,即便使用了传统的机器学习模型,也可以与“分词+Word2Vec”,加上神经网络的效果媲美。前者只使用了一个“小模型”。后者呢?使用了“三个大模型”。第一是分词器,需要的CFR模型(条件随机场),第二是Word2Vec所要的3层神经网络,第三就是分类本身需要的神经网络。
更重要的是,后者转换成向量(词向量)后,词向量非常、非常的大!而文中提到的,虽然大,但可以采用特殊的存储方式,避免内存炸掉。
至于书中坎德拉那个桥段,是否真实。请再次恕笔者,无法透露。不过值得一提,“坎德拉”确有其人。也希望热心的网友在帮助别人时,想一想自己的热心,是否用在值得的人身上。
七是机器学习的软件。这个当然是真的。而且书中,周启源所说的那个现象,也的确是真的。一些人,就会生搬硬套网上现成的代码。特别是那些,自称是“掌握深度学习”的家伙。还有,的确是有很多人,沉迷与sklearn。当然,作为入门,使用sklearn未为不可。然而,作为一个工程师,使用sklearn,就要闹出不少的笑话了。
笔者也曾经想过,要开发一个傻瓜式的机器学习软件。让机器学习,不再成为神秘莫测的东西。底层的代码,也已经在笔者的技术书中,写得差不多了。但是,在GUI的开发上,真的是费了很多脑筋。因为内容确实太多了。而且,这个软件如果发布出去,会有很多人失去工作。所以,在这两个原因下,笔者还是打算,将它雪藏起来。
不过,相信有一天,这个软件,也终会再次见到阳光。
好了,书中的技术,大概就是这些了。
机器学习是二十一世纪,改变社会的高新技术。如果有人,被书中描述的那种恢弘而感动,欢迎加入周启源行列。
【本章阅读完毕,更多请搜索墨缘文学网;http://wap.mywenxue.org 阅读更多精彩小说】
更多完整内容阅读登陆
《墨缘文学网,https://wap.mywenxue.org》
上一章
目录
下一章