字体:大 中 小
护眼
关灯
上一章
目录
下一章
第十六章:网友 (4 / 4)
周启源:“首先你要明白,你做的问题叫自然语言处理(NLP)。如果是汉字,也就是汉语言处理。Matb是老外开发的,而且要收费,一家独大。所以相应的,虽然方便,他的功能就太拮据了。因此,如果要解决NLP,Matb你就不要想了”
“Python的话,你可以直接安装Anada,然后用里面的Spyder来编程,Spyder长得非常像Matb,绝对可以帮到你。而且,直接安装Anada,就不用安装Python了,里面自带Python和IDE。当然,也可以用Pycharm”
“然后,你打开cmd,输入pipinstallpyhanlp,就可以安装HanLP模块了。”
“文本分类问题一般可以用朴素贝叶斯分类器,就是我博客上写的,也叫贝叶斯分类器”
haonanqumingzi:“好的,那请问文本分类用类朴素贝叶斯会相对简单一点吗,文本是否要先转化成向量呢”
周启源:“当然,任何机器学习问题,都要转换成向量。一个文本一个向量,一个语料库,一个矩阵”
“文本转向量的方法:BOW、TF-IDF、词向量”
“词向量涉及深度学习(一个三层的神经网络),文本分类用贝叶斯分类器(BNN)的确是很简单,效果也一针见血。我当初用了,测试集的F1值有86%左右吧”
“当然,我当初用遍了绝大多数的机器学习方法。你可以加我微信:weixin_xxxxxx,这里聊天不方便。我把论文发给你。”
haonanqumingzi:“好的感谢”
大约十分钟后,该网友以“xx论坛”为备注,加了周启源的微信。只见其微信的网名为:“坎德拉”,地区:“阿富汗”,朋友圈:“未开启朋友圈”。
落幕
【本章阅读完毕,更多请搜索墨缘文学网;http://wap.mywenxue.org 阅读更多精彩小说】
更多完整内容阅读登陆
《墨缘文学网,https://wap.mywenxue.org》
上一章
目录
下一章