第十章：志民 (2 / 3)_开源之路

第十章：志民 (2 / 3)
        （注：词袋模型：一种用计数的方法，将非结构化的数据，转换为结构化的向量的模型。卡方检验：假设检验的一种，用于过滤频率较低的变量。F1值：一种分类问题的评价指标，越接近与1，效果越好。文本分类当然隶属于分类问题。）

        郑志民：“是吗？用普通的机器学习模型，就行了吗？你用的是啥模型？”

        周启源：“这就是重大发现了，除了英文NLP常用的贝叶斯分类器以外，我发现支持向量机、逻辑回归，效果都很好！这是我用交叉验证、网格寻优找出来的，最佳的结果。”

        郑志民：“哦，也就是说，如果用逻辑回归就行的话，那不就是，用1MB，甚至不到，就可以实现文本分类咯？”

        周启源：“当然，当然，这就是我要跟你说的！现在市面上的模型，大多都是神经网络，那根本是实验室的玩具！你应该最清楚，单片机哪来的2GB的内存。”

        （注：一般神经网络模型都很大，比如一些计算机视觉的R、YOLOV3、甚至是迷你的Mobile，占用的空间都是不下1GB的。）

        郑志民：“写论文了没？借我看看！”

        周启源：“一切开源，一切开源，你想看，去我博客。”

        郑志民：“哈哈，我以为你背叛了工人阶级。如果你背叛了，我第一个折了你的腰。”

        周启源：“Never！对了，你的那个手势控制机器人，怎么样了？”

        郑志民：“多亏了你，也就你能想出来，把图像看成‘文本’，再用NLP的方法，硬生生地把计算机视觉的问题，弄成了NLP来解决。哈哈，你还自己开创了一个流派，‘文本流’。真有你的！拖你的福，现在已经开发成功了。现在，我的机器人，可以根据我的手势，做出动作了。”

        周启源：“这没什么，你记得开源就好。”

        郑志民：“一定一定，‘文本流’的创始人先生。”

        周启源：“滚。对了，你找我有什么事啊？一兴奋，忘了问了。”

        内容未完，下一页继续阅读

更多完整内容阅读登陆

《墨缘文学网，https://wap.mywenxue.org》