第十八章:艮山 (1 / 6) 首页

字体:      护眼 关灯

上一章 目录 下一章

第十八章:艮山 (1 / 6)
        第一幕

        旁白:坎德拉仔细看了周启源发给他的那篇文章之后,总算完成了Pycharm的配置。这次,他再次联系到了周启源看,他有一个不情之请。

        场景:微信聊天(坎德拉&周启源)

        坎德拉:“我实在是不知道怎么说出口,但我们的团队,正在研究一个汉语言处理的项目。看了您的论文之后,也深深地被您这种创新、打破传统的做法和精神所折服。我很想推广您的见解,以及对汉语言处理的杰出贡献。但自己又很不甘心,会因为在编程这一块而夭折。”

        “真的是非常抱歉,我也知道我的请求非常地让别人为难,但实在是没有办法。您的方法太好了,我们的团队,真心地期望您的方法能够广为宣传。因此,我们打算写一篇论文,发到IEEE上。但真的很遗憾,我们的团队暂时没有能力,来编程实现您在论文中,描述的方法。我们真的很不甘心,这个推广汉语言处理新方法的机会,从我们的指尖,悄悄流逝。”

        “因此,能否请您,将您的代码借给我们一阅呢?我知道我的这种要求很无礼,如果您拒绝,我们也表示理解。谢谢了,真的很感谢您。”

        周启源心想:开源之人,路见不平拔刀相助,更何况他如此低声下气地来求我。而且,他的目的,也很纯洁,就是想单纯地推广我的方法。如果能够让我的方法,造福更多的人,我很乐意去帮助他。

        周启源:“哈哈,你不用这么客气的。大家都是同学,互相帮助是应该的。你打算写一篇什么样的论文呢?”

        坎德拉:“嗯,就是泰迪杯第一问嘛,不是有一个文本分类问题吗?”

        周启源:“是的”

        坎德拉:“您的那种,用二元语法,将连续两个汉字弄成一个特征,然后用卡方检验过滤,再用词袋模型,转换为特征向量的方法,十分新颖”

        周启源:“是啊,不仅新颖,而且效果也很好。我计算出来的F1值,测试集有0.9呢”

        “不过,你要写论文的话,最好把我那种筛选模型的方法也写下去。我读过很过论文,无论是中国、还是外国,都有一个缺点。就是没有通过验证,就直接拿某个模型来使用。特别是汉语言处理这一块,前人发现,用贝叶斯分类器,解决英文的NLP很好。于是,人们就‘惯性’地用贝叶斯分类器,来解决汉NLP,这是不对的”

        “汉NLP与英NLP有很大差别。首先汉语要分词,关于如何分词,就众说纷纭了,此时其一。其二是汉语言的停用词,很难区分。所以,汉NLP其实是一个独立于英NLP的全新领域。这种惯性思维不应该存在”

        内容未完,下一页继续阅读

更多完整内容阅读登陆

《墨缘文学网,https://wap.mywenxue.org》
加入书签我的书架


上一章 目录 下一章