第十八章：艮山 (1 / 6)_开源之路

第十八章：艮山 (1 / 6)
        第一幕

        旁白：坎德拉仔细看了周启源发给他的那篇文章之后，总算完成了Pycharm的配置。这次，他再次联系到了周启源看，他有一个不情之请。

        场景：微信聊天（坎德拉&周启源）

        坎德拉：“我实在是不知道怎么说出口，但我们的团队，正在研究一个汉语言处理的项目。看了您的论文之后，也深深地被您这种创新、打破传统的做法和精神所折服。我很想推广您的见解，以及对汉语言处理的杰出贡献。但自己又很不甘心，会因为在编程这一块而夭折。”

        “真的是非常抱歉，我也知道我的请求非常地让别人为难，但实在是没有办法。您的方法太好了，我们的团队，真心地期望您的方法能够广为宣传。因此，我们打算写一篇论文，发到IEEE上。但真的很遗憾，我们的团队暂时没有能力，来编程实现您在论文中，描述的方法。我们真的很不甘心，这个推广汉语言处理新方法的机会，从我们的指尖，悄悄流逝。”

        “因此，能否请您，将您的代码借给我们一阅呢？我知道我的这种要求很无礼，如果您拒绝，我们也表示理解。谢谢了，真的很感谢您。”

        周启源心想：开源之人，路见不平拔刀相助，更何况他如此低声下气地来求我。而且，他的目的，也很纯洁，就是想单纯地推广我的方法。如果能够让我的方法，造福更多的人，我很乐意去帮助他。

        周启源：“哈哈，你不用这么客气的。大家都是同学，互相帮助是应该的。你打算写一篇什么样的论文呢？”

        坎德拉：“嗯，就是泰迪杯第一问嘛，不是有一个文本分类问题吗？”

        周启源：“是的”

        坎德拉：“您的那种，用二元语法，将连续两个汉字弄成一个特征，然后用卡方检验过滤，再用词袋模型，转换为特征向量的方法，十分新颖”

        周启源：“是啊，不仅新颖，而且效果也很好。我计算出来的F1值，测试集有0.9呢”

        “不过，你要写论文的话，最好把我那种筛选模型的方法也写下去。我读过很过论文，无论是中国、还是外国，都有一个缺点。就是没有通过验证，就直接拿某个模型来使用。特别是汉语言处理这一块，前人发现，用贝叶斯分类器，解决英文的NLP很好。于是，人们就‘惯性’地用贝叶斯分类器，来解决汉NLP，这是不对的”

        “汉NLP与英NLP有很大差别。首先汉语要分词，关于如何分词，就众说纷纭了，此时其一。其二是汉语言的停用词，很难区分。所以，汉NLP其实是一个独立于英NLP的全新领域。这种惯性思维不应该存在”

        内容未完，下一页继续阅读

更多完整内容阅读登陆

《墨缘文学网，https://wap.mywenxue.org》