书中的技术，是真的吗？ (1 / 2)_开源之路

书中的技术，是真的吗？ (1 / 2)
        在全书也差不多接近尾声的时候，里面的技术论也差不多完结了。可能有人怀疑，里面的技术都是笔者虚拟的。然而，笔者想说，《开源之路》的第一卷，是根据笔者个人的生活经历创作出来的。虽然艺术高于生活，但这里可以明确的告诉大家，这里的技术，大多都是真的。而里面的内容和情节，大约是7分真，3分假吧。

        来看看，《开源之路》的第一卷，阐述了什么技术呢？

        一是Word转手写体，这个是真实存在的，而且已经被笔者开源了。原理也很简单，就是通过操纵ttf文件（字体文件），给字体、间隔、笔画加上一些随机扰动，在加上背景，简单渲染一下，就成了手写体的效果。这的确是真实存在的。

        二是图像识别文字，这也是存在的，而且也开源了。里面的原理，就跟所提，用的是Tesseract。当然，那封邮件，是子虚乌有的。虽然邮件的虚构的，但那些的确也是，来自网友们的宝贵意见。也确实有MathpixSnipping这个东西。然而，其API，已经因为美国的一些愚蠢政策，被禁用了。

        三是关键句提取算法，这个的确也是存在的，而且被收纳进汉语言处理中，开源的HanLP模块中了。原理就是模拟谷歌的网页排行算法，当然，实际实现要复杂得多，这里就不再解释了。

        四是“文本流”，这个也是存在的，它的遭遇，也是真实存在。记得当时写到那里，笔者也是痛心疾首，缀笔再三。当时在写那一段的时候，真的是不敢面对内心，那个被种下的阴暗。所以，可能读者在读的时候，特别是没有了解技术的大背景的情况下，就没有特别强烈的共鸣。

        “文本流”就是用NLP的技术，解决CV（计算机视觉）的问题。如果有了解CV领域的，就应该知道。处理一张图片，要经过一个很复杂的网络的滑动、卷积、甚至生成特征金字塔。如果知道这个背景，就可以理解，为什么说“文本流”可以改变世界了。

        首先，CV的正常做法，他的模型占用的空间，至少一个GB。复杂的卷积运算，也导致了处理器的负担非常大。单靠CPU，和一点点内存（比如笔者的电脑），就等着蓝屏吧。如果要将其嵌入到小机器人，比如无人机中，那必须得联网。让在云端的超级服务器，帮助运算。这就造成了延迟，以及网络问题。所以，一些高端技术，都待着实验室里的原因就是这样。比如谷歌的无人驾驶汽车等。

        但“文本流”不同，处理成“文本”后，用传统的机器学习模型，如贝叶斯分类器、逻辑回归、SVC就可以取得，不亚于Fast-R、YOLOV3、Mobile等复杂的模型的效果。而且，他的大小，最多2MB，运算也很轻松。就算嵌入到芯片中，也未为不可。于是，大家想想，有了一个不需要链接云端服务器、运算速度超级快的“小机器人”，能够做什么？答案昭然若揭。

        可是这么一个技术，为什么不能火起来呢？请大家仔细品其中的原因，这里也不便多说。具体的技术细节，由于某个承诺，恕本人不能透露。各位大佬们，可以考虑往这个方向专研一下，或可以取得与笔者一样的理论。这个理论的再次浮现，还要依靠广大的网友们了。

        五是“分布不均衡”，这个也是实际存在的。网友“兔子啦”，也确有其人。当时笔者也怀疑，有所谓的数据的、更切确的说，是回归数据的“分布不均衡”。然而，兔子啦，和书中所说的一样，因为保密原因，没有提供给笔者数据。

        所以，希望有遇到同样情况的工程师们，请三思，三思。不要因为应付工作，而不去专研。如果遇到类似的问题，可以考虑一样，是否真的是因为“分布不均衡”。或许，新理论就会被你发现。机器学习史上，将会书写上你的大名！

        六是“二元语法+BOW（词袋模型）+卡方检验”处理NLP的文本分类问题。这个技术，当然也如实存在。笔者也确实发现，BNN（贝叶斯分类器）、SVC（支持向量机分类）、LR（逻辑回归），配合上“二元语法+词袋模型+卡方检验”，比任何最新技术都要好。

        那么，文本分类问题的技术，除了上述技术外，还有什么呢？

        内容未完，下一页继续阅读

更多完整内容阅读登陆

《墨缘文学网，https://wap.mywenxue.org》