字体:大 中 小
护眼
关灯
上一章
目录
下一章
书中的技术,是真的吗? (1 / 2)
在全书也差不多接近尾声的时候,里面的技术论也差不多完结了。可能有人怀疑,里面的技术都是笔者虚拟的。然而,笔者想说,《开源之路》的第一卷,是根据笔者个人的生活经历创作出来的。虽然艺术高于生活,但这里可以明确的告诉大家,这里的技术,大多都是真的。而里面的内容和情节,大约是7分真,3分假吧。
来看看,《开源之路》的第一卷,阐述了什么技术呢?
一是Word转手写体,这个是真实存在的,而且已经被笔者开源了。原理也很简单,就是通过操纵ttf文件(字体文件),给字体、间隔、笔画加上一些随机扰动,在加上背景,简单渲染一下,就成了手写体的效果。这的确是真实存在的。
二是图像识别文字,这也是存在的,而且也开源了。里面的原理,就跟所提,用的是Tesseract。当然,那封邮件,是子虚乌有的。虽然邮件的虚构的,但那些的确也是,来自网友们的宝贵意见。也确实有MathpixSnipping这个东西。然而,其API,已经因为美国的一些愚蠢政策,被禁用了。
三是关键句提取算法,这个的确也是存在的,而且被收纳进汉语言处理中,开源的HanLP模块中了。原理就是模拟谷歌的网页排行算法,当然,实际实现要复杂得多,这里就不再解释了。
四是“文本流”,这个也是存在的,它的遭遇,也是真实存在。记得当时写到那里,笔者也是痛心疾首,缀笔再三。当时在写那一段的时候,真的是不敢面对内心,那个被种下的阴暗。所以,可能读者在读的时候,特别是没有了解技术的大背景的情况下,就没有特别强烈的共鸣。
“文本流”就是用NLP的技术,解决CV(计算机视觉)的问题。如果有了解CV领域的,就应该知道。处理一张图片,要经过一个很复杂的网络的滑动、卷积、甚至生成特征金字塔。如果知道这个背景,就可以理解,为什么说“文本流”可以改变世界了。
首先,CV的正常做法,他的模型占用的空间,至少一个GB。复杂的卷积运算,也导致了处理器的负担非常大。单靠CPU,和一点点内存(比如笔者的电脑),就等着蓝屏吧。如果要将其嵌入到小机器人,比如无人机中,那必须得联网。让在云端的超级服务器,帮助运算。这就造成了延迟,以及网络问题。所以,一些高端技术,都待着实验室里的原因就是这样。比如谷歌的无人驾驶汽车等。
但“文本流”不同,处理成“文本”后,用传统的机器学习模型,如贝叶斯分类器、逻辑回归、SVC就可以取得,不亚于Fast-R、YOLOV3、Mobile等复杂的模型的效果。而且,他的大小,最多2MB,运算也很轻松。就算嵌入到芯片中,也未为不可。于是,大家想想,有了一个不需要链接云端服务器、运算速度超级快的“小机器人”,能够做什么?答案昭然若揭。
可是这么一个技术,为什么不能火起来呢?请大家仔细品其中的原因,这里也不便多说。具体的技术细节,由于某个承诺,恕本人不能透露。各位大佬们,可以考虑往这个方向专研一下,或可以取得与笔者一样的理论。这个理论的再次浮现,还要依靠广大的网友们了。
五是“分布不均衡”,这个也是实际存在的。网友“兔子啦”,也确有其人。当时笔者也怀疑,有所谓的数据的、更切确的说,是回归数据的“分布不均衡”。然而,兔子啦,和书中所说的一样,因为保密原因,没有提供给笔者数据。
所以,希望有遇到同样情况的工程师们,请三思,三思。不要因为应付工作,而不去专研。如果遇到类似的问题,可以考虑一样,是否真的是因为“分布不均衡”。或许,新理论就会被你发现。机器学习史上,将会书写上你的大名!
六是“二元语法+BOW(词袋模型)+卡方检验”处理NLP的文本分类问题。这个技术,当然也如实存在。笔者也确实发现,BNN(贝叶斯分类器)、SVC(支持向量机分类)、LR(逻辑回归),配合上“二元语法+词袋模型+卡方检验”,比任何最新技术都要好。
那么,文本分类问题的技术,除了上述技术外,还有什么呢?
内容未完,下一页继续阅读
更多完整内容阅读登陆
《墨缘文学网,https://wap.mywenxue.org》
上一章
目录
下一章