第十一章：揾文 (1 / 4)_开源之路

第十一章：揾文 (1 / 4)
        第一幕

        旁白：周启源的图像识别文字功能的软件，业已大功告成。在开源后的两天内，就有网友通过邮件找到了周启源。这份邮件用英文写的，为了方便，这里将其翻译成中文。

        场景：邮箱

        网友：xx你好，我是从YouTube上看到你的链接，觉得你的软件虽然好用，但有几个缺点：

        1、在识别文字这一块，通过源代码，我发现你是调用Tesseract的API来实现的。也就是说，用户要想用你的软件，还需要先下载Tesseract软件，并下载相应的语言模型。这很麻烦，因为一般用户通常希望你，能够一站式地使用，当然，这是我的想法。

        这里有一些解决办法，希望能够帮到你。Tesseract是开源的，你未必要通过调用API的方式。你可以试着把Tesseract用VS编译，做成dll，再直接通过Python来调用。这样，一方面可以压缩大小，提高速度；另一方面，用户亦不需要额外下载Tesseract软件。

        2、在识别公式这一块，恕我直言（原文：myapprogizeifmysuggestionsoffendyou），效果并不好。通过源代码，我了解到你仍旧是通过Tesseract现实的。但这也是Tesseract的症结。本人亦尝试联系Google，并提出建议，无奈人微言轻。下面是本人的几点建议，希望能够帮助你完善你的软件。

        （注：Tesseract是Google的开源项目）

        在识别公式这一块，我建议你可以使用MathpixSnip的API。它虽然收费，但其API是开放的。这个工具，可以很准确地将图片中的公式，转为Latex代码。这对你的软件，在公式识别这一块，无疑帮助是巨大的。

        3、开源软件的推广，是很困难的。我意识到，类似的软件早已在手机市场遍上地开花。因此，我建议你，在你的软件上内置更多的功能，这有利于你的软件，在短时间内被人所知悉。

        你真诚的（Sincerely）

        友人（YourFriend）

        旁白：周启源看到邮件后，感到异常欣慰，并接受了这位不知名的网友，弥足珍贵的意见。在回复了，一封表示真诚谢意的邮件之后，他再也没有收到网友的来信。因此，周启源到最后，还是没能搞清他的姓名。

        落幕

        第二幕

        旁白：在周启源收到邮件后的几天，他按照网友的意见修改了软件。与此同时，在NLP中，他敏锐地发现，如果把关键句，比作浏览器中的重要网页，那么，不是可以用谷歌的网页排名算法，PageRank，来实现文本中，关键句的提取了吗？

        内容未完，下一页继续阅读

更多完整内容阅读登陆

《墨缘文学网，https://wap.mywenxue.org》