C#版Tesseract库的使用技巧

作者:小y 时间:2023-01-24 20:07:53 

上一篇介绍了Tesseract库的使用(OCR库Tesseract初探),文末提到了Tesseract是用c/c++开发的,也有C#的开源版本,本篇介绍一下如何使用C#版的Tesseract。

C#版本源码下载地址:https://github.com/charlesw/tesseract

其实在vs中可以直接用NuGet工具进行下载:

打开nuget,搜索tesseract,点安装即可。

C#版Tesseract库的使用技巧

源码是vs2015编译的,需要安装vs2015以上版本。

打开项目后如:

C#版Tesseract库的使用技巧

我们再添加一个winform项目,画界面如:

C#版Tesseract库的使用技巧

实现点击“选择需要识别的图片”,打开一张图片,调用算法并显示结果。比较简单。源码如下:


using System;
using System.Collections.Generic;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.Linq;
using System.Text;
using System.Threading.Tasks;
using System.Windows.Forms;
using Tesseract;

namespace TesseractDemo
{
   public partial class Form1 : Form
   {
       public Form1()
       {
           InitializeComponent();
       }
       //选图片并调用ocr识别方法
       private void btnRec_Click(object sender, EventArgs e)
       {
           //openFileDialog1.Filter = "";
           if (openFileDialog1.ShowDialog() == DialogResult.OK)
           {
               var imgPath = openFileDialog1.FileName;
               pictureBox1.Image=Image.FromFile(imgPath);
               string strResult = ImageToText(imgPath);
               if (string.IsNullOrEmpty(strResult))
               {
                   txtResult.Text = "无法识别";
               }
               else
               {
                   txtResult.Text = strResult;
               }
           }
       }
       //调用tesseract实现OCR识别
       public string ImageToText(string imgPath)
       {
           using (var engine = new TesseractEngine("tessdata", "eng", EngineMode.Default))
           {
               using (var img = Pix.LoadFromFile(imgPath))
               {
                   using (var page = engine.Process(img))
                   {
                       return page.GetText();
                   }
               }
           }
       }
   }
}

有一点要注意的是,tesseract的识别语言包要自己下载后包含到项目里面,并设置为始终复制,或者直接把这个文件包放到运行程序目录(bin\debug)下:

C#版Tesseract库的使用技巧

eng是英文字符的意思,要识别其他语言字符,需要自己下载:

Tesseract hasunicode (UTF-8) support, and canrecognize more than 100 languages"out of the box".

这个库支持100种语言的识别

字库下载地址为:https://github.com/tesseract-ocr/tessdata

用OpencvSharp先降噪再调OCR识别:


//用opencv进行降噪处理再ocr识别
       private void button3_Click(object sender, EventArgs e)
       {
           //从网上读取一张图片
           string imgUrl = "https://service.cheshi.com/user/validate/validatev3.php";
           MemoryStream ms = ReadImgFromWeb(imgUrl);
           Image img = Image.FromStream(ms);
           pictureBox1.Image = img;

//降噪
           Mat simg = Mat.FromStream(ms, ImreadModes.Grayscale);
           Cv2.ImShow("Input Image", simg);
           //阈值操作 阈值参数可以用一些可视化工具来调试得到
           Mat ThresholdImg = simg.Threshold(29, 255, ThresholdTypes.Binary);
           Cv2.ImShow("Threshold", ThresholdImg);
           Cv2.ImWrite("d:\\img.png", ThresholdImg);

textBox1.Text= ImageToText("d:\\img.png");
       }

/// <summary>
       /// 从网上读取一张图片
       /// </summary>
       /// <param name="Url"></param>
       public MemoryStream ReadImgFromWeb(string Url)
       {
           HttpWebRequest request = (HttpWebRequest)WebRequest.Create(Url);
           request.Credentials = CredentialCache.DefaultCredentials; // 添加授权证书
           request.UserAgent = "Microsoft Internet Explorer";
           WebResponse response = request.GetResponse();
           Stream s = response.GetResponseStream();
           byte[] data = new byte[1024];
           int length = 0;
           MemoryStream ms = new MemoryStream();
           while ((length = s.Read(data, 0, data.Length)) > 0)
           {
               ms.Write(data, 0, length);
           }
           ms.Seek(0, SeekOrigin.Begin);
           //pictureBox1.Image = Image.FromStream(ms);
           return ms;
       }

请自行用NuGet程序下载opencvsharp3.0库,参考https://www.cnblogs.com/tuyile006/p/10819570.html

另外专门有篇文章介绍中文识别:Tesseract-OCR识别中文与训练字库实例

来源:https://www.cnblogs.com/tuyile006/p/10772584.html

标签:C#,Tesseract,库
0
投稿

猜你喜欢

  • 详解java模板和回调机制

    2023-08-13 15:33:46
  • Spring MVC返回的json去除根节点名称的方法

    2023-07-15 17:46:55
  • Spring Boot 2.7.6整合redis与低版本的区别

    2023-11-11 19:44:56
  • SpringBoot集成MybatisPlus报错的解决方案

    2022-06-28 05:03:20
  • Java 通过AQS实现数据组织

    2023-04-05 22:19:29
  • c#实现获取字符串阵列中元素最长或最短的长度

    2022-08-22 08:54:01
  • Ubuntu安装jdk8常用方法流程解析

    2021-12-21 13:40:04
  • Android实现多线程断点下载

    2023-08-11 00:45:28
  • 使用webmagic实现爬虫程序示例分享

    2021-10-08 22:10:26
  • 基于JavaMail实现邮件发送

    2022-06-21 02:28:06
  • java为什么不建议用equals判断对象相等

    2022-07-14 17:17:39
  • 深入讲解SpringBoot Actuator是什么

    2022-08-21 13:44:09
  • 解决Java中properties文件编码问题

    2022-07-21 14:09:06
  • 解决Mybatis中foreach嵌套使用if标签对象取值的问题

    2023-11-23 06:02:02
  • android surfaceView实现播放视频功能

    2022-12-11 12:55:04
  • c#中switch case的用法实例解析

    2023-09-20 23:02:51
  • Java 实战项目锤炼之网上花店商城的实现流程

    2021-09-14 04:51:45
  • redisson实现分布式锁原理

    2023-11-29 00:00:00
  • Flutter实现顶部导航栏功能

    2023-03-10 17:13:48
  • C#中参数个数可变的方法实例分析

    2022-12-16 20:02:32
  • asp之家 软件编程 m.aspxhome.com