C#读取word中表格数据的方法实现

作者:ViperL1 时间:2023-09-12 22:54:53 

前些日子有一个项目需要从word文件中取表格数据并进行处理,网上大部分方案都是基于office的com组件实现,但是这样有一个缺点,如果电脑里没有安装office将无法使用,因为之前操作excel都是使用的NPOI,所以理所当然的想用NPOI解决此问题。

于是找到了如下代码

private List<string> GetDoc(string Path)
       {
           if (Path == "")
               return null;    //文件路径为空
           List<string> Result = new List<string>();    //结果容器

FileStream stream = new FileStream(Path, FileMode.Open);    //打开流
           XWPFDocument docx = new XWPFDocument(stream);
           var list = new List<XWPFTableCell>();

//循环遍历表格内容
           foreach (var row in docx.Tables[0].Rows)
           {
               foreach (var cell in row.GetTableCells())
               {
                   if (!list.Contains(cell))
                   {
                       list.Add(cell);
                       Result.Add(cell.GetText());
                   }
               }
           }
           stream.Close();
           return Result;    //关闭文件流(很关键,否则会导致下一个文件无法大开)

}

C#读取word中表格数据的方法实现

但是这样做又有一个缺点 ,NPOI仅支持.docx格式的文件,如果读取.doc会直接报错!

于是后续又找到了另一开源组件freeSpire。有如下代码

private List<string> GetDocX(string Path)
       {
           if (Path == "")
               return null;    //文件路径为空
           List<string> Result = new List<string>();

Spire.Doc.Document doc = new Spire.Doc.Document();
           doc.LoadFromFile(Path);

TextBox textbox = doc.TextBoxes[0];
           Spire.Doc.Table table = textbox.Body.Tables[0] as Spire.Doc.Table;

foreach (TableRow row in table.Rows)
           {
               foreach (TableCell cell in row.Cells)
               {
                   foreach (Paragraph paragraph in cell.Paragraphs)
                   {
                       Result.Add(paragraph.Text);
                   }
               }
           }
           return Result;
       }

但是不知道什么原因,并不能抓取.doc文件中的表格。

C#读取word中表格数据的方法实现

随后尝试了其getText()函数确定可以直接抓取文字内容,初步判断可能是格式问题。

C#读取word中表格数据的方法实现

有考虑过自己写匹配函数对文本内容进行分析,但由于格式过于复杂,很多通用性问题无法解决后放弃。如果格式不复杂的话,也不失为一种解决方法。

最后采用的方法是先利用Spire组件将.doc转换为.docx后再利用NPOI进行内容处理,效果拔群!!!

private string ChangeToDocx(string Path)
       {
           if (Path == "")
               return "";    //文件路径为空
           List<string> Result = new List<string>();

Spire.Doc.Document doc = new Spire.Doc.Document();
           doc.LoadFromFile(Path);    //打开文件
           Path.Replace(".doc", "docx");    //替换后缀
           doc.SaveToFile(Path, FileFormat.Docx);    //保存为.doc
           return Path;
       }

主函数中调用如下:(若不是.doc则无需转换以节约开销)

if (Path.Contains(".doc"))
{
   string newPath = ChangeToDocx(Path);
   result = GetDoc(newPath);
}
result = GetDoc(Path);

来源:https://blog.csdn.net/weixin_37878740/article/details/125230980

标签:C#,读取,word
0
投稿

猜你喜欢

  • Unity实现换装系统

    2021-08-11 15:27:15
  • Redis之GEO存储地理位置信息的使用

    2023-12-22 14:29:49
  • C#使用struct直接转换下位机数据的示例代码

    2023-06-07 01:49:01
  • RegexOptions.IgnoreCase正则表达式替换,忽略大小写

    2022-05-03 17:25:45
  • C#中#define后面只加一个参数的解释

    2022-09-06 07:23:55
  • java转化为exe程序步骤详解

    2022-05-01 10:10:43
  • springboot注解Aspect实现方案

    2022-12-17 19:32:06
  • C#中反射和扩展方法如何运用

    2023-08-02 01:43:16
  • Audio Source组件及相关API

    2023-07-07 14:22:37
  • Android实现简单的banner轮播图

    2021-10-25 01:11:28
  • SpringBoot项目中遇到的BUG问题及解决方法

    2022-01-19 14:44:38
  • 实现一个基于Servlet的hello world程序详解步骤

    2022-06-21 00:22:13
  • C#操作XML文件步骤

    2021-11-04 21:51:44
  • java应用占用内存过高排查的解决方案

    2023-09-21 12:47:30
  • C#获取机器码的方法详解(机器名,CPU编号,硬盘编号,网卡mac等)

    2021-07-29 23:50:19
  • Spring Boot学习入门之AOP处理请求详解

    2023-11-27 10:55:17
  • Android实现花瓣飘落效果的步骤

    2021-11-23 17:16:44
  • Android实现上拉加载更多以及下拉刷新功能(ListView)

    2022-03-02 15:50:41
  • datatable去掉重复行的方法

    2023-09-02 19:59:41
  • Java组件commons fileupload实现文件上传功能

    2022-05-03 15:03:07
  • asp之家 软件编程 m.aspxhome.com