python批量翻译excel表格中的英文

作者:松哥真的一米九 时间:2022-11-16 08:09:07 

需求背景

女朋友的论文需要爬取YouTube视频热评,但爬下来的都是外文。

主要设计

  •  读取一个表格文件,获取需要翻译的文本

  •  使用百度翻译 API 进行翻译,获取翻译结果

  •  将翻译结果保存到原表格中,然后提取需要的列组成一个新的 DataFrame

  •  处理多个表格文件,将它们的翻译结果分别保存

  •  使用线程池加速翻译过程,可以同时翻译多个表格

  •  显示进度条

分析

  • 目标文件为xlsx格式,可以借助pandas进行读取文件和生成文件的操作。在这里我的源文件有若干列,其中第2列评论内容为我的目标列。

  • 在这里我用的是百度翻译api接口。也可以googletrans、translate,这些库可以在本地使用,不需要申请API密钥,但是翻译质量和速度可能不如云服务。

  • 由于我每个表格有2000行数据,总共有10个表格,一个个来的话不仅麻烦效率还低。

  • 我需要知道任务的进度,不想一直等下去

具体实现

表格操作

def TranslateTable(sInputFilename, sOutputFilename):
   # 读取表格A并选择需要翻译的列
   df_a = pd.read_excel(sInputFilename) # 获取df对象
   df_a = df_a.iloc[:, [1, 2]]  # iloc和loc很像,i=index,
   # 翻译英文列
   df_a['translation'] = df_a.iloc[:, 0].apply(Translate)
   # 创建表格B并保存
   df_b = pd.DataFrame({
       '原文': df_a.iloc[:, 0],
       '译文': df_a.iloc[:, 2]
   })
   df_b.to_excel(sOutputFilename, index=False)

请求百度翻译api

def Translate(sText, from_lang='en', to_lang='zh'):
   appid = 'xxxxxx'
   secret_key = 'xxxxxx'
   url = 'https://fanyi-api.baidu.com/api/trans/vip/translate'
   salt = random.randint(32768, 65536)
   sign = hashlib.md5((appid + sText + str(salt) + secret_key).encode()).hexdigest()
   params = {
       'q': sText,
       'from': from_lang,
       'to': to_lang,
       'appid': appid,
       'salt': salt,
       'sign': sign
   }
   response = requests.get(url, params=params)
   result = json.loads(response.content.decode())
   if result.get('error_code') is not None:
       return None
   return result['trans_result'][0]['dst']

多线程

使用concurrent.futures库中的 ThreadPoolExecutor类来实现多线程处理。

  • 创建一个 ThreadPoolExecutor对象。

  • 在循环中遍历每个表格A,并使用 submit方法向线程池提交任务。 submit方法将表格A的文件名和表格B的文件名作为参数传递给 translate_column函数,该函数将在单独的线程中执行。

ThreadPoolExecutor会自动管理线程池的大小,并在有空闲线程时分配新任务。这种方式可以利用多个CPU核心来并行处理多个表格,提高处理速度。

def TranslateTables(sInputFolder, sOutputFolder):
   sInputFilenames = [os.path.join(sInputFolder, f) for f in os.listdir(sInputFolder) if f.endswith('.xlsx')]
   with ThreadPoolExecutor() as executor:
       lstFutures = []
       for sInputFilename in sInputFilenames:
           sFilename = os.path.splitext(os.path.basename(sInputFilename))[0]
           sOutputFilename = os.path.join(sOutputFolder, sFilename + '_翻译结果.xlsx')
           lstFutures.append(executor.submit(TranslateTable, sInputFilename, sOutputFilename))
       for future in tqdm(as_completed(lstFutures), total=len(lstFutures)):
           pass

控制台显示进度

使用 concurrent.futures.as_completed 函数显示进度条。

完整源码

# -*- coding: utf-8 -*-
# time: 2022/2/17 03:06
# file: test.py
# author: Shi Yasong

"""
主要功能功能:
    1、读取一个表格文件,获取需要翻译的文本。
    2、使用百度翻译 API 进行翻译,获取翻译结果。
    3、将翻译结果保存到原表格中,然后提取需要的列组成一个新的 DataFrame。
    4、处理多个表格文件,将它们的翻译结果合并到一个 DataFrame 中,然后分别保存。
    5、使用线程池加速翻译过程,可以同时翻译多个表格
    6、使用  concurrent.futures.as_completed 函数显示进度条。
"""

from concurrent.futures import ThreadPoolExecutor, as_completed
from tqdm import tqdm  # 进度条库,需要先安装

import pandas as pd
import requests
import json
import os
import hashlib
import random

def Translate(sText, from_lang='en', to_lang='zh'):
    appid = 'xxxx'
    secret_key = 'xxxxx'
    url = 'https://fanyi-api.baidu.com/api/trans/vip/translate'
    salt = random.randint(32768, 65536)
    sign = hashlib.md5((appid + sText + str(salt) + secret_key).encode()).hexdigest()
    params = {
        'q': sText,
        'from': from_lang,
        'to': to_lang,
        'appid': appid,
        'salt': salt,
        'sign': sign
    }
    response = requests.get(url, params=params)
    result = json.loads(response.content.decode())
    if result.get('error_code') is not None:
        return None
    return result['trans_result'][0]['dst']

def TranslateTable(sInputFilename, sOutputFilename):
    # 读取表格A并选择需要翻译的列
    df_a = pd.read_excel(sInputFilename) # 获取df对象
    df_a = df_a.iloc[:, [1, 2]]  # iloc和loc很像,i=index,
    # 翻译英文列
    df_a['translation'] = df_a.iloc[:, 0].apply(Translate)
    # 创建表格B并保存
    df_b = pd.DataFrame({
        '原文': df_a.iloc[:, 0],
        '译文': df_a.iloc[:, 2]
    })
    df_b.to_excel(sOutputFilename, index=False)

def TranslateTables(sInputFolder, sOutputFolder):
    sInputFilenames = [os.path.join(sInputFolder, f) for f in os.listdir(sInputFolder) if f.endswith('.xlsx')]
    with ThreadPoolExecutor() as executor:
        lstFutures = []
        for sInputFilename in sInputFilenames:
            sFilename = os.path.splitext(os.path.basename(sInputFilename))[0]
            sOutputFilename = os.path.join(sOutputFolder, sFilename + '_翻译结果.xlsx')
            lstFutures.append(executor.submit(TranslateTable, sInputFilename, sOutputFilename))
        for future in tqdm(as_completed(lstFutures), total=len(lstFutures)):
            pass

# 调用函数翻译多个表格
sInputFolder = r'C:\Users\lenovo\Desktop\english'  # 修改为实际的表格文件夹路径
sOutputFolder = r'C:\Users\lenovo\Desktop\zh'  # 修改为实际的表格文件夹路径
TranslateTables(sInputFolder, sOutputFolder)

来源:https://blog.csdn.net/weixin_44146046/article/details/129103372

标签:python,批量,翻译
0
投稿

猜你喜欢

  • Zabbix 2.4.5自带MySQL监控的配置使用教程

    2024-01-24 06:00:52
  • 关于应用UI组件的移动端适配方式

    2024-04-27 16:12:01
  • SaaS中的用户体验设计

    2009-05-20 12:28:00
  • Python模块搜索路径代码详解

    2021-07-11 10:37:17
  • pycharm debug 断点调试心得分享

    2022-11-12 05:10:06
  • Appium自动化测试中获取Toast信息操作

    2022-05-12 07:10:48
  • 如何调用Oracle存储过程?

    2009-11-15 20:13:00
  • 在PyCharm环境中使用Jupyter Notebook的两种方法总结

    2021-10-07 08:06:32
  • 详谈js遍历集合(Array,Map,Set)

    2024-04-16 09:29:53
  • 用CSS3和HTML5五步打造便签效果

    2012-04-25 20:47:51
  • js表格排序实例分析(支持int,float,date,string四种数据类型)

    2024-05-03 15:30:24
  • python Windows最新版本安装教程

    2023-02-25 21:09:52
  • Python可视化程序调用流程解析

    2022-07-18 15:53:07
  • 十个惊艳的Pythonic单行代码

    2022-07-29 06:34:20
  • Python显示进度条的方法

    2023-05-25 07:38:30
  • 基于Python制作短信发送程序

    2022-06-19 16:47:25
  • MySQL表的重命名字段添加及字段属性修改操作语法

    2024-01-21 07:18:35
  • 移动测试开发Mitmproxy用于测试抓包神器详解

    2023-08-30 23:34:55
  • 有关简洁网页设计需知的6点技巧

    2012-04-25 20:55:01
  • Python正则表达式re模块详解(建议收藏!)

    2022-07-28 04:52:46
  • asp之家 网络编程 m.aspxhome.com