python批量翻译excel表格中的英文

作者：松哥真的一米九时间：2022-11-16 08:09:07　

需求背景

女朋友的论文需要爬取YouTube视频热评，但爬下来的都是外文。

主要设计

读取一个表格文件，获取需要翻译的文本
使用百度翻译 API 进行翻译，获取翻译结果
将翻译结果保存到原表格中，然后提取需要的列组成一个新的 DataFrame
处理多个表格文件，将它们的翻译结果分别保存
使用线程池加速翻译过程，可以同时翻译多个表格
显示进度条

分析

目标文件为xlsx格式，可以借助pandas进行读取文件和生成文件的操作。在这里我的源文件有若干列，其中第2列评论内容为我的目标列。
在这里我用的是百度翻译api接口。也可以googletrans、translate，这些库可以在本地使用，不需要申请API密钥，但是翻译质量和速度可能不如云服务。
由于我每个表格有2000行数据，总共有10个表格，一个个来的话不仅麻烦效率还低。
我需要知道任务的进度，不想一直等下去

具体实现

表格操作

def TranslateTable(sInputFilename, sOutputFilename):
# 读取表格A并选择需要翻译的列
df_a = pd.read_excel(sInputFilename) # 获取df对象
df_a = df_a.iloc[:, [1, 2]] # iloc和loc很像，i=index，
# 翻译英文列
df_a['translation'] = df_a.iloc[:, 0].apply(Translate)
# 创建表格B并保存
df_b = pd.DataFrame({
'原文': df_a.iloc[:, 0],
'译文': df_a.iloc[:, 2]
})
df_b.to_excel(sOutputFilename, index=False)

请求百度翻译api

def Translate(sText, from_lang='en', to_lang='zh'):
appid = 'xxxxxx'
secret_key = 'xxxxxx'
url = 'https://fanyi-api.baidu.com/api/trans/vip/translate'
salt = random.randint(32768, 65536)
sign = hashlib.md5((appid + sText + str(salt) + secret_key).encode()).hexdigest()
params = {
'q': sText,
'from': from_lang,
'to': to_lang,
'appid': appid,
'salt': salt,
'sign': sign
}
response = requests.get(url, params=params)
result = json.loads(response.content.decode())
if result.get('error_code') is not None:
return None
return result['trans_result'][0]['dst']

多线程

使用concurrent.futures库中的 ThreadPoolExecutor类来实现多线程处理。

创建一个 ThreadPoolExecutor对象。
在循环中遍历每个表格A，并使用 submit方法向线程池提交任务。 submit方法将表格A的文件名和表格B的文件名作为参数传递给 translate_column函数，该函数将在单独的线程中执行。

ThreadPoolExecutor会自动管理线程池的大小，并在有空闲线程时分配新任务。这种方式可以利用多个CPU核心来并行处理多个表格，提高处理速度。

def TranslateTables(sInputFolder, sOutputFolder):
sInputFilenames = [os.path.join(sInputFolder, f) for f in os.listdir(sInputFolder) if f.endswith('.xlsx')]
with ThreadPoolExecutor() as executor:
lstFutures = []
for sInputFilename in sInputFilenames:
sFilename = os.path.splitext(os.path.basename(sInputFilename))[0]
sOutputFilename = os.path.join(sOutputFolder, sFilename + '_翻译结果.xlsx')
lstFutures.append(executor.submit(TranslateTable, sInputFilename, sOutputFilename))
for future in tqdm(as_completed(lstFutures), total=len(lstFutures)):
pass

控制台显示进度

使用 concurrent.futures.as_completed 函数显示进度条。

完整源码

# -*- coding: utf-8 -*-
# time: 2022/2/17 03:06
# file: test.py
# author: Shi Yasong

"""
主要功能功能：
1、读取一个表格文件，获取需要翻译的文本。
2、使用百度翻译 API 进行翻译，获取翻译结果。
3、将翻译结果保存到原表格中，然后提取需要的列组成一个新的 DataFrame。
4、处理多个表格文件，将它们的翻译结果合并到一个 DataFrame 中，然后分别保存。
5、使用线程池加速翻译过程，可以同时翻译多个表格
6、使用 concurrent.futures.as_completed 函数显示进度条。
"""

from concurrent.futures import ThreadPoolExecutor, as_completed
from tqdm import tqdm # 进度条库，需要先安装

import pandas as pd
import requests
import json
import os
import hashlib
import random

def Translate(sText, from_lang='en', to_lang='zh'):
appid = 'xxxx'
secret_key = 'xxxxx'
url = 'https://fanyi-api.baidu.com/api/trans/vip/translate'
salt = random.randint(32768, 65536)
sign = hashlib.md5((appid + sText + str(salt) + secret_key).encode()).hexdigest()
params = {
'q': sText,
'from': from_lang,
'to': to_lang,
'appid': appid,
'salt': salt,
'sign': sign
}
response = requests.get(url, params=params)
result = json.loads(response.content.decode())
if result.get('error_code') is not None:
return None
return result['trans_result'][0]['dst']

def TranslateTable(sInputFilename, sOutputFilename):
# 读取表格A并选择需要翻译的列
df_a = pd.read_excel(sInputFilename) # 获取df对象
df_a = df_a.iloc[:, [1, 2]] # iloc和loc很像，i=index，
# 翻译英文列
df_a['translation'] = df_a.iloc[:, 0].apply(Translate)
# 创建表格B并保存
df_b = pd.DataFrame({
'原文': df_a.iloc[:, 0],
'译文': df_a.iloc[:, 2]
})
df_b.to_excel(sOutputFilename, index=False)

def TranslateTables(sInputFolder, sOutputFolder):
sInputFilenames = [os.path.join(sInputFolder, f) for f in os.listdir(sInputFolder) if f.endswith('.xlsx')]
with ThreadPoolExecutor() as executor:
lstFutures = []
for sInputFilename in sInputFilenames:
sFilename = os.path.splitext(os.path.basename(sInputFilename))[0]
sOutputFilename = os.path.join(sOutputFolder, sFilename + '_翻译结果.xlsx')
lstFutures.append(executor.submit(TranslateTable, sInputFilename, sOutputFilename))
for future in tqdm(as_completed(lstFutures), total=len(lstFutures)):
pass

# 调用函数翻译多个表格
sInputFolder = r'C:\Users\lenovo\Desktop\english' # 修改为实际的表格文件夹路径
sOutputFolder = r'C:\Users\lenovo\Desktop\zh' # 修改为实际的表格文件夹路径
TranslateTables(sInputFolder, sOutputFolder)

来源：https://blog.csdn.net/weixin_44146046/article/details/129103372

标签：python,批量,翻译

投稿

python批量翻译excel表格中的英文

需求背景

主要设计

分析

具体实现

表格操作

请求百度翻译api

多线程

控制台显示进度

完整源码

猜你喜欢

Zabbix 2.4.5自带MySQL监控的配置使用教程

关于应用UI组件的移动端适配方式

SaaS中的用户体验设计

Python模块搜索路径代码详解

pycharm debug 断点调试心得分享

Appium自动化测试中获取Toast信息操作

如何调用Oracle存储过程？

在PyCharm环境中使用Jupyter Notebook的两种方法总结

详谈js遍历集合(Array,Map,Set)

用CSS3和HTML5五步打造便签效果

js表格排序实例分析（支持int,float,date,string四种数据类型）

python Windows最新版本安装教程

Python可视化程序调用流程解析

十个惊艳的Pythonic单行代码

Python显示进度条的方法

基于Python制作短信发送程序

MySQL表的重命名字段添加及字段属性修改操作语法

移动测试开发Mitmproxy用于测试抓包神器详解

有关简洁网页设计需知的6点技巧

Python正则表达式re模块详解(建议收藏!)