核心能力
🔄 格式批量转换
Pandoc
Python-docx
PyPDF2
- Markdown ↔ Word (.docx) 批量转换
- Word ↔ PDF 批量转换
- HTML ↔ Markdown 批量转换
- 图片格式批量转换(PNG/JPG/WebP)
📝 模板化文档生成
- 从模板批量生成 PRD、设计文档
- 数据驱动的报表生成(填充模板变量)
- 多语言文档翻译(支持游戏出海)
- 合同/协议批量生成
📑 文档批量操作
- 批量重命名、分类整理
- 批量提取元数据(标题、作者、日期)
- 批量添加页眉页脚、水印
- 批量合并、拆分 PDF
🌐 多语言翻译
- 游戏文案批量翻译(中英日韩)
- 术语库管理(保持翻译一致性)
- 翻译记忆库(TM)复用
- 格式保持翻译(Markdown、HTML)
常用代码示例
Markdown ↔ Word 转换
import pypandoc
# Markdown to Word
output = pypandoc.convert_file('input.md', 'docx',
outputfile='output.docx')
# Word to Markdown
output = pypandoc.convert_file('input.docx', 'md',
outputfile='output.md')
# 批量转换
import os
for file in os.listdir('docs/'):
if file.endswith('.md'):
pypandoc.convert_file(f'docs/{file}', 'docx',
outputfile=f'word/{file[:-3]}.docx')
PDF 批量处理
from PyPDF2 import PdfMerger, PdfReader
import os
# 批量合并 PDF
merger = PdfMerger()
for pdf in sorted(os.listdir('pdfs/')):
if pdf.endswith('.pdf'):
merger.append(f'pdfs/{pdf}')
merger.write('merged.pdf')
merger.close()
# 批量提取文本
for pdf in os.listdir('pdfs/'):
reader = PdfReader(f'pdfs/{pdf}')
text = '\n'.join([page.extract_text() for page in reader.pages])
with open(f'texts/{pdf[:-4]}.txt', 'w') as f:
f.write(text)
模板化文档生成
from docxtpl import DocxTemplate
# 加载模板
doc = DocxTemplate('template.docx')
# 填充数据
context = {
'game_name': '象棋大师',
'version': 'v1.2.0',
'date': '2024-03-10',
'features': ['AI对战', '10个关卡', '音效系统']
}
# 生成文档
doc.render(context)
doc.save('output/象棋大师_PRD_v1.2.0.docx')
项目应用案例
🎮 游戏出海文档准备
- 批量翻译游戏文案(中→英/日/韩)
- 生成多语言商店图文字说明
- 本地化测试报告批量生成
📊 自动化周报/月报
- 从数据自动生成图表报表
- 填充模板生成 Word/PDF 报告
- 批量发送邮件附件