需要对上万张图像进行OCR识别。OCR算法原型用matlab脚本实现,对每张图逐行逐字符识别,整体计算时间很长。找多核多CPU并行执行的方案
Matlab有并行工具箱。可以使用parfor对循环进行并行处理,parfor要求循环之间的运算独立不相关;另一种方式用SPMD模式,类似多线程/多进程方式,每个后台计算单位(worker)都有唯一标识(labindex),类似openmp里的线程id或是mpi里的rank, 同时可以获取worker数量(numlabs), 对多数应用,通过{labindex,numlabs}信息即可对整体计算进行任务划分,每个worker对应一个任务,所有任务完成后,可将计算结果进行合并,最终获取最后结果。SPMD模式还可以支持worker之间的信息交换,暂时没有用到
Matlab中用parpool命令启动worker池环境! 命令细节查看parpool文档
有nPNG张图片,放在工作目录下,需要对每张图片进行单独OCR识别,结果写到文本文件内,图片识别顺序不重要。
%.... 初始化...
%获取所有png图片列表
pngs =dir(strcat(imgDir,'\*.png');
nPng=length(pngs);
spmd
%worker的rank
labindex
%outfile,fp都是worker私有的
outfile=['spmd.dir/outfile.txt' num2str(labindex,'%02d'];
fp=fopen(outfile,'wt+');
%依据labindex,numlabs对数据集进行worker之间任务划分
for i=labindex:numlabs:nPng
png=strcat(pngs(i).folder, '\', pngs(i).name);
%...图像前处理...
ocr(png,fp,...);
end
fclose(fp);
end
%.....收尾汇总....