我从银行获得了一份扫描的图像文档,我想在 Ubuntu 中将其转换为带有图像的普通文本文档。
有没有什么工具可以做到呢?
答案1
答案2
您需要首先在 Linux 机器上安装“tesseract-ocr”。
sudo apt-get install tesseract-ocr
您可以从命令行手动执行此操作:
tesseract -l eng input.jpg output
或者,我已经编写了 PHP 代码来执行相同的操作,如果您愿意,可以使用它。
注意:要运行此代码,执行应该在 php.ini 中启用命令。
<?php
//IMAGE TO TXT Conversion
$input_file = $_REQUEST['input_file'];
$out = explode(".",$input_file);
$output_file = $out[0]."_".$out[1];
$output_file_name = $output_file.".txt";
echo "<br />----IMAGE To TXT conversion Started-----</br />";
echo exec('tesseract '.$input_file.' '.$output_file);
echo "<br />----TXT conversion Done-----</br />";
echo "<br /><b>Please Check----->".$output_file.".txt</b><br />";
echo "Click <a target='_blank' href='".$output_file_name."'>Here </a>to view it<br />";
?>
将此代码放在根文件夹中并从浏览器访问它,例如:
http://yourserver.com?input_file=1.png
注意:该文件1.png
应存在于您当前的目录中。