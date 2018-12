Bu makalenin farklı dillerde bulunduğu adresler: English Deutsch Francais Turkce

Kâğıttan HTML 'e dönüşüm için bir araç zinciri Özet: Burada, bir geleneksel kâğıt dergiyi HTML 'e çevirmek için kullanılan bir araç zinciri anlatılmaktadır. Taramadan html biçimine kadar olan süreci açıklayacağım.

Giriş

Bazı US üniversitelerinin Google 'a, kütüphanelerini dijitalleştirmek (sayısal ortama aktarmak) için, yardım edeceğini veya izin vereceğini okudum. Ben Google değilim ve bir üniversite kütüphanem yok; fakat elektronik hakkında bazı eski kâğıt dergilerim var. Ve kâğıt kalitesi iyi değil: Sayfalar işe yaramaz hale gelmeye başladı, grileşti...

Daha sonra dijitalleştirmeye karar verdim; çünkü konular yaklaşık olarak 10 yıl önce kapanmasına rağmen, bazı makaleler daima güncel!

Donanım

Başlamak için, veriyi bilgisayara aktarmak gerekli. Bir tarayıcı bana bunu yapmama izin verir: bazı uyumluluk denetimlerinden sonra bir tarayıcı aldım, kullanılmış fakat ucuz ScanJet 4300C. Ve biraz internet gezintisiyle, onu yapılandırmak için gerekli ayarları buldum.

Debian 'da, sane, xsane, gocr ve gtk-ocr 'ı olağan şekliyle kurdum:

apt-get install sane xsane gocr gtk-ocr

sane-find-scanner

hp niash

/dev/usb/scanner0 option connect-device

chgrp scanner scanner0

adduser iznogood scanner

append="hdb=ide-scsi ignore hdb"



lilo

/dev/sdc0 /dvdrom iso9660 user, noauto 0 0

chgrp cdrom scd0

Yazılım

İşleme devam etmek için, bazı yazılımlara gereksinimim vardı:

sane, xsane, gimp, gocr, gtk-ocr, bir metin editörü, bir html editörü ve biraz disk alanı.



Sane tarayıcı arka ucu (arka plan işlerini yapan program veya program parçası) ve xsane grafiksel ön uç (kullanıcı arabiriminden sorumlu olan program veya program parçası).

Amacım çözünürlüğü maksimum tutmak ve her sayfa için 50 MB bir dosya elde etmek, üzerinde çalışmak için bir sabitdiskte depolamak ve tamamlandığı zaman, bir DVD-ROM üzerine saklamaktı.

Çözünürlüğü 600 dpi 'a getirdim, biraz daha parlaklık verdim ve dönüştürmeye başladım. Çok eski bir bilgisayar olduğundan (bir PII 350 MHz), biraz zaman aldı fakat iyi ve doğru bir görüntüye sahip oldum. Onu png biçiminde sakladım.

Neden böyle bir çözünürlük ve 50 MB dosya? Arşiv ve ilerideki sayısal işleme için çözünürlüğü maksimum tutmak istedim.

Gimp kullanarak sayfayı grafiksel görüntülere ve sadece taranmış metin içeren görüntülere kestim.

Grafikler, html sayfasına uyacak şekilde küçültülmüş boyutlarla, png olarak saklandı ve metin görüntüleri küçültülmedi, ama renkliden gri ve tonlarına dönüştürüldü (Tools, Colors Tools, Threshold ve Ok) ve optik tanıma yazılımıyla işlemek için .pcx uzantısıyla saklandı.







cat *.txt > test.txt





Bash betikleme

Gençliğimde bana bu atasözünü söyleyen, bir matematik öğretmenini daima hatırlarım:



"Tembel olmak için, zeki olman gerekir".



Tamam, tembel olmaya başladım !!!! ;-)

Kolaylıkla otomatikleştirilmeyen bazı el yordamı gerektiren bölümler var (dizin yaratılması, tarama, gimp 'te kesme biçme ve dosya yaratılması). Geri kalanını otomatikleştirebilirsiniz.

Bash betikleme hakkında inanılmaz bir İngilizce öğretici var, ABS (Advanced Bash Scripting Guide) (İleri Bash Betikleme Kılavuzu), ve bir Fransızca çevirisini buldum.

İngilizce versiyonunu www.tldp.org 'da bulabilirsiniz.

Bu kılavuz küçük bir program yazmama izin verdi. İşte betik:

#!/bin/bash REPERTOIRE=$(pwd) cd $REPERTOIRE mkdir ../ima mv *.png ../ima/ for i in `ls *` do gocr -f UTF8 -i $i -o $i.txt done cd .. mv ima/ $REPERTOIRE cd $REPERTOIRE cat *.txt | sed -e 's/_//g' -e 's/(PICTURE)//g' -e 's/ì/i/g' \ -e 's/í/i/g' -e 's/F/r/g' -e 's/î/i/g' > test.txt

ocr-rp

Sonuç

