lf382, Applications: Kâğıttan HTML 'e dönüşüm için bir araç zinciri

<-- | Ana Sayfa | Erişimdüzeni | İçindekiler | Arama

Duyumlar

Belgelikler

Bağlantılar

LF Nedir

Bu makalenin farklı dillerde bulunduğu adresler: English Deutsch Francais Turkce

Iznogood
<iznogood/at/iznogood-factory.org>

Yazar hakkında:

Bir süreliğine GNU/Linux ile ilgilendim ve şu anda Debian sistemi kullanıyorum. Elektronik çalışmalara rağmen; çoğunlukla, GNU/Linux topluluğu için, bir Fransızca çeviri çalışması yapıyorum.

Türkçe'ye çeviri:
ONUR YILMAZ <onur2029(at)yahoo.com>

İçerik:

Kâğıttan HTML 'e dönüşüm için bir araç zinciri

Özet:

Burada, bir geleneksel kâğıt dergiyi HTML 'e çevirmek için kullanılan bir araç zinciri anlatılmaktadır. Taramadan html biçimine kadar olan süreci açıklayacağım.

_________________ _________________ _________________

Giriş

Bazı US üniversitelerinin Google 'a, kütüphanelerini dijitalleştirmek (sayısal ortama aktarmak) için, yardım edeceğini veya izin vereceğini okudum. Ben Google değilim ve bir üniversite kütüphanem yok; fakat elektronik hakkında bazı eski kâğıt dergilerim var. Ve kâğıt kalitesi iyi değil: Sayfalar işe yaramaz hale gelmeye başladı, grileşti...
Daha sonra dijitalleştirmeye karar verdim; çünkü konular yaklaşık olarak 10 yıl önce kapanmasına rağmen, bazı makaleler daima güncel!

Donanım

Başlamak için, veriyi bilgisayara aktarmak gerekli. Bir tarayıcı bana bunu yapmama izin verir: bazı uyumluluk denetimlerinden sonra bir tarayıcı aldım, kullanılmış fakat ucuz ScanJet 4300C. Ve biraz internet gezintisiyle, onu yapılandırmak için gerekli ayarları buldum.
Debian 'da, sane, xsane, gocr ve gtk-ocr 'ı olağan şekliyle kurdum:

apt-get install sane xsane gocr gtk-ocr

root iken.

Sane ve xsane benim HP tarayıcımın çalışması için gerekli olan tarayıcı araçlarıdır.
Gocr ve gtk-ocr metine dönüşmüş bir görüntü yapan araçlardır.

Tarayıcı bir USB tarayıcı:

sane-find-scanner

sonra bazı dosyaları düzenlemek için /etc/sane.d/ 'e gittim:
dll.conf içinde, şunları

hp
niash

ve diğer her şeyi yorum konumundan çıkarttım (satır başlarındaki # 'leri kaldırarak).

hp.conf ve niash.conf içine, şunları yazdım:

/dev/usb/scanner0
option connect-device

ve diğer her şeyi yorum konumundan çıkarttım.

Aygıt dosyasının /dev/usb/scanner gurup sahipliğini şununla değiştirdim

chgrp scanner scanner0

ve tarayıcıyı root olmadan kullanabilmek için kullanıcı olarak iznogood 'u ekledim:

adduser iznogood scanner

Bir yeniden başlatma ve tamamlandı!

Görüntüleri depolamak için, DVD yazıcılar iş yapmaya yeterince ucuz, örneğin bir NEC 3520. Eski bir çekirdeğim var (2.4.18) bu yüzden, IDE yakıcı SCSI arabirimini kullanır:
modconf ile, ide-scsi 'yi yüklettim

ve /etc/lilo.conf 'a şunu ekledim:

append="hdb=ide-scsi ignore hdb"

sonra

 lilo

işleme sokulması amacıyla.
/etc/fstab içine, şunu ekledim:

/dev/sdc0    /dvdrom     iso9660    user, noauto     0  0

Sonra scd0 gurubunu cdrom 'a değiştirdim

chgrp cdrom scd0

Oldukça kolay.

Yazılım

İşleme devam etmek için, bazı yazılımlara gereksinimim vardı:
sane, xsane, gimp, gocr, gtk-ocr, bir metin editörü, bir html editörü ve biraz disk alanı.

Sane tarayıcı arka ucu (arka plan işlerini yapan program veya program parçası) ve xsane grafiksel ön uç (kullanıcı arabiriminden sorumlu olan program veya program parçası).
Amacım çözünürlüğü maksimum tutmak ve her sayfa için 50 MB bir dosya elde etmek, üzerinde çalışmak için bir sabitdiskte depolamak ve tamamlandığı zaman, bir DVD-ROM üzerine saklamaktı.
Çözünürlüğü 600 dpi 'a getirdim, biraz daha parlaklık verdim ve dönüştürmeye başladım. Çok eski bir bilgisayar olduğundan (bir PII 350 MHz), biraz zaman aldı fakat iyi ve doğru bir görüntüye sahip oldum. Onu png biçiminde sakladım.
Neden böyle bir çözünürlük ve 50 MB dosya? Arşiv ve ilerideki sayısal işleme için çözünürlüğü maksimum tutmak istedim.
Gimp kullanarak sayfayı grafiksel görüntülere ve sadece taranmış metin içeren görüntülere kestim.
Grafikler, html sayfasına uyacak şekilde küçültülmüş boyutlarla, png olarak saklandı ve metin görüntüleri küçültülmedi, ama renkliden gri ve tonlarına dönüştürüldü (Tools, Colors Tools, Threshold ve Ok) ve optik tanıma yazılımıyla işlemek için .pcx uzantısıyla saklandı.

Taranmış görüntünün tamamını sağ üstte ve kesik parçaları solda görebilirsiniz.
Resmi keserken, başlıkları kaldırabilirsiniz; çünkü fazla alan işgal ediyorlar ve gocr tarafından tanınmayacaklar.
Görüntüler için bir ima alt dizini yaratırım ve .pcx dosyalarından ayırırım.

Şimdi gtk-ocr zamanı, gocr ön ucu. gocr bir optik karakter tanıma yazılımıdır. Kullanması çok kolay: Sadece dosyaları seçmem gerekir ve gtk-ocr her şeyi yönetir. Bana her işlenmiş .pcx dosyası için bir .txt dosyası verdi.

Kolaylıkla

 cat *.txt > test.txt

bir test.txt 'te sahip oldum ve bir metin editörüyle bazı ayarlamalar yapmam gerekti. (fransızca olmayan karakterler kaldırıldı, sözcükler düzeltildi...).

Html editörüne bir Kopyala/Yapıştır, benim için Mozilla Composer, ve html kompozisyonuna başladım (resimleri eklediğiniz zaman sadece ilişkili bağlantılara (links) sahip olduğunuza dikkat edin).

Bash betikleme

Gençliğimde bana bu atasözünü söyleyen, bir matematik öğretmenini daima hatırlarım:

"Tembel olmak için, zeki olman gerekir".

Tamam, tembel olmaya başladım !!!! ;-)
Kolaylıkla otomatikleştirilmeyen bazı el yordamı gerektiren bölümler var (dizin yaratılması, tarama, gimp 'te kesme biçme ve dosya yaratılması). Geri kalanını otomatikleştirebilirsiniz.
Bash betikleme hakkında inanılmaz bir İngilizce öğretici var, ABS (Advanced Bash Scripting Guide) (İleri Bash Betikleme Kılavuzu), ve bir Fransızca çevirisini buldum.
İngilizce versiyonunu www.tldp.org 'da bulabilirsiniz.
Bu kılavuz küçük bir program yazmama izin verdi. İşte betik:


#!/bin/bash

REPERTOIRE=$(pwd)
cd $REPERTOIRE
mkdir ../ima
mv *.png ../ima/
for i in `ls *`
do
 gocr -f UTF8 -i $i -o $i.txt
done
cd ..
mv ima/ $REPERTOIRE
cd $REPERTOIRE
cat *.txt | sed -e 's/_//g'  -e 's/(PICTURE)//g' -e 's/ì/i/g' \
-e 's/í/i/g' -e 's/F/r/g' -e 's/î/i/g' > test.txt

Dosya çalıştırılabilir olarak değiştirildi ve /usr/local/bin 'e root olarak ocr-rp ismiyle kopyalandı.

Çalışması için, işlenecek dizinde olmamız gerekir.Bunu çalıştırın:

ocr-rp

pwd betiğe dizin yolunu verecek, sonra dizinin dışına ima yaratılır ve tüm .png dosyaları içine taşınır. Tüm .txt dosyaları sonra listelenir, gocr ile işlemden geçirilir, test.txt 'de birleştirilir ve Fransızca karakterleri uydurmak için bazı değişiklikler yapılır.

Ve aynı işleme önceden olduğu gibi devam ederiz: Mozilla Composer 'a kopyala/yapıştır .
En tembelce çözüm, betiğin bazı sayfa başlıklarını ve altlıklarını metin dosyasına eklemesini, bunu saklamasını ve Mozilla Composer 'ı doğrudan açmasını sağlamak olurdu fakat fazla tembelim. Bunu yarın yapacağım!!!! ;-)

Sonuç

Bu, dijitalleştirme araçları hakkında sadece bir gözden geçirmeydi ve açıkçası, bunu yapmak için birden fazla ve daha iyi yollar vardır. Fakat GNU/Linux dünyasında bir gerçek vardır: donanım araçları her yıl daha iyi desteklenir ve kullanımı kolaylaştırılır.
Örneğin, benim 50 MB görüntüleri tutmak için bir DVD yazıcı kullandım. Kurulumu 10 dakikamı aldı ve k3b ile sıkıntı olmadan çalıştı (Sadece yaptığım: apt-get install dvdrtools dvd+rwtools).
Fakat eski bir PII 350, 192MB RAM, ucuz bir tarayıcı, DVD yazıcı, biraz sabitdisk alanı ile, elektronikle ilgili eski bir kâğıt dergiye "ölümsüzlük" vermek için yeterince iyi bir dijitalleştirme aracına sahipsiniz. Dijitalleştirme yapmak için kullandığım araçların ana sayfaları:

scanner bir HP ScanJet 4300C
sane, www.sane-project.org
xsane, www.xsane.org
gimp, www.gimp.org
gocr, gtk-ocr jocr.sourceforge.net
ABS www.tldp.org 'da
DVD yakıcı: NEC 3520
k3b www.k3b.org

Bu yazı için görüş bildiriminde bulunabilirsiniz

Her yazı kendi görüş bildirim sayfasına sahiptir. Bu sayfaya yorumlarınızı yazabilir ve diğer okuyucuların yorumlarına bakabilirsiniz.

talkback page

<--, Bu sayının ana sayfasına gider

Çeviri bilgisi:

en --> -- : Iznogood <iznogood/at/iznogood-factory.org>

en --> fr: Iznogood <iznogood/at/iznogood-factory.org>

en --> tr: ONUR YILMAZ <onur2029(at)yahoo.com>

2005-08-25, generated by lfparser version 2.46