You are viewing a read-only archive of the Blogs.Harvard network. Learn more.

Onwards – װײטער

ø

הײַנט איך קענ אָנהײב צו פּראָצעס די גאַנצע בוך, טעװיע דער מילכיקער און נאָך דאָס איך קען שיקן די טעקסט און פֿאָטאָגראַפֿיעס צו די פֿאַרטײַלענדיק רעדאַקטירן. איך װיל װײַטער צו אַרבײַט און שרײַבן.

אַ שײנעם דאַנק. איך האָפֿ אַז דאָס קען זײַן אַ רעסורס פֿאָר אָנדערן.

Today I can begin to process the entire book, Tevye the Milkhiker, and after that I can send the text and photographs to Distributed Proofreaders. I well continue to work and write.

Thanks for reading. I hope this will be a helpful resource for others.

Copyrights – דרוקרעכטן

ø

צו דעמאָנסטרירן אַז די דרוכרעכט פֿאָר די בוכ האָט גענדיקט איך מוסט שרײַבן אַ פֿאָרעם פֿוJ פּראָיעקט גוטענבערג. טװעלפֿ טעג צוריק, האָט איך געשיקן דאָס פֿאָרעם.

נעכטנ בײַ נאכט, איך האָב באַקומען אַ בליצ-בריװלן װי האָט געזאַגט אַז די דרוכרעכט איז קלור. גוט!

To demonstrate that the copyright for the book has ended, I must fill out a copyright clearance form Project Gutenberg. Twelve days ago I sent out the form show above.

Last night I received a friendly email informing me that the copyright had cleared. So now we are ready to go OCR and upload the text.

Distrubted proofreeding – פארטײלענדיק רעדאקטירן

ø

אױב מען װיל פּראָצעסירן אַ גאַנצע בוך מיט אַפֿילו די בעסטער אָפּטיש אותיות דערקענונג, מוזט מען טאַקאַ רעדאַקטירט אַ סאַך דרוקגרײַזן. צום גליק, זײַנען דאָ פּראָיעקטן פֿאָר װאָלונטירן פֿון די גאַנצע װעלט צו העלפֿן. פּראָיעקט גוטענבערג האָט אַ סאַך פֿאַרטײַלענדיק רעדאַקטירן װעבצײַטן. ער איז אַ פֿאַרטײַלענדיק רעדאַקטירן פֿאָר אַמעריקאַ, און פֿאָר קאַנאַדאַ און פֿאָר אײראָפּע. דו קאַנאַדאַ און אײראָפּע װעבצײַט קען פֿאַרשטײן לושן-קודש אותות. פֿאַר בײַשפּיל, אין די פֿאָטאָגראַפֿיע, קען מען זען אַ לושן-קודש טעקסט װי מען קען רעדאַקטירן.

איך װיל געבן מײַן טעקסט מיט די אָרגינאַלישער פֿאָטאָגראַפֿיעס צו דאָס װעבצײַט פֿאָר מענטשן צו העלפֿן רעדאַקטירן. אָנהײַב, איך מוזט דעמאָנסטרירן אַז די דרוכרעכט פֿאָר די בוכ האָט גענדיקט.

If one wishes to OCR an entire book, then one is going to need to a lot of editing to fix typos and the like. Fortunately, there are projects for volunteers from all over the world to help. Project Gutenberg has a number of Distributed Proofreading websites. There is an American Site, Distributed Proofreaders, a European Site, Distributed Proofreaders Europe, and a Canadian Site, Distributed Proofreaders Canada. The European and Canadian site supports UTF-8 encoding and thus can handle Hebrew characters. In the photograph you can see an example from Distributed Proofreaders Europe of editing a Hebrew text. I’d like to upload the text and photographs from the Sholem Aleichmebook to one of these sites. But first I need to demonstrate that the copyright has expired.

hocr (Hebrew OCR)

ø

אָריגינאַל׃
http://hocr.berlios.de

נײַער׃
http://code.google.com/p/hebocr/

דאָס איז אַ פֿרײַ אָפֿן-קאָד פּראָגראַם װי װאָלונטירן האָבן געשריבן. ער איז אַ נײַער עדיציע אָבער איך האָב געפּרוװט די אָלטער עדיציע. דאָס איז די שװערסטער צו אַרײַנשטעלן. מען מוזט פֿאָרשטײן אַ ביסל װעגן לינוקס און קאָמפּוטאָרן. אָבער, די פּראָגראַם אַלײַן איז זײער עלעגאַנט און כּוחדיק.
מאַך אַ בעצמדיק מאַשין און אַרײַנשטעל לינוקס. װײַטער, נאָכפֿאַלג דאָס ינסטרוקציעס׃


#ssh from the virtualbox
#install a bunch of required tools
root@core~$ apt-get update
root@core~$ apt-get install lib
root@core~$ apt-get install libtiff-tools
root@core~$ apt-get install libhocr-python
root@core~$ apt-get install gcc
root@core~$ apt-get install libhocr-dev
root@core~$ apt-get install swig
root@core~$ apt-get install make
root@core~$ apt-get install imagemagick

#download hocr
root@core~$ wget http://archive.ubuntu.com/ubuntu/pool/universe/h/hocr/hocr_0.8.2.orig.tar.
root@core~$tar -xvzf libhocr_0.8.2.orig.tar.gz

#install hocr
root@core~$ cd hocr-0.8.2/
root@core~$ ./configure --prefix=/usr
root@core~$ make all
root@core~$ make install

root@core~$ hocr -h #should see see help message
root@core~$ cd ~
#Software is installed and ready

From the desktop. Rotate the TIF file, crop it, and save it as a png image.
#Transfer the png image from the desktop to the virtualbox server
Boston: andy$ scp /Users/andy/Downloads/nybc210429_orig_tif/nybc210429_orig_0274.tif root@140.247.149.38:~/

From the virtual box:

#Convert png image into pnm format
root@core~$ convert nybc210429_orig_0274.png nybc210429_orig_0274.pnm


#Do the image recognition
root@core~$ hocr -i nybc210429_orig_0274.pnm -n -o nybc210429_orig_0274.txt -p nybc210429_orig_0274_annotated.pnm


#convert the annotated image back
root@core~$ convert nybc210429_orig_0274_annotated.pnm nybc210429_orig_0274_annotated.png

From Desktop, transfer the annotated images and text back:

Boston: andy$ scp root@140.247.149.38:~/nybc210429_orig_0274.txt ./
Boston: andy$ scp nybc210429_orig_0274.png root@140.247.149.38:~/
#open up the text in vim
Boston: andy$ vim nybc210429_orig_0274.txt

אין סאָפֿ, מען האָט די טעקסט און אַ בילדונג מיט אַנאָטאַציעס פֿונ די פּראָגראַם. די פּראָגראַם פֿאַרשטײ די ניקודים אונ, איך מײן אַז דאָס איז בעססער װי אַדאָבי.

* כ*יו*ל **ן ביה וץ* *ילכיקן *** מ***
יי*יי** יי* ייי ייי י

לכבוד צו מי_ין געליבטן *_ערן פרי_ינד ר’ *לום עליכם, גאָ*
זאל י_יך געבן *עזונ* און פּדנסה *יש אי_יע* דוי_יכ *ון קינדער, איר
זאָלט האָבן גרויס נ*ת וווּ איר וועש זיך קערן און *וענדן, אָמן *לה!
ק*נתּי י * – באַדאַרף איך אי_יך ז ?ן *יטן לשון. וואָס יעקב
*בי*ו הא* געז ג* אין דער סדרז וי*לח כ**ת ער האָש זיך געלאָז*
גיין קעגן עשֹון, להכ*יל… צאז *אַמעכ איז *אס *פשר ניש אַז*י גלי_יך,
בע* *יך אי_יך, פּאַני *לו* צליכ*, איר זאָלפ אוי* *יר קיין פאַר-
איבל ני*ט הא*ן. איך כין אַ *אסשער תי’וקי*. איר ווייס* אַוו*אי
מץר ;פּוִן מי* – וואפ איז דא וואָפ צו *ייזן? אין אַ דאָרץ, מישטייצ*
געזאָפ*, מע ווערש פאַרגרעכט. ווִער ה?ש *י_יט אַרי_ינצוקוקן אין אַ
פפר, צי אפּלערנען אַ ;ר*ה *ומז מיש ר*י, צי וואָס? אַ **יקל
גליק, עס קומ* דער זומער, *ארן זיך צוצ*יף זי יצזוע*ער נגידי*
קיין *ויכעריק אוי* די דאַפשעס, קאָן פען זיך *אַגעגענען אַ מאָל
מיטִ אַן איידעלן מעצ*שן, האָרפן אַ גוט וואָ**. אי* עג* *יר
גלייֹבן, אַז איך דערמ?ן מיך זין יעצע שעג, ווצן איר ז_ש געזעסן
נעבן *יר אין וואַלד, אויסגעהעד* מי_יצצ נאַרי*ע מעזֹיות, *יז בי_י
*יכ גלי_יך, ווי יך זאָל פאַרדינ*ן מי י*דע וויפל! איד ווייס ני* מיט
י ז****י* פ”*, י*ז ק***י *** ה***י*… *ש* *יָי* יָי* ****ל **ין
** קלייז, ה** *י** *י **צ**, *יו *יש* ****י**.

~
~
~

די פּראָגראַם אױך איז גוט פֿאָר פּראָצעסירן אַ סאָך פֿאָטאָגראַפֿיעס אַלצ אין אײַן מאָל.

Original: http://hocr.berlios.de
Newer fork: http://code.google.com/p/hebocr/

HOCR is a free open source program written by volunteers. There is a newer fork of HOCR called hebocr, but I tried the original HOCR program. HOCR is the the hardest of the OCR programs discussed in this blog to install. One must be comfortable with Linux and using the command line. But the program itself is very elegant and powerful. The first step is to make a virtual machine and install Linux. I used Sun/Oracle VirtualBox and installed Turnkey Linux Core which contains a stripped down version of Ubuntu 10. Follow the command line instructions above. Note that here I am switching between a desktop and the Linux virtual machine to transfer files on and off.

In the end we have an illustration of the the annotated text. The program understands the vowels and I think that the result is better than Adobe.

Ulrich Greve’s OCR – ולריך גריװ

ø

ולריך גריװ האָט געשריבן אַ אָפּטיש אותיות דערקענונג ספּעציאַל פֿאַר ייִדיש. די פּראָגראַם איז פֿרײַ פֿונ זײַן װעבצײַטל.

איך האָב געפּרוװט דאָס פּראָגראַם. צום באַדױערן, מוזט מען לערנען די פּראָגראַם צו דערקענונג יעדער אותיות און ניקוד קאָמבינאַציע בײַ האַנט. איך מען אַז זײַנען דאָ מאָר װי פֿופֿציק קאָמבינאַציעס. איך לערנט די פּראָגראַם עטלעכע אותות אָבער דאָס איז אַ סאַך אַרבעט און צו פּאַמעלעך פֿאַר מיר הײַנט. איך װיל קומען צוריק צו דאָס פּראָגראַם שפּײטער.

Ulrich Greve has written an optical character recognition (OCR) program specially for Yiddish. The program is free to download from his website.

I tried this program, but unfortunately, to use it one must manually train the program to identify each letter and vowel combination by hand. I estimate there are over 50 combinations, so this is actually a bit of work. I trained a few letters and decided that it it too slow for me today. I will return to Ulrich’s software later.

Adobe Pro 9 – אדאבי

ø

אַדאָבי איז די פשוטסטער פּראָגראַם צו ניצן אָבער די רעסולטאַט איז נישט זײער גוט. צו ניצן אַדאָבי נאָכגײַן די פֿאָטאָגראַפֿיעס׃

אַדאָבי קען נישט פֿאָרשטײן קען ניקודים.

PDF Output Style: Searchable Image (exact)


קטנתי
~ כרייזל פזן טביה זעם מילכיקן צזם מחכר
געשר’בן א’ן ר~’ 1895
לכבוך צר מ~ן געליבטן ט~ערן פר~נד ר’ שלרם עליכם, ג~ט
ז~ל א’!בד געבן געזרנט ארן פרנסה מיט א~ער יר~ב ארן קינדער, איר
I ז~לט ה~בן גרריס נחת ררי איר ררעט זיד קערן ארן ררענדן, ~מן סלה
ס יעקב I$ י 1 ! – ב~ד~רף איד א~ד ז~גן מיטן לשרן, רר Fl קטנ
ג$בינר הג$ט געז~גט אין דער סדרה וישלח בשעת ער ה~ט זיד געל~זט
ס אפשר ניט ~זוי גל~ד, t גיין קעגן עשרן, להבדיל … נ~ר ט~מער איז דז
כעט איד א’!בד, פ~ני שלרם עליכם, איר ז~לט אריף מיר קיין פ~ר-
איכל נישט ה~בן. איד בין ~ פר~סטער חי-רקים. איר ררייסט ~ררדאי
רף, מישטיינס I$ ס צו ריידןז אין ~ ד I$ רר I$ ס איז ד I$ מער פרן מיר – רר
געז~גט, מע ררערט פ~רגרעבט. ררער ה~ט צ~ט ~ר~נצרקרקן אין ~
ספר, צי ~פלערנען א פרשה חרמש מיט רשי, צי רר~סן ~ שטיקל
גליק, עס קרמט דער זרמער, פ~רן זיד צרנזיף די יעהרפעצער נגידים
לI$ קיין כויכעריק אריף די ד~טשעס, ק~ן מען זיד כ~געגענען ~ מ
רט. איר מעגט מיר I$ רכן ~ גיט רר I$ מיט ~ן איידעלן מענטשן, ה
ן מיד אין יענע טעג, רוען איר ז’!בט געזעסן I$ גלייכן, ~ז איד דערמ
נעבן מיר אין וו~ל,ן אןיסגעהערט מ~נע נ~רישע מעשיות, איז ב’!ב
ל פ~רדינען מי יודע רריפל! איד ררייס ביט מיט l$r מיר גל’!בד, רןי איד
1: /בראש’ת לייכ, יא/ קטנת’ מכל החסך’ס … אשר עש’ת את עבךך/ ככין
צז קליין, כ!.!ה בישט זי זזדרט, זיר נישט פ~רזינט.

Adobe Acrobat 9 is the simplest of the OCR programs to use, but the result is not so good. To use the software follow along the steps shown in the screenshots above.

You can see that Adobe cannot understand the Hebrew character vowels (nikkudim).

Optical Character Recognition (OCR) – אפטיש אותיות דערקערונג

ø

זײַנען דאָ קאַמפּוטר פּראָגראַמען פֿאָר לײענען טעקסן פֿון פֿאָטאָגראַפֿיעס. מען רופֿ דאָס אָפּטיש אותיות דערקענונג .זײַנען דאָ דרײ פֿרײַ אָבער ביליק ברירות װי קען לײענען ייִדיש אותיות׃

  1. Adobe Acrobat Professional 9 or above http://www.adobe.com/products/acrobatpro.html
  2. Ulrich Greve’s Yiddish OCR http://www.tichnut.de/jewish/yiddishocr.html
  3. HOCR / hebocr http://hocr.berlios.de/

די ערשט גײַ מיט אַלע קאָמוטורן. די צװײטער איז נאָר פֿאַר װינדאָס. און דער דרײַטער איז נאָר פֿאַר לינוקס. נאָר די צװעטער איז ספּיציעל פֿאַר ייִדיש. די אָנדערע פּראָגראַמען זײַנען פֿאַר לשון-קודש.

There are existing computer programs for reading texts from photographs. This is called Optical Character Recognition, or OCR. There are three free or inexpensive options for reading Yiddish characters. (see above).

The first, Acrobat, runs on most any computer. The second, Ulrich Greve’s OCR program, is Windows only. The last is for Linux or *NIX type OS. (In theory it can also run on a Mac, but the task would not be simple.) Only the second program, Ulrich Greve’s, is specifically designed to reading Yiddish, the rest were designed for reading Hebrew, but still might work.

Find the photographs – געפינען דעם פאטאגראפיע

ø

צו אַנהײב, מען מוסט געפֿינען דעמ פֿאָטאָגראַפֿיעס. גײַ צו דעם בוך װעבצײַטל פֿונ דעם אינטערנעט אַרכיװן. .אױסקלײַבן
“All files http”
און װײַטער די נאָמען מיט׃
“nybcxxxxx_tif.zip”
אָפֿן דעם פּעקל און פֿינען דעם פּרעמיער זײַט.

To begin we find the photographs. Go to the book’s website at the Internet Archives. Click on the link that says “All Files: HTTP” and download the zip file containing TIF images in the form “nybcxxxxx_tif.zip”. Unzip the TIF images and find the first page.

Tevye the Dairyman – טעװיע דער מילכיקער

ø

מײַן פּראָפֿעסאָר יורי האָט געהלפֿט מיר קלײַבן אױס אײַן ביכ פֿון דעם צען טױזאַנד עלעקטראָנישער ייִדיש ביכער צו אַנהײַב. איך האָב געקלײַבט אױס טעװיע דער מילכיקער פֿון שלום עליכעם װײַל ער איז טאַקאַ אַ באַרימטער און אַ שײנער. דער שפּיל און פֿילמ, ״פֿידלער,״ איז סומך זיך אױפֿ דאָס בוך. אױך איז דאָס מײַן בובעס באַליבט.

איך האָב געקלײַבט אױס די אױסגאַבע פֿון אַרגענטינע פֿון 1966 װײַל דאָס אױסגאַבע האָט גוט אָרטאָגראַפֿיע און קלאָר אותיות. שלום אַלײכעם האַט געשריבן דער אָריגינאַלישע טעקסט איז 1894.

http://www.archive.org/details/nybc210429

My professor Yuri helped my select one from the ten thousand Yiddish e-books to begin. I chose Tevye the Dairyman (Tevye der Milchiker) by Sholem Aleychem because it is very well known and quite wonderful. The play and film “Tevye” is based on this book. Also this is my grandmothers favorite work.

I chose to use a 1966 edition from Argentina because it has good orthography and clear lettering. Sholem Aleychem wrote the original in 1894.

Why a blog? – פאר װאס א בלאג

ø

ייִדיש איז אַ שײנער שפּראַך מיט לעבענדיכקײַט און הומאָר. הײַנט, האָב מען אַ סאַך ייִדישער ליטעראַטור אַפֿ דעמ איִנטערנעט. פֿאָר בײַשפּיל, דער ייִדישער ביכער-צענער האָט מאָר װי צען טױזאַנד עלעקטראָנישע ביכער אין דעם סטיװען שפּיִלבערג דיגיטאַלישע ייִדישע ביבלאָטעק, װי מען קען אַראָפּברענגען מיט פֿרײַהײט.

צום באַדױערן ,זײַנען די עלעקטראָנישע ביכער פֿון דעם ביכער-צענטער נאָר פֿאָטאָגראַפֿיעס פֿונ ביכער. זײ זײַנען נישט עמתער דיגיטאַלישן טעקסטן. די פֿאָטאָגראַפֿיעס זײַנען גוט פֿאָר לײענען און אָפּדרוקן ביכער אָבער זײ זײַנען נישט גוט פֿאָר זוכן פֿאָר װערטער און פֿראַזעס אין דעם טעקסט. אױכ, מיט נאָר פֿאָטאָגראַפֿיעס, קען מען נישט בײַטן די פֿאָרמאַט און די טיפּאָגראַפֿיע פֿון דעם טעקסט. אַזױ, די ייִדישע טעקסטן זײַנען נישט אַזױ פּשוט פֿאָר װיסנשאַפֿטלרעס צו זוכן אַרױס און פֿאָר חבֿרים צו טײלן זיך מיט אַנדערס.

אָבער, זײַנען דאָ לאָנגסטיק פּראָיעקטן צו מאַכן דיגיטאַלישע טעקסטן פֿונ ביכער אין אַנדערע שפּראַכן. אין דאָס ״בלאָג״, װעל איך פֿאָרשן אױס די עקסיסטירנדיק פּרױעקטן און מכשירים צו באַשאָפֿן דיגיטאַלישע ייִדיש טעקסטן.

Yiddish is a beautiful language full of liveliness and humor. Today there is much Yiddish literature available on the internet. For example, the Yiddish Book Center hosts more than ten thousand electronic books in the Steven Spielberg Digital Yiddish Library for free download.

Unfortunately, the electronic books from the Yiddish Book Center are merely photographs of books. They are not true digital texts. The photographs suffice for reading or printing, but they are insufficient for searching words and phrases within the text. Also, with only photographs of a book, it is not easy to to modify the format or typography of the contents. As such, the Yiddish texts are not as simple for researchers to search through, or to share with friends across platforms or devices.

However, there are existing projects to create digital texts from books in other languages. In this blog I will explore these other projects and tools for creating digital Yiddish texts.

Terminology – טערמינען

ø

רעפֿױל פֿון דעם אוניװערסיטאַט פֿון קענטוקי האַט אַ זאַמלונג פֿון קאָמפּוטערײַ-טערמינען אָפֿ דײַן װעבצײַט. פֿון צײַט צו צײַט, װעל איך ניצן זײַן טערמאָנאָלגיע.

Refoyl of the University of Kentucky has a list of Yiddish Computer terms on his website. I will occasionally use his terminology.

First Post – ערשט פאסט

ø

.שלום אַליכעם. דאָס איז אַ נױע אַרטיקל

Welcome! This is a new article!

Log in