Google Translate was launched for 11 additional languages in September, including Hebrew. Playing with it a little, you would soon notice that translating from Hebrew to English yields much (much, much) better results than attempting the reverse direction. If you read some Hebrew, there’s a pretty typical example here, but you can produce any number of examples simply by trying to translate virtually anything.
What’s going on then? Why is the translation into English legible, even usable, while the translation into Hebrew sums up to complete and total rubbish? (Especially as intuitively, as the Hebrew writing system is problematic and ambiguous, I think it should be harder to translate from Hebrew). So here’s what I think the answer is.
Google’s translator “learns” to translate using two kinds of sources. The first is a pool of translated texts, that is texts that were written in one language and translated into the other. The other type is a pool of texts in the target language.
The translations pool is used like a bilingual dictionary, only better. As you would look up an entry in the dictionary in order to translate it, you can search the word in the pool of translations and see how it was translated before. Plus you have the advantage of being able to use the context to choose the best translation for the current case.
For example, in Hebrew one word is usually used for “search”, “look for” and “seek” (לחפש – lehapes). If you have to translate “lehapes” from Hebrew to English using a dictionary, you would find all these options. But if you search “lehapes be-Google” in the translations pool, you would find “search” to be used in this context.
The target language pool has two functions: one is to help in selecting the correct translation, and the other is to assist in constructing a reasonable target language sentence: changing word order, matching the gender and number of the subject and the verb, etc. Basically, the idea is to translate the source text in any conceivable way, and test which translation best matches what we see in the target language pool. For example, if we come up with “generality of elections” and “general elections”, we can assume that in most cases the second would be better.
Translations are hard to find, and translation pools are hard to build. The number of texts that were translated between any two languages is much much smaller than the number of texts written in any of these languages. We prefer avoiding archaic language, and we prefer texts similar to the ones the computer will later have to translate. So in software designed to translate web sites, we don’t really want to use Bible translations, or even Harry Potter. In short, this is a challenge, even for an information giant like Google.
It turns out, though, that if you have a really good pool of target language texts, it can offset for a small translations pool. I read somewhere about the following experiment: people were asked to evaluate some (human-made, in that case) translations. There were two groups of evaluators: bilinguals, who evaluated the translations having also read the source; and monolinguals, that were asked to evaluate the translation quality based on reading the translation only. The monolingual’s evaluations, it turned out, were very similar to those of the bilinguals. (My scientific conscious troubles me about not giving a citation for this, but not enough for me to start rummaging through papers and files. Do ask though, if you need it).
What we learn here is that a lot of the translation’s quality has to do with how the product makes sense in the target language. A good target language pool and a good way of using it to testing our translation may improve translation quality dramatically.
And that’s, I guess, where the difference between translation into Hebrew and into English lies. Google’s Hebrew texts pool would be way smaller than the English one. Moreover, I think it’s safe to assume that the way the use it to verify translation correctness isn’t quite as sophisticated. In other words, in the limited sense that software “knows” a language, Google’s “knows” way less Hebrew than it does English. Which is not really surprising, after all.
למי שסובל כמוני מעניין-יתר בהיסטוריה של שפות, מומלץ לקרוא את הפוסט הזה ב- Language Log. התירוץ הוא ההיסטוריה הלשונית של אירופה, אבל רוב התוכן עוסק באיך חוקרים היסטוריה של שפות (בייחוד היסטוריה שפות לא מתועדות) ומה, לפי הגישה הבלשנית המקובלת, הם העקרונות המאפיינים התפתחות ותפוצה של שפות.
כדאי לקרוא גם את התגובות, לפחות הראשונות.
יש גם פוסט המשך שטרם קראתי.
אבנר כותב בבלוג החדש והמסתמן כמצוין שלו "דברים אחרים” (שם זמני) למה הלחמים הם סוג של עצלנות לקסיקלית.
אחד הדברים הרעים בהלחמים הם שהם פשוט מחליפים את המנגנון הבאמת יפה לגזירת מילים בעברית: המנגנון של שורש+בניין, או משקל. באמצעות המנגנון הזה אפשר לייצר עוד ועוד מילים חדשות, שדוברי עברית יכולים לפענח רק על סמך המטען הסמנטי (כלומר, בעברית, המשמעות) של השורש ושל הבניין, ושאפשר בלי שום בעיה להטות לצורות נקבה או רבים, לצורות עבר או ועתיד. והבונוס: כל המנגנון הזה קיים רק בשפות השמיות, כך שאפשר לפתח גאווה אזורית.
וזאת הזדמנות להמליץ (שוב? אני לא זוכרת) על הספר גלגולי לשון של גיא דויטשר. ספר קריא ומעניין שעוסק בהתפתחות השפות, נושא מרתק וקצת זנוח בקהילת הבלשנות. יש בו פרק ארוך שמדבר על מבנה השורש והמשקל בשפות השמיות ומציע תאוריה על איך הוא התפתח.
ועוד על החסרונות של הלחמים אפשר לקרוא פה.
מי ששיחק קצת עם Google Translate שם די מהר לב לתופעה הבאה: לתרגם מאנגלית לעברית עובד הרבה (הרבה, הרבה) פחות טוב מאשר לתרגם מעברית לאנגלית.
הנה התרגום מעברית לאנגלית של הכתבה הראשית ב”הארץ”, כרגע:
Two people killed in two road accidents that occurred this evening along the roads of the North. Pedestrian killed by a car near the Ghetto Fighters' Kibbutz. Earlier this evening, one woman killed and two other people were seriously injured in an accident between vehicles on the road Laupnoa information internally in the northern village of Dir Hana.
ועכשיו התרגום מאנגלית לעברית של הכתבה הראשית בניו-יורק טיימס:
פילדלפיה - סנטור Barack Obama ימים היא במרחק של פורצים את ההוצאות פרסום הרשומה שקבע הנשיא בוש הכלליות של הבחירות לפני ארבע שנים, נתקל unleashed של מסע הפרסום בהיקף של unrivaled ואת המורכבות של עידן הטלוויזיה.
מה קורה פה? למה התרגום מעברית לאנגלית קריא, והתרגום מאנגלית לעברית הוא די קרוב לזבל מוחלט?
המתרגם של גוגל “לומד” לתרגם משני סוגים של מקורות. הסוג הראשון הוא מאגר טקסטים מתורגמים, כלומר טקסטים שנכתבו באחת השפות ותורגמו לשפה השניה. הסוג השני הוא מאגר טקסטים בשפת היעד.
מאגר התרגומים משמש כמו מילון דו-לשוני גדול, רק יותר טוב. כמו שמחפשים מילה במילון כדי לתרגם אותה, אפשר לחפש מילה במאגר הטקסטים המתורגמים ולראות איך תירגמו אותה בעבר. היתרון של הטקסטים המתורגמים הוא שאפשר לבחור את התרגום שהכי מתאים, מבחינת ההקשר, במקרה הנוכחי.
לדוגמה: אם נחפש את המילה “לחפש” במילון עברי-אנגלית, נקבל אפשרויות שונות כמו Search, Look for, Seek . שלא לדבר על זה שנקבל גם disguise, dress up. אם נחפש “לחפש בגוגל” במאגר התרגומים, נגלה שבהקשר הזה משתמשים תמיד ב- Search.
למאגר הטקסטים בשפת היעד יש שני תפקידים: אחד הוא לעזור בבחירת התרגום הנכון, והשני הוא לסייע לבנות משפט סביר בשפת היעד: לשנות את סדר המילים, ליצור התאמה טובה במין ובמספר בין הנושא לפועל, וכאלה. הרעיון הוא כזה: ננסה לתרגם את הטקסט בכל צורה אפשרית, ונבדוק איזה מהתרגומים הכי דומה למה שאנחנו רואים במאגר שפת היעד. לדוגמה, אם מופיע לנו General Elections באנגלית, נתרגם גם ל”הכלליות של הבחירות” וגם ל”בחירות כלליות”, ונבדוק מה מהצירופים האלה מופיע יותר בשפת היעד. או, אם כתוב שסנאטור אובאמה “is days away from”, נתרגם גם ל”ימים היא במרחק של” וגם ל”הוא במרחק של ימים מ”, ונבדוק מה מהם מסתדר יותר טוב.
תרגומים זה דבר שקשה להשיג. מספר הטקסטים שתורגמו בין עברית לאנגלית קטן בהרבה ממספר הטקסטים שנכתבו בעברית (וכמובן בהרבה הרבה ממספר הטקסטים שנכתבו באנגלית). אנחנו מעדיפים להשתמש בתרגומים מעודכנים יחסית, של טקסטים שדומים לטקסטים שהמחשב ייצטרך לתרגם אחר כך. בתוכנה שמיועדת לתרגום אתרי אינטרנט, אנחנו לא רוצים להשתמש בתרגומים של התנ”ך, ואפילו לו של הארי פוטר. בקיצור, אתגר, אפילו בשביל ענקית המידע גוגל.
מה שמסתבר הוא שאם יש לך מאגר טוב של טקסטים בשפת היעד, אפשר להשתמש בהם כדי לפצות על זה שמאגר התרגומים שלך קטן. באיזשהו מקום קראתי על הניסוי הבא: לקחו כמה תרגומים (אנושיים, דווקא), וביקשו מאנשים להעריך את איכות התרגום. היו שתי קבוצות של מעריכים: דו-לשוניים, שהעריכו את איכות התרגום אחרי שקראו גם את המקור; וחד-לשוניים, שהתבקשו להעריך את איכות התרגום רק על סמך קריאת התרגום. מתברר שהערכות של החד-לשוניים היו דומות מאד להערכות של הדו-לשונים((המצפון המדעי והאקדמי שלי מאד מציק לי עכשיו שאני מביאה לכם סיפור כזה בלי מראה מקום, אבל בשביל לתת מראה מקום הייתי צריכה לחפור בניירות ובקבצים, ולא בא לי כרגע. אם זה מאד חשוב למישהו, תשאלו)). מה שאנחנו לומדים מזה הוא שהרבה מהאיכות של התרגום קשור לכמה התוצר הוא הגיוני בשפת היעד. אם יש לנו מאגר טוב של שפת היעד ודרך טובה להסיק ממנו מה נשמע טוב בשפת היעד ומה לא, התרומה לתרגום תהיה אדירה.
וכאן, אני מנחשת, קבור הכלב של ההבדל בין התרגום מעברית והתרגום לעברית בגוגל. מאגר הטקסטים בעברית שגוגל משתמשים בהם כנראה הרבה יותר קטן מהמאגר האנגלי. אני יכולה גם לנחש שהאופן שבו משתמשים בו כדי לבדוק את איכות התרגום הוא פחות משוכלל. במילים אחרות, באותו מובן מוגבל שבו תוכנת מחשב “יודעת” שפה, גוגל “יודעים” עברית הרבה פחות ממה שהם “יודעים” אנגלית. שזה, כמובן, לא מאד מפתיע, רק קצת מצער.
תרשו לי להתרגש, למרות שזה כמעט יותר מדי התרגשות לחודש אחד. אחרי שעלינו על המפה, ואחרי שהגמל התחיל להסתכל עלינו, עכשיו יש לנו משהו שבאמת עוד לא היה: Google Translate עושה עברית.
כלומר מתרגם מעברית ולעברית. ולא רק אנגלית-עברית, אלא עברית וכל שפה אחרת! רוסית, ערבית, הינדי. נכון שתמיד רציתם לקרוא את הבלוג שלי בשבדית?
אני הולכת עכשיו לתרגם את הפוסט הזה לאנגלית. אני אפרסם אותו קודם כל באנגלית, ורק אחרי זה את המקור העברי. זה יעבוד? תבינו מה אני רוצה מכם? ההתרגשות בעיצומה! נתראה לאחר הפרסומות!
אם הייתי כותבת ב- Language Log, בטח היה לי משהו חכם להגיד על הסערה סביב הנאום של מרקל בגרמנית בכנסת.
כי, תראו, זה מעניין: הבעיה היא לא עם הופעת הקאנצלרית בכנסת, אלא עם זה שהיא תדבר בשפת המרצחים. כלומר: יש גרמניה אחרת, אבל אין גרמנית אחרת.
יש משהו מוזר במשפט הזה של חה"כ אריה אלדד, "גרמנית זו השפה שבה נרצחו סבי וסבתי".
אני לא מנסה להגיד שזה טיפשי. נראה לי שהרבה ישראלים מסוגלים להבין מאיפה זה בא, גם אם הניסוח של אלדד כושל, גם אם בשורה התחתונה הם לא מתנגדים לנאום בגרמנית בכנסת. השאלה היא למה. מה המנגנון שבו הופכת השפה הגרמנית לשריד האחרון של הנאציזם.
צריך להודות על האמת: את הספר "ללא מילים" של עמליה רוזנבלום וצבי טריגר קניתי בזול, פתחתי בחשדנות, קראתי בעוינות. לא סיימתי בעוינות, אבל זה בגלל שלא סיימתי בכלל.

אם אתם רושמים בתוך הודעת מייל בג'ימייל " I am attaching a", או "attached is" או אפילו (בעברית!) "אני מצרף" או "אני מצרפת", אבל שוכחים בעצם לצרף את הקובץ - ג'ימייל יגיד לכם לפני שהוא שולח שכנראה התכוונתם להוסיף קובץ, ויישאל אתכם אם לשלוח בכל זאת.
"מצורף בזאת", לעומת זאת, לא גורר שום תגובה.
מעניין אם הם הכניסו ידנית את רשימת הביטויים שגורמים לו לעשות את זה (סביר) או שהם הוציאו את זה אוטומטית על ידי ניתוח כל המיילים שיש להם attachments (מגניב).