Google Translate was launched for 11 additional languages in September, including Hebrew. Playing with it a little, you would soon notice that translating from Hebrew to English yields much (much, much) better results than attempting the reverse direction. If you read some Hebrew, there’s a pretty typical example here, but you can produce any number of examples simply by trying to translate virtually anything.
What’s going on then? Why is the translation into English legible, even usable, while the translation into Hebrew sums up to complete and total rubbish? (Especially as intuitively, as the Hebrew writing system is problematic and ambiguous, I think it should be harder to translate from Hebrew). So here’s what I think the answer is.
Google’s translator “learns” to translate using two kinds of sources. The first is a pool of translated texts, that is texts that were written in one language and translated into the other. The other type is a pool of texts in the target language.
The translations pool is used like a bilingual dictionary, only better. As you would look up an entry in the dictionary in order to translate it, you can search the word in the pool of translations and see how it was translated before. Plus you have the advantage of being able to use the context to choose the best translation for the current case.
For example, in Hebrew one word is usually used for “search”, “look for” and “seek” (לחפש – lehapes). If you have to translate “lehapes” from Hebrew to English using a dictionary, you would find all these options. But if you search “lehapes be-Google” in the translations pool, you would find “search” to be used in this context.
The target language pool has two functions: one is to help in selecting the correct translation, and the other is to assist in constructing a reasonable target language sentence: changing word order, matching the gender and number of the subject and the verb, etc. Basically, the idea is to translate the source text in any conceivable way, and test which translation best matches what we see in the target language pool. For example, if we come up with “generality of elections” and “general elections”, we can assume that in most cases the second would be better.
Translations are hard to find, and translation pools are hard to build. The number of texts that were translated between any two languages is much much smaller than the number of texts written in any of these languages. We prefer avoiding archaic language, and we prefer texts similar to the ones the computer will later have to translate. So in software designed to translate web sites, we don’t really want to use Bible translations, or even Harry Potter. In short, this is a challenge, even for an information giant like Google.
It turns out, though, that if you have a really good pool of target language texts, it can offset for a small translations pool. I read somewhere about the following experiment: people were asked to evaluate some (human-made, in that case) translations. There were two groups of evaluators: bilinguals, who evaluated the translations having also read the source; and monolinguals, that were asked to evaluate the translation quality based on reading the translation only. The monolingual’s evaluations, it turned out, were very similar to those of the bilinguals. (My scientific conscious troubles me about not giving a citation for this, but not enough for me to start rummaging through papers and files. Do ask though, if you need it).
What we learn here is that a lot of the translation’s quality has to do with how the product makes sense in the target language. A good target language pool and a good way of using it to testing our translation may improve translation quality dramatically.
And that’s, I guess, where the difference between translation into Hebrew and into English lies. Google’s Hebrew texts pool would be way smaller than the English one. Moreover, I think it’s safe to assume that the way the use it to verify translation correctness isn’t quite as sophisticated. In other words, in the limited sense that software “knows” a language, Google’s “knows” way less Hebrew than it does English. Which is not really surprising, after all.
מי ששיחק קצת עם Google Translate שם די מהר לב לתופעה הבאה: לתרגם מאנגלית לעברית עובד הרבה (הרבה, הרבה) פחות טוב מאשר לתרגם מעברית לאנגלית.
הנה התרגום מעברית לאנגלית של הכתבה הראשית ב”הארץ”, כרגע:
Two people killed in two road accidents that occurred this evening along the roads of the North. Pedestrian killed by a car near the Ghetto Fighters' Kibbutz. Earlier this evening, one woman killed and two other people were seriously injured in an accident between vehicles on the road Laupnoa information internally in the northern village of Dir Hana.
ועכשיו התרגום מאנגלית לעברית של הכתבה הראשית בניו-יורק טיימס:
פילדלפיה - סנטור Barack Obama ימים היא במרחק של פורצים את ההוצאות פרסום הרשומה שקבע הנשיא בוש הכלליות של הבחירות לפני ארבע שנים, נתקל unleashed של מסע הפרסום בהיקף של unrivaled ואת המורכבות של עידן הטלוויזיה.
מה קורה פה? למה התרגום מעברית לאנגלית קריא, והתרגום מאנגלית לעברית הוא די קרוב לזבל מוחלט?
המתרגם של גוגל “לומד” לתרגם משני סוגים של מקורות. הסוג הראשון הוא מאגר טקסטים מתורגמים, כלומר טקסטים שנכתבו באחת השפות ותורגמו לשפה השניה. הסוג השני הוא מאגר טקסטים בשפת היעד.
מאגר התרגומים משמש כמו מילון דו-לשוני גדול, רק יותר טוב. כמו שמחפשים מילה במילון כדי לתרגם אותה, אפשר לחפש מילה במאגר הטקסטים המתורגמים ולראות איך תירגמו אותה בעבר. היתרון של הטקסטים המתורגמים הוא שאפשר לבחור את התרגום שהכי מתאים, מבחינת ההקשר, במקרה הנוכחי.
לדוגמה: אם נחפש את המילה “לחפש” במילון עברי-אנגלית, נקבל אפשרויות שונות כמו Search, Look for, Seek . שלא לדבר על זה שנקבל גם disguise, dress up. אם נחפש “לחפש בגוגל” במאגר התרגומים, נגלה שבהקשר הזה משתמשים תמיד ב- Search.
למאגר הטקסטים בשפת היעד יש שני תפקידים: אחד הוא לעזור בבחירת התרגום הנכון, והשני הוא לסייע לבנות משפט סביר בשפת היעד: לשנות את סדר המילים, ליצור התאמה טובה במין ובמספר בין הנושא לפועל, וכאלה. הרעיון הוא כזה: ננסה לתרגם את הטקסט בכל צורה אפשרית, ונבדוק איזה מהתרגומים הכי דומה למה שאנחנו רואים במאגר שפת היעד. לדוגמה, אם מופיע לנו General Elections באנגלית, נתרגם גם ל”הכלליות של הבחירות” וגם ל”בחירות כלליות”, ונבדוק מה מהצירופים האלה מופיע יותר בשפת היעד. או, אם כתוב שסנאטור אובאמה “is days away from”, נתרגם גם ל”ימים היא במרחק של” וגם ל”הוא במרחק של ימים מ”, ונבדוק מה מהם מסתדר יותר טוב.
תרגומים זה דבר שקשה להשיג. מספר הטקסטים שתורגמו בין עברית לאנגלית קטן בהרבה ממספר הטקסטים שנכתבו בעברית (וכמובן בהרבה הרבה ממספר הטקסטים שנכתבו באנגלית). אנחנו מעדיפים להשתמש בתרגומים מעודכנים יחסית, של טקסטים שדומים לטקסטים שהמחשב ייצטרך לתרגם אחר כך. בתוכנה שמיועדת לתרגום אתרי אינטרנט, אנחנו לא רוצים להשתמש בתרגומים של התנ”ך, ואפילו לו של הארי פוטר. בקיצור, אתגר, אפילו בשביל ענקית המידע גוגל.
מה שמסתבר הוא שאם יש לך מאגר טוב של טקסטים בשפת היעד, אפשר להשתמש בהם כדי לפצות על זה שמאגר התרגומים שלך קטן. באיזשהו מקום קראתי על הניסוי הבא: לקחו כמה תרגומים (אנושיים, דווקא), וביקשו מאנשים להעריך את איכות התרגום. היו שתי קבוצות של מעריכים: דו-לשוניים, שהעריכו את איכות התרגום אחרי שקראו גם את המקור; וחד-לשוניים, שהתבקשו להעריך את איכות התרגום רק על סמך קריאת התרגום. מתברר שהערכות של החד-לשוניים היו דומות מאד להערכות של הדו-לשונים((המצפון המדעי והאקדמי שלי מאד מציק לי עכשיו שאני מביאה לכם סיפור כזה בלי מראה מקום, אבל בשביל לתת מראה מקום הייתי צריכה לחפור בניירות ובקבצים, ולא בא לי כרגע. אם זה מאד חשוב למישהו, תשאלו)). מה שאנחנו לומדים מזה הוא שהרבה מהאיכות של התרגום קשור לכמה התוצר הוא הגיוני בשפת היעד. אם יש לנו מאגר טוב של שפת היעד ודרך טובה להסיק ממנו מה נשמע טוב בשפת היעד ומה לא, התרומה לתרגום תהיה אדירה.
וכאן, אני מנחשת, קבור הכלב של ההבדל בין התרגום מעברית והתרגום לעברית בגוגל. מאגר הטקסטים בעברית שגוגל משתמשים בהם כנראה הרבה יותר קטן מהמאגר האנגלי. אני יכולה גם לנחש שהאופן שבו משתמשים בו כדי לבדוק את איכות התרגום הוא פחות משוכלל. במילים אחרות, באותו מובן מוגבל שבו תוכנת מחשב “יודעת” שפה, גוגל “יודעים” עברית הרבה פחות ממה שהם “יודעים” אנגלית. שזה, כמובן, לא מאד מפתיע, רק קצת מצער.
נפתח בנסיון להבהיר יותר טוב מה הוא snowclone.
כותבים (במיוחד לא מיומנים...) נוטים להשתמש בקלישאות. באינטרנט יש הרבה כותבים, רובם לא מיומנים, ולכן עידן המידע הוא גם עידן הקלישאות. הכותבים (הדי מיומנים, יש לציין) של ה- Language Log, שאחד התחביבים שלהם הוא זיהוי מגמות לשוניות באינטרנט ובמדיה בכלל, שמו לב לתופעה שהיא תת-תופעה של תופעת הקלישאה: קלישאה נגזרת.
הרעיון הוא שהכותב משנה חלקים בביטוי, באופן שהקשר לביטוי המקורי עדיין בולט לעין לכל מי שמכיר אותו.
ניקח לדוגמה את שייקספיר. המלט אמר "להיות או לא להיות? זאת השאלה". גוגל אומר: "לדבר או לא לדבר? זאת השאלה", "ללדת או לא ללדת?" , "לסרב או לא לסרב?", "לגשת או לא לגשת?" ואפילו: "הגודל, קובע או לא קובע, זאת השאלה?".
אני מודיעה חגיגית על פתיחת הראשון משני פרויקטים מתוכננים בתחום חקר ותיעוד השפה העברית: snowclones
אז ככה, snowclone הוא נאולוגיזם שמקורו ב- Language Log שכבר הזכרתי פה. הוא מתאר (וכאן את מתרגמת מהערך בויקיפדיה האנגלית): סוג של קלישאה מבוססת-נוסחה, שמשתמש במטבע לשון ישן בהקשר חדש. המונח מדגיש את השימוש בנוסחה מוכרת ובידע תרבותי קודם של הקורא כדי להביע רעיון בהקשר (לרוב) שונה מזה של הנוסחה המקורית. או במילות ההגדרה המקורית של ג'פרי פלום: "ביטוי או משפט רב-שימוש, ניתן-להתאמה, ניתן לזיהוי מיידי, שחוק מרוב שימוש, מצוטט או משובש, שכותבים ועיתונאים עצלנים יכולים להשתמש בו במגוון פתוח לחלוטין של גרסאות מבודחות"(*). הדוגמה הקלאסית שממנה גם נגזר השם היא המשפט "אם לאסקימוסים יש N מילים בשביל שלג, ל-X יש Y מילים עבור Z". ולרשימה המלאה באנגלית, ראו גם בויקיפדיה.
ועכשיו האתגר שלי (וגם שלכם, קוראי היקרים, אם תרצו). המטרה היא למצוא snowclones בעברית. הרעיון הוא להעלות רעיונות, ואז לבדוק בגוגל עד כמה הם אכן בשימוש.
חלק מה-snowclones באנגלית תקפים גם לעברית: לדוגמה, החיפוש "משמע אני קיים -חושב" בגוגל מניב 608 תוצאות, שזה לא רע. אבל לצד הגיור של snowclones מאנגלית, אני מחפשת snowclones עבריים מקוריים. אחד שחשבתי עליו הוא "X קטן וחכם" - החיפוש "קטן וחכם -צבא" מניב בערך 750 תוצאות בגוגל, ויש עוד 800 על "קטנה וחכמה".
נ' הזכיר לא מזמן (בהקשר אחר) את הביטויים "Y, מספר 1 ב-X" (כמו "מספר 1 באינטרנט המהיר"), "ה-X של המדינה" ו"ה-X של ישראל", אבל קצת קשה להפריד בין הופעותיהם כ- Snowclones להופעותיהם בהקשר סביר, וחוץ מזה הם נפוצים בעיקר בהקשרים פרסומיים, כך שהם לא ממש תורמים לאוסף.
וכמובן, צריך גם למצוא שם עברי ל- snowclone. "שיבוטשלג" נראה לי די גרוע.
(*) אוף, זה היה קצת קשה לתרגום.