גוגל

Why Google’s English Translation is Better (A Longish Post)

08/10/2009

Google Translate was launched for 11 additional languages in September, including Hebrew. Playing with it a little, you would soon notice that translating from Hebrew to English yields much (much, much) better results than attempting the reverse direction. If you read some Hebrew, there’s a pretty typical example here, but you can produce any number of examples simply by trying to translate virtually anything.

What’s going on then? Why is the translation into English legible, even usable, while the translation into Hebrew sums up to complete and total rubbish? (Especially as intuitively, as the Hebrew writing system is problematic and ambiguous, I think it should be harder to translate from Hebrew). So here’s what I think the answer is.

Google’s translator “learns” to translate using two kinds of sources. The first is a pool of translated texts, that is texts that were written in one language and translated into the other. The other type is a pool of texts in the target language.

The translations pool is used like a bilingual dictionary, only better. As you would look up an entry in the dictionary in order to translate it, you can search the word in the pool of translations and see how it was translated before. Plus you have the advantage of being able to use the context to choose the best translation for the current case.

For example, in Hebrew one word is usually used for “search”, “look for” and “seek” (לחפש – lehapes). If you have to translate “lehapes” from Hebrew to English using a dictionary, you would find all these options. But if you search “lehapes be-Google” in the translations pool, you would find “search” to be used in this context.

The target language pool has two functions: one is to help in selecting the correct translation, and the other is to assist in constructing a reasonable target language sentence: changing word order, matching the gender and number of the subject and the verb, etc. Basically, the idea is to translate the source text in any conceivable way, and test which translation best matches what we see in the target language pool. For example, if we come up with “generality of elections” and “general elections”, we can assume that in most cases the second would be better.

Translations are hard to find, and translation pools are hard to build. The number of texts that were translated between any two languages is much much smaller than the number of texts written in any of these languages. We prefer avoiding archaic language, and we prefer texts similar to the ones the computer will later have to translate. So in software designed to translate web sites, we don’t really want to use Bible translations, or even Harry Potter. In short, this is a challenge, even for an information giant like Google.

It turns out, though, that if you have a really good pool of target language texts, it can offset for a small translations pool. I read somewhere about the following experiment: people were asked to evaluate some (human-made, in that case) translations. There were two groups of evaluators: bilinguals, who evaluated the translations having also read the source; and monolinguals, that were asked to evaluate the translation quality based on reading the translation only. The monolingual’s evaluations, it turned out, were very similar to those of the bilinguals. (My scientific conscious troubles me about not giving a citation for this, but not enough for me to start rummaging through papers and files. Do ask though, if you need it).

What we learn here is that a lot of the translation’s quality has to do with how the product makes sense in the target language. A good target language pool and a good way of using it to testing our translation may improve translation quality dramatically.

And that’s, I guess, where the difference between translation into Hebrew and into English lies. Google’s Hebrew texts pool would be way smaller than the English one. Moreover, I think it’s safe to assume that the way the use it to verify translation correctness isn’t quite as sophisticated. In other words, in the limited sense that software “knows” a language, Google’s “knows” way less Hebrew than it does English. Which is not really surprising, after all.

כפתורים חדשים בגמל (עוד שירות לציבור)

04/02/2009

הרבה משתמשי גמל (gmail) מתלוננים שהשימוש בתויות (labels) במקום תיקיות (folders) מבאס אותם.

אז עכשיו יש בגמל כפתור חדש שהופך את התויות למשהו קצת יותר דומה לתיקיות. לכפתור קוראים Move To או בממשק העברי "העבר אל", ומה שהוא עושה לתייג הודעות בתוית לבחירתכם, ולהעיף אותן מהאינבוקס (Archive). או במילים אחרות, הוא "מעביר" את ההודעות לתוית.

במקביל קיבלנו גם כפתור חדש בשם Labels (בעברית: תוויות) למי שרגיל להשתמש בתויות בדרך הישנה והטובה. עם הכפתור הזה אפשר להוסיף תוית בלי להעיף מהאינבוקס, ואפשר גם להוסיף כמה תויות לאותה הודעה.

חוץ מזה כל הכפתורים קיבלו מראה חדש, אבל את זה בטח הבנתם לבד.

(מקור: בלוג הגמל)

למה התרגום לאנגלית בגוגל יותר טוב (פוסט ארכני)

19/10/2008

מי ששיחק קצת עם Google Translate שם די מהר לב לתופעה הבאה: לתרגם מאנגלית לעברית עובד הרבה (הרבה, הרבה) פחות טוב מאשר לתרגם מעברית לאנגלית.

הנה התרגום מעברית לאנגלית של הכתבה הראשית ב”הארץ”, כרגע:

Two people killed in two road accidents that occurred this evening along the roads of the North. Pedestrian killed by a car near the Ghetto Fighters' Kibbutz. Earlier this evening, one woman killed and two other people were seriously injured in an accident between vehicles on the road Laupnoa information internally in the northern village of Dir Hana.

ועכשיו התרגום מאנגלית לעברית של הכתבה הראשית בניו-יורק טיימס:

פילדלפיה - סנטור Barack Obama ימים היא במרחק של פורצים את ההוצאות פרסום הרשומה שקבע הנשיא בוש הכלליות של הבחירות לפני ארבע שנים, נתקל unleashed של מסע הפרסום בהיקף של unrivaled ואת המורכבות של עידן הטלוויזיה.

מה קורה פה? למה התרגום מעברית לאנגלית קריא, והתרגום מאנגלית לעברית הוא די קרוב לזבל מוחלט?

המתרגם של גוגל “לומד” לתרגם משני סוגים של מקורות. הסוג הראשון הוא מאגר טקסטים מתורגמים, כלומר טקסטים שנכתבו באחת השפות ותורגמו לשפה השניה. הסוג השני הוא מאגר טקסטים בשפת היעד.

מאגר התרגומים משמש כמו מילון דו-לשוני גדול, רק יותר טוב. כמו שמחפשים מילה במילון כדי לתרגם אותה, אפשר לחפש מילה במאגר הטקסטים המתורגמים ולראות איך תירגמו אותה בעבר. היתרון של הטקסטים המתורגמים הוא שאפשר לבחור את התרגום שהכי מתאים, מבחינת ההקשר, במקרה הנוכחי.

לדוגמה: אם נחפש את המילה “לחפש” במילון עברי-אנגלית, נקבל אפשרויות שונות כמו Search, Look for, Seek . שלא לדבר על זה שנקבל גם disguise, dress up. אם נחפש “לחפש בגוגל” במאגר התרגומים, נגלה שבהקשר הזה משתמשים תמיד ב- Search.

למאגר הטקסטים בשפת היעד יש שני תפקידים: אחד הוא לעזור בבחירת התרגום הנכון, והשני הוא לסייע לבנות משפט סביר בשפת היעד: לשנות את סדר המילים, ליצור התאמה טובה במין ובמספר בין הנושא לפועל, וכאלה. הרעיון הוא כזה: ננסה לתרגם את הטקסט בכל צורה אפשרית, ונבדוק איזה מהתרגומים הכי דומה למה שאנחנו רואים במאגר שפת היעד. לדוגמה, אם מופיע לנו General Elections באנגלית, נתרגם גם ל”הכלליות של הבחירות”  וגם ל”בחירות כלליות”, ונבדוק מה מהצירופים האלה מופיע יותר בשפת היעד. או, אם כתוב שסנאטור אובאמה “is days away from”, נתרגם גם ל”ימים היא במרחק של” וגם ל”הוא במרחק של ימים מ”, ונבדוק מה מהם מסתדר יותר טוב.

תרגומים זה דבר שקשה להשיג. מספר הטקסטים שתורגמו בין עברית לאנגלית קטן בהרבה ממספר הטקסטים שנכתבו בעברית (וכמובן בהרבה הרבה ממספר הטקסטים שנכתבו באנגלית). אנחנו מעדיפים להשתמש בתרגומים מעודכנים יחסית, של טקסטים שדומים לטקסטים שהמחשב ייצטרך לתרגם אחר כך. בתוכנה שמיועדת לתרגום אתרי אינטרנט, אנחנו לא רוצים להשתמש בתרגומים של התנ”ך, ואפילו לו של הארי פוטר. בקיצור, אתגר, אפילו בשביל ענקית המידע גוגל.

מה שמסתבר הוא שאם יש לך מאגר טוב של טקסטים בשפת היעד, אפשר להשתמש בהם כדי לפצות על זה שמאגר התרגומים שלך קטן. באיזשהו מקום קראתי על הניסוי הבא: לקחו כמה תרגומים (אנושיים, דווקא), וביקשו מאנשים להעריך את איכות התרגום. היו שתי קבוצות של מעריכים: דו-לשוניים, שהעריכו את איכות התרגום אחרי שקראו גם את המקור; וחד-לשוניים, שהתבקשו להעריך את איכות התרגום רק על סמך קריאת התרגום. מתברר שהערכות של החד-לשוניים היו דומות מאד להערכות של הדו-לשונים((המצפון המדעי והאקדמי שלי מאד מציק לי עכשיו שאני מביאה לכם סיפור כזה בלי מראה מקום, אבל בשביל לתת מראה מקום הייתי צריכה לחפור בניירות ובקבצים, ולא בא לי כרגע. אם זה מאד חשוב למישהו, תשאלו)). מה שאנחנו לומדים מזה הוא שהרבה מהאיכות של התרגום קשור לכמה התוצר הוא הגיוני בשפת היעד. אם יש לנו מאגר טוב של שפת היעד ודרך טובה להסיק ממנו מה נשמע טוב בשפת היעד ומה לא, התרומה לתרגום תהיה אדירה.

וכאן, אני מנחשת, קבור הכלב של ההבדל בין התרגום מעברית והתרגום לעברית בגוגל. מאגר הטקסטים בעברית שגוגל משתמשים בהם כנראה הרבה יותר קטן מהמאגר האנגלי. אני יכולה גם לנחש שהאופן שבו משתמשים בו כדי לבדוק את איכות התרגום הוא פחות משוכלל. במילים אחרות, באותו מובן מוגבל שבו תוכנת מחשב “יודעת” שפה, גוגל “יודעים” עברית הרבה פחות ממה שהם “יודעים” אנגלית. שזה, כמובן, לא מאד מפתיע, רק קצת מצער.

קולולו שוב

27/09/2008

תרשו לי להתרגש, למרות שזה כמעט יותר מדי התרגשות לחודש אחד. אחרי שעלינו על המפה, ואחרי שהגמל התחיל להסתכל עלינו, עכשיו יש לנו משהו שבאמת עוד לא היה: Google Translate עושה עברית.
כלומר מתרגם מעברית ולעברית. ולא רק אנגלית-עברית, אלא עברית וכל שפה אחרת! רוסית, ערבית, הינדי. נכון שתמיד רציתם לקרוא את הבלוג שלי בשבדית?
אני הולכת עכשיו לתרגם את הפוסט הזה לאנגלית. אני אפרסם אותו קודם כל באנגלית, ורק אחרי זה את המקור העברי. זה יעבוד? תבינו מה אני רוצה מכם? ההתרגשות בעיצומה! נתראה לאחר הפרסומות!

אנחנו במפה, קולולו

04/09/2008

מפה אילמת של צפון תל אביב

תסלחו לי על הקלישאה בכותרת, אבל החל מאתמול גוגל מפות ממפה גם את ישראל.

אז נכון שהעסק רחוק משלמות: המיפוי באנגלית (שאליו מגיעים אם נכנסים בממשק האנגלי) לא כולל שמות רחובות (מצוין למי שרוצה לשחק במפה אילמת), ולא מצאתי דרך נוחה לעבור לממשק העברי; הנחיות נסיעה עדיין לא ממש עובדות, והנחיות הליכה ברגל אין בכלל. זיהוי שמות רחובות קצת מקרטע (נסו לחפש את רח' ויצמן. לא מצאתם? נסו וייצמן. עכשיו חפשו את אבא הלל סילבר ברמת גן. הגעתם לפתח תקווה? יפה, תחפשו עכשיו רק אבא הלל ותגיעו למקום הנכון).

אבל עדיין, אנחנו במפה.

וכן, אני יודעת שכבר יש לנו כמה אתרי מיפוי כמו מפה, אטלס סי.טי (עם נתוני התנועה המצוינים!), ואי-מאפ. ולא, הסיבה שאני היא בכלל לא שהענק הGלובלי החליט לשים לב גם לחצי סיכה בין סעודיה לים. הסיבה שאני מתלהבת היא שגוגל מפות הוא שירות מצוין. יש לי שלוש נקודות כדי להוכיח את זה. אם אין לכם זמן, תקפצו ישר לנקודה השלישית שהיא הכי חשובה.

נקודה ראשונה
החיפוש/שליפה נחמדים. לא צריך לרשום בנפרד את שם היישוב, ושם הרחוב והמספר. בוודאי שלא צריך לבחור את שם היישוב או שם הרחוב מרשימה. פשוט רושמים את הכתובת בתיבה אחת, ו-טדם- מוצאים. שנות ה-2000! (טוב, כמו שכתבתי זה עדיין קצת מג'עג'ע בעברית, אבל אני מניחה שזה יתייצב בקרוב). יותר מגניב? תנסו לרשום "רב חן". אין את זה ממש במאגר מידע, אבל היונים של גוגל חיפשו בשבילכם באינטרנט, מצאו משהו שנראה להם קשור, ובמקרה הזה, כמו בהרבה מקרים אחרים, הביאו משהו לא רע.

(ולחנונים: אפשר גם לרשום בתיבת החיפוש גם קואורדינטות בקוי אורך/רוחב.)

נקודה שניה
חיפוש מסלול הליכה ברגל. חברים, שמעתם על המהפיכה הירוקה? אנשים רוצים לפעמים להגיע ממקום למקום בלי לסייע לדחיקת קיצו של כדור הארץ בדרך. ולמי שלא יצא לא באחרונה להשתמש בקו 11, אני מזכירה שחוקי אין כניסה/אין פניה לא רלבנטים. לפני כמה חודשים נוספה לגוגל מפות אפשרות לחפש מסלול ברגל. המסלולים מתעלמים מכיווני התנועה, ו(לידיעת הירושלמים/חיפאים) דיווחים מסן-פרנציסקו שרמת אמינותם לא ברורה מוסרים שהם גם מתחשבים בטופוגרפיה. בישראל, מסלולים ברגל יש רק באתר מפה, והם זמינים רק למנויי האתר (בתשלום). כרגע, כאמור, האפשרות הזאת לא זמינה בישראל, אבל צריך לקוות שזה יגיע מתישהו.

נקודה שלישית
הנקודה החשובה באמת היא שגוגל מפות מאפשר לך לבנות מפות משלך ולהוסיף להן את המידע שמעניין אותך. זה ממש לא מסובך להגדיר מפה חדשה, להוסיף עליה נקודות עניין, ואז אם רוצים לייצא אותה לכל שאר העולם. הנה משהו שהכנתי היום, ושעשוי אפילו להיות שימושי לכם אם אתם מת"א ובקופ"ח כללית. גדול עליכם? אפשר גם סתם להוסיף נקודת עניין (עדיין לא עובד בישראל...). קטן עליכם? אפשר לעשות mashes דינמיים באמצעות JavaScript באתר שלכם או כווידג'ט (דחפתי קצת באזוורדס... חחחח... אבל אם זה מעניין אתכם אתם ממש חייבים לקרוא את הבלוג הזה). בקיצור, גוגל מפות, בניגוד לאתרי המפות שהיו לנו עד עכשיו, הוא לא סתם מידע גאוגרפי: הוא מידע גאוגרפי שאפשר לעבוד איתו!

הגמל קורא מחשבות

15/10/2007

Gmail

אם אתם רושמים בתוך הודעת מייל בג'ימייל " I am attaching a", או "attached is" או אפילו (בעברית!) "אני מצרף" או "אני מצרפת", אבל שוכחים בעצם לצרף את הקובץ - ג'ימייל יגיד לכם לפני שהוא שולח שכנראה התכוונתם להוסיף קובץ, ויישאל אתכם אם לשלוח בכל זאת.

"מצורף בזאת", לעומת זאת, לא גורר שום תגובה.

מעניין אם הם הכניסו ידנית את רשימת הביטויים שגורמים לו לעשות את זה (סביר) או שהם הוציאו את זה אוטומטית על ידי ניתוח כל המיילים שיש להם attachments (מגניב).

שילפה שיגעה את העולם ואת גוגל

28/01/2007
כדי להבין עד כמה הסיפור הזה מעורר עניין בעולם, בצעו את הניסוי הבא. גשו למחשב והקלידו במנוע החיפוש גוגל כמה מהשמות שעשו השבוע את החדשות. לווייסלב קושטוניצה, לדוגמה, ראש ממשלת סרביה שבה התקיימו השבוע בחירות חשובות, יש 980 אלף אזכורים. העיתונאי הטורקי-ארמני הראנט דינק, שנרצח בשבוע שעבר באיסטנבול, זוכה ל-1.9 מיליון אזכורים. הילרי רודהם קלינטון, שעשויה להיות בעוד כשנתיים האשה החזקה בתבל ושהודיעה השבוע על מועמדותה לנשיאות ארצות הברית ב-2008, מובילה עליו רק במעט, עם 2 מיליון אזכורים. עכשיו הקלידו "שילפה שטי" (Shilpa Shetty), ותקבלו 2.2 מיליון אזכורים.
הפסקה הנ"ל פותחת את הכתבה על שילפה שטי, הסופ"ש ב"הארץ". המספרים נשמעים לכם לא הגיוניים בעליל? גם לי. החיפושים בגוגל נותנים לכם תוצאות אחרות לחלוטין? גם לי.מסתבר, שבמיוחד עבור מילות חיפוש נפוצות מאד, מספר תוצאות החיפוש שגוגל מחזיר הוא הערכה שנוטה לפלוקטציות מפתיעות על פני הזמן והמרחב, או במילים אחרות חיפושים בזמנים שונים וממחשבים שונים עשויים לתת מספרים שונים מאד (ויש גם מקרים קיצוניים). התוצאות אצלי לפני כמה דקות היו: "shilpa shetty" - 1,330,000;"hillary clinton" - 15,100,000;"hrant dink" - 2,240,000; "Vojislav Koštunica" - 1,210,000 דרך אגב, גם אם העיתונאית לא ידעה על הזיופים בגוגל, היא עדיין יצאה אהבלה פעמיים מהסיפור. פעם אחת בגלל שהיא לא חשבה שהנתונים שלה מוזרים (אבל זה בקטנה). פעם שניה ויותר משמעותית שהיא לא הסתכלה בעצם על תוצאות החיפוש שלה. אם היא היתה מסתכלת, היא היתה רואה שרוב האתרים קשורים לקריירה המצליחה של שילפה שטי כשחקנית בוליוודית, ולאו דווקא לפרשה בת שבועיים של גילויי גזענות בתוכנית מציאות גרועה במיוחד בטלויזיה הבריטית.