מי ששיחק קצת עם Google Translate שם די מהר לב לתופעה הבאה: לתרגם מאנגלית לעברית עובד הרבה (הרבה, הרבה) פחות טוב מאשר לתרגם מעברית לאנגלית.
הנה התרגום מעברית לאנגלית של הכתבה הראשית ב”הארץ”, כרגע:
Two people killed in two road accidents that occurred this evening along the roads of the North. Pedestrian killed by a car near the Ghetto Fighters' Kibbutz. Earlier this evening, one woman killed and two other people were seriously injured in an accident between vehicles on the road Laupnoa information internally in the northern village of Dir Hana.
ועכשיו התרגום מאנגלית לעברית של הכתבה הראשית בניו-יורק טיימס:
פילדלפיה - סנטור Barack Obama ימים היא במרחק של פורצים את ההוצאות פרסום הרשומה שקבע הנשיא בוש הכלליות של הבחירות לפני ארבע שנים, נתקל unleashed של מסע הפרסום בהיקף של unrivaled ואת המורכבות של עידן הטלוויזיה.
מה קורה פה? למה התרגום מעברית לאנגלית קריא, והתרגום מאנגלית לעברית הוא די קרוב לזבל מוחלט?
המתרגם של גוגל “לומד” לתרגם משני סוגים של מקורות. הסוג הראשון הוא מאגר טקסטים מתורגמים, כלומר טקסטים שנכתבו באחת השפות ותורגמו לשפה השניה. הסוג השני הוא מאגר טקסטים בשפת היעד.
מאגר התרגומים משמש כמו מילון דו-לשוני גדול, רק יותר טוב. כמו שמחפשים מילה במילון כדי לתרגם אותה, אפשר לחפש מילה במאגר הטקסטים המתורגמים ולראות איך תירגמו אותה בעבר. היתרון של הטקסטים המתורגמים הוא שאפשר לבחור את התרגום שהכי מתאים, מבחינת ההקשר, במקרה הנוכחי.
לדוגמה: אם נחפש את המילה “לחפש” במילון עברי-אנגלית, נקבל אפשרויות שונות כמו Search, Look for, Seek . שלא לדבר על זה שנקבל גם disguise, dress up. אם נחפש “לחפש בגוגל” במאגר התרגומים, נגלה שבהקשר הזה משתמשים תמיד ב- Search.
למאגר הטקסטים בשפת היעד יש שני תפקידים: אחד הוא לעזור בבחירת התרגום הנכון, והשני הוא לסייע לבנות משפט סביר בשפת היעד: לשנות את סדר המילים, ליצור התאמה טובה במין ובמספר בין הנושא לפועל, וכאלה. הרעיון הוא כזה: ננסה לתרגם את הטקסט בכל צורה אפשרית, ונבדוק איזה מהתרגומים הכי דומה למה שאנחנו רואים במאגר שפת היעד. לדוגמה, אם מופיע לנו General Elections באנגלית, נתרגם גם ל”הכלליות של הבחירות” וגם ל”בחירות כלליות”, ונבדוק מה מהצירופים האלה מופיע יותר בשפת היעד. או, אם כתוב שסנאטור אובאמה “is days away from”, נתרגם גם ל”ימים היא במרחק של” וגם ל”הוא במרחק של ימים מ”, ונבדוק מה מהם מסתדר יותר טוב.
תרגומים זה דבר שקשה להשיג. מספר הטקסטים שתורגמו בין עברית לאנגלית קטן בהרבה ממספר הטקסטים שנכתבו בעברית (וכמובן בהרבה הרבה ממספר הטקסטים שנכתבו באנגלית). אנחנו מעדיפים להשתמש בתרגומים מעודכנים יחסית, של טקסטים שדומים לטקסטים שהמחשב ייצטרך לתרגם אחר כך. בתוכנה שמיועדת לתרגום אתרי אינטרנט, אנחנו לא רוצים להשתמש בתרגומים של התנ”ך, ואפילו לו של הארי פוטר. בקיצור, אתגר, אפילו בשביל ענקית המידע גוגל.
מה שמסתבר הוא שאם יש לך מאגר טוב של טקסטים בשפת היעד, אפשר להשתמש בהם כדי לפצות על זה שמאגר התרגומים שלך קטן. באיזשהו מקום קראתי על הניסוי הבא: לקחו כמה תרגומים (אנושיים, דווקא), וביקשו מאנשים להעריך את איכות התרגום. היו שתי קבוצות של מעריכים: דו-לשוניים, שהעריכו את איכות התרגום אחרי שקראו גם את המקור; וחד-לשוניים, שהתבקשו להעריך את איכות התרגום רק על סמך קריאת התרגום. מתברר שהערכות של החד-לשוניים היו דומות מאד להערכות של הדו-לשונים((המצפון המדעי והאקדמי שלי מאד מציק לי עכשיו שאני מביאה לכם סיפור כזה בלי מראה מקום, אבל בשביל לתת מראה מקום הייתי צריכה לחפור בניירות ובקבצים, ולא בא לי כרגע. אם זה מאד חשוב למישהו, תשאלו)). מה שאנחנו לומדים מזה הוא שהרבה מהאיכות של התרגום קשור לכמה התוצר הוא הגיוני בשפת היעד. אם יש לנו מאגר טוב של שפת היעד ודרך טובה להסיק ממנו מה נשמע טוב בשפת היעד ומה לא, התרומה לתרגום תהיה אדירה.
וכאן, אני מנחשת, קבור הכלב של ההבדל בין התרגום מעברית והתרגום לעברית בגוגל. מאגר הטקסטים בעברית שגוגל משתמשים בהם כנראה הרבה יותר קטן מהמאגר האנגלי. אני יכולה גם לנחש שהאופן שבו משתמשים בו כדי לבדוק את איכות התרגום הוא פחות משוכלל. במילים אחרות, באותו מובן מוגבל שבו תוכנת מחשב “יודעת” שפה, גוגל “יודעים” עברית הרבה פחות ממה שהם “יודעים” אנגלית. שזה, כמובן, לא מאד מפתיע, רק קצת מצער.
המאבק הפנימי המתמיד בין ציניות למעורבות שוב מגיע לטמפרטורת רתיחה: היום ה-15 באוקטובר, ושוב פעם יש בלוג אקשן דיי.
בלוג אקשן דיי זה יום שבו בלוגרים נקראים לכתוב על נושא משותף בשביל להעלות את המודעות העולמית, או משהו כזה. בשנה שעברה זה היה איכות הסביבה. השנה הנושא הוא עוני. עוני? מה יש להגיד על עוני שלא יישמע כמו חיבור בבית ספר יסודי? מה אפשר לעשות ב”בלוג אקשן דיי” שיהיה יותר נכון, מוסרית וחברתית, ממשדר התרמה של לתת בערוץ 2?
אז הנה רעיון: למי שעוד לא מכיר, תנצלו את היום ותיקראו על מיקרו-אשראי ומיקרו-מימון. יש ערך סביר בויקיפדיה העברית. במשפט אחד, הרעיון הוא לתת הלוואות קטנות (ושירותים בנקאיים אחרים) לעניים, בעיקר במדינות מתפתחות.
אחרי שתשתכנעו, לכו ל- kiva.org, ושימו 25 דולר (91.93 ש”ח, נכון להבוקר, החיוב בשקלים דרך PayPal) על הלוואה למגדלת אורז מבורמה או רועה עיזים מבנגלדש. זאת לא תרומה, זאת הלוואה, הכסף יחזור אליכם עוד שנתיים ((אמנם בלי ריבית, אבל אם הדולר ייתחזק בשנתיים הקרובות בסוף עוד תרוויחו מזה!)). על Kiva אפשר לקרוא פה.