|   15:07:40
דלג
  עידן יוסף  
מועדון VIP
להצטרפות הקלק כאן
בימה חופשית ב-News1
בעלי מקצועות חופשיים מוזמנים להעביר אלינו לפרסום מאמרים, מידע בעל ערך חדשותי, חוות דעת מקצועיות בתחומים משפט, כלכלה, שוק ההון, ממשל, תקשורת ועוד, וכן כתבי טענות בהליכים בבית המשפט.
דוא"ל: vip@news1.co.il
כתבות מקודמות
כתיבת המומחים
ניכיון שיקים - יתרונות וחסרונות
קבוצת ירדן
כיצד להכין בבית שייקים מיין
מחשבים יבינו סלנג? [צילום אילוסטרציה: דרור גרטי/פלאש 90]
משפת מחשב לשפה טבעית

מכונות יבינו עברית מדוברת

מעולם לא הייתה השפה העברית נגישה יותר: רשות התקשוב הממשלתי יזמה ניסוי חלוצי ליצירת קורפוס מתויג של עברית בת-זמננו באמצעות האקדמיה ללשון העברית
21/01/2020  |   עידן יוסף   |   חדשות   |   תגובות
הבנת השפה האנושית
כדי שמחשב, מכשיר סלולרי, שואב אבק דיגיטלי או כל כלי חכם אחר יבין אותנו, יש ללמד אותו להבין את השפה האנושית. לשם כך קיימים שני פתרונות עקרוניים:
1. יצירת עץ החלטות ולימוד המחשב שלמשפט מסוים יש כוונה ומשמעות ספציפית. איך עושים זאת? יוצרים טבלה שבה מופיע המשפט ולצידו הכוונה והמשמעות. הבעיה בשיטה זו היא שמספר המשפטים האפשריים הוא בלתי מוגבל, והטבלה בהכרח מצומצמת. כיום משתמשים בשיטה זו כאשר תחום השפה הוא צר ומוגדר היטב כדוגמת Bot שיחה לפתיחת חשבון או לקבלת שירות מסוים.
2. יצירת מאגר טקסטים מתויגים. איך עושים זאת? המחשב מוזן באוסף דוגמאות של משפטים שנותחו בידי אדם. המשפטים מפורקים למרכיביהם ומתויגים על-ידי בלשנים כך שמוגדרות ישויות במשפט, לדוגמה: את המילה 'חיפה' ניתן לקרוא כשמה של עיר בישראל, ובהקשר אחר כאדם ש'חיפה' על חברו. בעבודה זו מוגדרים הערך המילוני, חלקי הדיבר (פעלים, שמות וכו') וישויות תחביריות (נושא המשפט וכו'). לאחר שהוזנו משפטים רבים כדוגמת משפט זה, התוכנה המתאימה תוכל להתחיל ולתת מענה גם למשפטים שלא הוזנו אליה קודם לכן.
מיזמים של מאגרי טקסטים מתויגים כגון אלו כבר בוצעו בעבר בשפות בעלות אוכלוסיית דוברים גדולה, אך בעברית נעשתה עבודה מעטה וטרם פורסמו תשתיות נרחבות בשפה העברית בת-זמננו לשימוש חופשי.
מבנה העברית והכתיב שלה שונים מאוד משפות שבהן יש כיום מודלים מפותחים לעיבוד שפה טבעית, ולכן אי-אפשר להשתמש במודלים הקיימים באופן ישיר לקבלת תוצאות טובות.
מיזם החלוץ שהסתיים כעת הוא התחלה של מיזם הדיגיטציה של השפה העברית שמטרתו לייצר מאגר טקסטים מתויגים ללמידת מכונה כדי להגיע ל"הבנת" העברית על-ידי מכונות ומחשבים.

איך העוזר/ת הקולי/ת שלי מבינ/ה אותי? למה אנחנו מתכוונים כשאנו אומרים 'הדליקי את האורות בכל הבית', 'שלח הודעה לפלוני', 'אני מגיע לחיפה בעוד 5 דקות', או 'נקי לי רק את המטבח'. כדי שהמכונה תוכל לעשות זאת, יש ללמד אותה להבין את שפת בני האנוש.

רשות התקשוב הממשלתי מפרסמת בימים אלו לראשונה קורפוס מתויג ידני (תיוג "זהב") של עברית בת-זמננו. זה מאגר טקסטים שבו לכל מילה הצמידה האקדמיה ללשון העברית ניתוח בלשני, והוא בנוי לשמש ללמידת מכונה. זו סנונית ראשונה במיזם הדיגיטציה של השפה העברית. מטרתו לייצר מסד נתונים איכותי שיאפשר למכונות מחשוב "להבין" שפה אנושית בשיחה כתובה ומדוברת.

מיזם הדיגיטציה צפוי להוביל למהפכה ב"הבנת" המכונה את השפה העברית ויפתח שער לשירות בעברית ביישומונים ובכלים רבים. כיום קיים פער ניכר ביכולת הכלים המבוססים על עיבוד שפה טבעית בין העברית לבין האנגלית, הנמצאת במוקד המחקר. למשל אם תנסו להשתמש בעברית ב-Echo של אמזון, ב-Google Home של גוגל או ב-HomePod של אפל, לא תקבלו מענה ברמה שהורגלתם אליה בשימוש באנגלית. מכשירים המבינים דיבור חופשי נמכרים בעולם במאות מיליונים, והשימוש בהם הולך וגובר בין השאר לצורך קיום פעולות תוך כדי נהיגה או בזמן שהידיים או העיניים עסוקות בדבר אחר. במיוחד יש בהם פוטנציאל לשיפור איכות החיים לאנשים עם מוגבלויות. מלבד "שיחות" עם מכשירים, לעיבוד שפה טבעית יש יישומים מרחיקי לכת כגון תרגום מכונה, כריית מידע רלוונטי מתוך טקסט, ניתוח כוונות ורגשות מתוך טקסט, סיווג טקסטים ותקצירים אוטומטיים.

הערך לדוברי העברית הוא עצום, כי ייפתחו בפניהם אפשרויות רבות שכיום זמינות רק בשפות זרות, ויוכלו בעתיד להתבסס על העברית המדוברת בת-זמננו.
במיזם ניסויי חלוץ, שהוגדר ברשות התקשוב הממשלתי ונעשה באקדמיה ללשון העברית, נבחן התקן למבנה התיוג, ולאחר מכן תויגו מאות משפטים, הן בשיח מובנה הן בשפה חופשית, שנלקחו מעולם השירות הממשלתי לציבור.

אנשי מקצוע באקדמיה ללשון העברית תייגו את המשפטים תיוג מורפולוגי ידני בתקן UD (תקן בינלאומי המאפשר שימוש על-ידי אלגוריתמים לעיבוד שפה טבעית).

כדי להבטיח התאמה בין עולם התיוג המורפולוגי לבין עולם הניתוח התחבירי הממוחשב, שולבה בפרויקט מעבדת ה-NLP של הפרופסור רעות צרפתי באוניברסיטת בר-אילן, ונעשה שם תיוג תחבירי אוטומטי על בסיס התיוג המורפולוגי הידני.

התוצר פורסם ברישיון קוד פתוח לשימוש הציבור באתר Data.gov.il וזו הפעם הראשונה שתוצר תיוג בעברית בת-זמננו וביוזמה ממשלתית, מפורסם לשימוש חופשי לציבור, למחקר אקדמי ולחברות מסחריות. תוצר החלוץ ייבדק כעת על-ידי הכנסתו ללמידה במכונות של עיבוד שפה טבעית ובינה מלאכותית (AI/(NLP. התקן יטויב בהתאם למשוב שיתקבל. אפשר לשלוח התייחסויות לכתובת corpus@cio.gov.il

תאריך:  21/01/2020   |   עודכן:  21/01/2020
עידן יוסף
מועדון VIP להצטרפות הקלק כאן
פורומים News1  /  תגובות
כללי חדשות רשימות נושאים אישים פירמות מוסדות
אקטואליה מדיני/פוליטי בריאות כלכלה משפט סדום ועמורה עיתונות
מכונות יבינו עברית מדוברת
תגובות  [ 0 ] מוצגות   [ 0 ]  לכל התגובות        תפוס כינוי יחודי            
תגובות בפייסבוק
ברחבי הרשת / פרסומת
רשימות קודמות
יואל גבע, הבעלים של בית הספר הפרטי הנושא את שמו, משך לאורך השנים דיבידנדים ב-200 מיליון שקל, ובנוסף לכך השתמש לצרכיו הפרטיים בכספי החברות שבבעלותו. כך טוען איתי ישורון, שהיה במשך 23 שנים עובד בכיר בקבוצה ואף שימש כמנכ"ל שלה.
המערכת החורפית בישראל בעיצומה: שלג החל לרדת ביישוב פסגות שבבנימין וגם באלון שבות שבגוש-עציון. שלג מעורב בגשם החל לרדת גם בירושלים, בהר ברכה שבשומרון בצפון רמת הגולן וכן בשכונות הגבוהות של צפת. ברחבי הארץ יורד גשם וקיים חשש לשיטפונות בנחלים. בחרמון ירדו הלילה 15 ס"מ שלג, והאתר לא ייפתח גם היום למבקרים. במועצה האזורית גולן ובצפת הכבישים פתוחים והלימודים מתקיימים כסדרם. מחר וביום חמישי עדיין צפויים גשמים קלים.
21/01/2020  |  מירב ארד  |   חדשות
תוכנית לשכונה חדשה במג'דל שמס, מעלה הר חרמון, אושרה אתמול (20.1.2020) להפקדה בוועדה מחוזית צפון. משרד הבינוי והשיכון מתכנן תוספת משמעותית של יח"ד המותאמות לאוכלוסייה הדרוזית תוך התחשבות ושימוש בטופוגרפיה של האיזור, בעלות תכנון של כ-3 מיליון שקלים.
21/01/2020  |  מירב ארד  |   חדשות
משפטו של הנשיא דונלד טראמפ בסנאט יהיה מהיר, ללא שמיעת עדים וללא הצגת מסמכים נוספים על אלו שהיו בפני בית הנבחרים. זוהי כוונתו של יו"ר הרוב הרפובליקני, מיץ' מקונל, אשר פרסם (יום ג', 21.1.20) הצעת החלטה לניהול המשפט הנפתח בהמשך היום (20:00, שעון ישראל).
21/01/2020  |  איתמר לוין  |   חדשות
שר התחבורה, בצלאל סמוטריץ', פנה אל ראש הממשלה וביקש ממנון לנצל את ישיבת המליאה המתוכננת ליום שלישי הבא לצורך העברת החלטה להחלת הריבונות הישראלית בבקעת הירדן ובצפון ים המלח.
20/01/2020  |  איציק וולף  |   חדשות
בלוגרים
דעות  |  כתבות  |  תחקירים  |  לרשימת הכותבים
יורם אטינגר
יורם אטינגר
ב-2024 יש 69% רוב יהודי בשטח המשולב של יהודה, שומרון ו"הקו הירוק" - לעומת 39% מיעוט ב-1947 ו-9% ב-1900 - הנהנה מרוח גבית של שיעור פריון ומאזן-הגירה-חיובי    אין פצצת זמן דמוגרפית ער...
יוסף אורן
יוסף אורן
אני בטוח ששופטי הפרס בחרו את הספרון "החזאית" כספר הטוב ביותר מאלה שהוגשו לעיונם בשנת 2022, אך גם הטוב מכולם באותה שנה לא היה כנראה מספיק טוב כדי להיבחר כראוי לפרס ברנר
אלי אלון
אלי אלון
בתי העלמין הקיבוציים, לרוב מטופחים ומגוננים בצמחי ושיחי נוי ובעצים מצילים    בסך-הכל ניתן לקבוע כי בתי העלמין הקיבוציים מטופחים יותר מאשר בתי עלמין אחרים
לרשימות נוספות  |  לבימה חופשית  |  לרשימת הכותבים
הרשמה לניוזלטר
הרשמה ל-SMS
ברחבי הרשת / פרסומת
ברחבי הרשת / פרסומת
News1 מחלקה ראשונה :  ניוז1  |   |  עריסת תינוק ניידת  |  קוצץ ירקות מאסטר סלייסר  |  NEWS1  |  חדשות  |  אקטואליה  |  תחקירים  |  משפט  |  כלכלה  |  בריאות  |  פנאי  |  ספורט  |  הייטק  |  תיירות  |  אנשים  |  נדל"ן  |  ביטוח  |  פרסום  |  רכב  |  דת  |  מסורת  |  תרבות  |  צרכנות  |  אוכל  |  אינטרנט  |  מחשבים  |  חינוך  |  מגזין  |  הודעות לעיתונות  |  חדשות ברשת  |  בלוגרים ברשת  |  הודעות ברשת  |  מועדון +  |  אישים  |  פירמות  |  מגשרים  |  מוסדות  |  אתרים  |  עורכי דין  |  רואי חשבון  |  כסף  |  יועצים  |  אדריכלים  |  שמאים  |  רופאים  |  שופטים  |  זירת המומחים  | 
מו"ל ועורך: יואב יצחק © כל הזכויות שמורות     |    שיווק ופרסום ב News1     |     RSS
כתובת: רח' חיים זכאי 3 פתח תקוה 4977682 טל: 03-9345666 פקס מערכת: 03-9345660 דואל: New@News1.co.il