אור שפירא, מתנדבת העמותה ופעילה ותיקה במיזם ויקיטקסט – מאגר של טקסטים חופשיים, מספרת מעט על המיזם בו היא מתנדבת ועל הפרויקטים בהם לקחה חלק במהלך השנים.
התנדבתי בעבר /אור שפירא
ויקיטקסט הוא מיזם ששייך לקרן ויקימדיה, האימא של ויקיפדיה. למעשה ויקיטקסט הוא מיזם אח לויקיפדיה (אח, חלילה לא בן!). בלועזית קוראים לויקיטקסט wikisource כך לשכאורה היה צריך לקרוא לו ויקימקור, אבל למעשה ויקיטקסט ותיק יותר מ"ויקימקור" ולכן נשאר השם המקורי ולא שונה גם כאשר המיזם הבינלאומי הוקם.
בויקיפדיה מתנדבים יושבים ומנסחים ערכים אנציקלופדיים, דיונים מתנהלים ויכוחים ניצחים ובסופו של דבר נקבע הניסוח המתאים (עד לעריכה הבאה). לכאורה בויקיטקסט הפעילות קלה יותר, אין ויכוחים על נוסחים ועל מה צריך להיכנס או לא. הכלל מאוד ברור, אם זה הודפס ואין על זה זכויות יוצרים ויש למישהו עניין שזה יהיה בויקיטקסט, אז זה יכול להיות בפנים. אבל מי אמר שלאסוף טקסטים ולהזינם למערכת שבתכלס לא באמת מיועדת לספרים זו עבודה פשוטה?
בתחילה תרמתי לויקיטקסט בפעילות ידנית משמימה לחלוטין, העתק הדבק, הקלד הדבק, הזן את הדף הקודם ואת הדף הבא עבור מאות הדפים של הספר, ואוי יש תקלה ועכשיו צריך לתקן את כל העבודה שכבר נעשתה. אפשר להשתגע מעבודה כזו, אבל איזה יופי שאני לא עושה את זה לבד.

פרויקטים שעשיתי באופן ידני לגמרי
פיוטים לראש השנה (הייתי צריכה ללמוד אותם במהלך התואר אז כבר הקלדתי עם ניקוד).
פרויקט הקלטת המשניות היה הפרויקט הראשון שתרמתי מעבר לסתם תרומה פה ותרומה שם. למעשה כל מי שמתנדב באופן קבוע בויקיטקסט לומד שעליו להרים פרויקט בעצמו, אחרת תרומתו תהיה דלה וכמעט חסרת משמעות.
ספר בן סירא – לבד מעצם העובדה שהייתי צריכה להקליד את כל הספר, חלק גדול מאוד ממנו גם הקלדתי את הניקוד שלו.

בתלמוד הירושלמי כבר לא הקלדתי את הטקסט בעצמי אלא לקחתי אותו ממקור אחר ברשת, חשבתי שזה יהיה רק קופי פייסט וזהו, מסתבר שלא. ספרים גדולים בויקיטקסט מתחלקים להרבה דפים, בין הדפים צריך לדאוג לאפשרויות ניווט הגיוניות (קדימה, אחורה, ודף למעלה (עבור דף הלכה -> דף פרק וכדומה)).
העבודה על התלמוד הירושלמי הבהירה לי חד משמעית שדרושים כלים אוטומטיים להזנת תכנים, תיקונים ותוספות. את סופו של פרויקט הירושלמי כבר עשיתי בשימוש בבוט של אראל
פרויקטים אוטומטיים
כאן קשה כבר שלא לגלוש לדברים שאני עושה בהווה, אבל נעשה השתדלות להישאר בעבר.

כאמור את סוף הירושלמי הקדשתי ללמוד ולהכיר את הבוט של אראל סגל, לאחר מכן השתמשתי בידע הזה כדי להזין באופן אוטומטי לגמרי את כל התוספתא. כשאני אומרת באופן אוטומטי זה אומר שהורדתי את הטקסט ממקום אחר באינטרנט שיש לו זכויות יוצרים על פיסוק הטקסט, באמצעות HTTrack (לא חלק הכרחי, יותר בשביל הנוחות) ולאחר מכן כתבתי קוד בשפתJAVA שלוקח את הקבצים מנקה ממנו את הפיסוק (שעליו כאמור יש זכויות יוצרים), מסדר אותו בפורמט שמתאים לבוט של אראל ומדפיס אותו לקובץ טקסט. על הקובץ שנוצר הרצתי את הבוט של אראל והופ כל התוספתא הייתה בתוך ויקיטקסט. התחושה הזו שלכאורה באמצעות פעולות פשוטות ניתן להזין ספרים שלמים לאתר היא תחושה שנותנת סיפוק. על אף העבודה הרבה שנעשתה בכתיבת הקוד.
לאחר שסיימתי את פרויקט התוספתא הבנתי שהכוח הוא בקוד ולכן רציתי לבנות בעצמי בוט שיעבור על כל הטקסט בויקיטקסט ויבצע באופן שגרתי החלפות אוטומטיות, מדובר בפעולה אגרסיבית שאני לא רציתי להנחית על הקהילה הקטנה של מתנדבי ויקיטקסט ללא דיון מעמיק לכן התחום הזה עדיין בפיתוח. כמו כן יצרתי מחלקת JAVA שמטרתה להתמודד עם טקסטים בראייה מוכוונת עצמים והמרתם לפורמט שמתאים לבוט של אראל. (מוזמנים לראות את כל הקוד של כל הפרויקטים בגיטהאב).
דפי עזרה
מלבד שימוש בכלים אוטומטיים, מאוד חשוב לי שמתנדבים חדשים שיגיעו לויקיטקסט יחושו שמאוד קל לתרום לויקיטקסט. בניגוד לתחושת הקבאס שהייתה לי מיותר מדיי עבודה ידנית, אני רוצה שמתנדב חדש שבא יוכל להתעסק בדברים הפשוטים והקלים ולא יצטרך להסתבך עם דברים מורכבים כמו תבניות ניווט, הקלדה מעייפת. לכן החלטתי לנסות ולתרום כמה שניתן יותר לדפי עזרה שיסייעו לחדשים ולותיקים ללמוד להשתמש בכלים אוטומטיים. לכן היה חשוב לי ביותר לכתוב את דף ההסבר לשימוש בתכנת OCR וכן לפתוח את דף ההסבר להזנה אוטומטית(הסבר על השימוש בבוט של אראל), זה לא מושלם אבל זו התחלה.
יש עוד הרבה מה לעשות ואני עוד עובדת על דברים נוספים (רמז, ספר היובלים) אבל זה כבר נושא לפוסט אחר שידבר על ההווה ואולי גם קצת על עתיד.
לקריאה נוספת ורשומות חדשות – ראו גם את הבלוג הזמני של אור שפירא.