Serving - איך מודל מתחיל “לדבר עם העולם”
תוכן עניינים
Serving - איך מודל מתחיל “לדבר עם העולם”
אימנתם מודל? מצוין. אבל עכשיו מגיע השלב שבו הוא צריך להתחיל לענות לאנשים אמיתיים. כאן נכנס Serving - הדרך להפוך מודל מאומן לשירות חי.
מה זה Serving?
כשמדברים על “Serving”, מתכוונים לשלב שבו המודל:
- נטען לזיכרון (כמו אפליקציה שרצה).
- מקשיב לבקשות (למשל: “תן לי תחזית”).
- מחזיר תשובה (מהירה ומדויקת).
זה בעצם השירות שמאפשר לכל מערכת אחרת להשתמש במודל - דרך API פשוטה.
שני סוגי Serving
Real-Time Serving (זמן אמת)
כשצריך תשובה עכשיו. לדוגמה: משתמש שואל צ’אטבוט → המודל עונה מיד. הדגש: מהירות תגובה (Latency).
Batch Serving (אצווה)
כשמעבדים הרבה נתונים בבת אחת. לדוגמה: עדכון תחזיות לכל המשתמשים פעם ביום. הדגש: יעילות ו-Throughput גבוה.
למה זה חשוב?
כי מודל מעולה בלי Serving - הוא רק קובץ יפה. Serving הוא זה שהופך אותו לחלק ממערכת אמיתית, שמשרתת אנשים, אפליקציות וארגונים.
איך זה קורה בפועל?
- API Layer - מקבל בקשות מבחוץ (למשל ב-HTTP או gRPC).
- Model Engine - מריץ את החישוב בפועל (CPU או GPU).
- Scheduler / Load Balancer - מחלק את הבקשות כדי שהמערכת לא תקרוס.
- Cache - שומר תוצאות שחוזרות על עצמן כדי לא לחשב שוב.
לסיכום
Serving הוא השלב שבו AI הופך למוצר. בלי זה, המודל נשאר במעבדה. עם זה - הוא מדבר, מגיב, ומספק ערך אמיתי.
פוסט קודם: ./mlops-production.md פוסט הבא: אין