Serving - איך מודל מתחיל “לדבר עם העולם”

תוכן עניינים

Serving - איך מודל מתחיל “לדבר עם העולם”

אימנתם מודל? מצוין. אבל עכשיו מגיע השלב שבו הוא צריך להתחיל לענות לאנשים אמיתיים. כאן נכנס Serving - הדרך להפוך מודל מאומן לשירות חי.

מה זה Serving?

כשמדברים על “Serving”, מתכוונים לשלב שבו המודל:

  • נטען לזיכרון (כמו אפליקציה שרצה).
  • מקשיב לבקשות (למשל: “תן לי תחזית”).
  • מחזיר תשובה (מהירה ומדויקת).

זה בעצם השירות שמאפשר לכל מערכת אחרת להשתמש במודל - דרך API פשוטה.

שני סוגי Serving

Real-Time Serving (זמן אמת)

כשצריך תשובה עכשיו. לדוגמה: משתמש שואל צ’אטבוט → המודל עונה מיד. הדגש: מהירות תגובה (Latency).

Batch Serving (אצווה)

כשמעבדים הרבה נתונים בבת אחת. לדוגמה: עדכון תחזיות לכל המשתמשים פעם ביום. הדגש: יעילות ו-Throughput גבוה.

למה זה חשוב?

כי מודל מעולה בלי Serving - הוא רק קובץ יפה. Serving הוא זה שהופך אותו לחלק ממערכת אמיתית, שמשרתת אנשים, אפליקציות וארגונים.

איך זה קורה בפועל?

  • API Layer - מקבל בקשות מבחוץ (למשל ב-HTTP או gRPC).
  • Model Engine - מריץ את החישוב בפועל (CPU או GPU).
  • Scheduler / Load Balancer - מחלק את הבקשות כדי שהמערכת לא תקרוס.
  • Cache - שומר תוצאות שחוזרות על עצמן כדי לא לחשב שוב.

לסיכום

Serving הוא השלב שבו AI הופך למוצר. בלי זה, המודל נשאר במעבדה. עם זה - הוא מדבר, מגיב, ומספק ערך אמיתי.

פוסט קודם: ./mlops-production.md פוסט הבא: אין

תגובות