חזרה למאמרים
FRAMEWORK15 באפר׳ 20262 דקות קריאה

מסגרת חמשת השלבים להערכת כלי AI סוכנותי

לפני שאתם מוציאים דולר נוסף על כלי AI סוכנותי, העבירו אותו דרך חמש השאלות הבאות. אם הוא לא עובר, זה אוויר.

Omri Dan

Omri Dan · מייסד Nomadan

השוק מוצף. בכל שבוע, שלושה כלים "סוכנותיים" חדשים נוחתים בתיבה שלכם עם הקלטה, קישור ל-Stripe והנחת השקה.

רובם לא באמת סוכנותיים. הם פרומפטים חכמים בעטיפה. חלקם שימושיים בכל זאת. רובם לא.

הנה מסנן חמשת השלבים שאני מריץ על כל כלי לפני שאני ממליץ עליו ללקוח. השתמשו בו. הוא יחסוך לכם הרבה כסף.

1. האם הכלי באמת מבצע פעולה, או רק מייצר טקסט?

סוכן אמיתי עושה עבודה. הוא קובע פגישה, שולח אימייל, מעדכן שורה, פותח פנייה. אם הכלי עוצר בניסוח טיוטה ומחזיר את הפעולה עצמה לידי אדם בכל פעם, זה בסדר, אבל זה קופיילוט, לא סוכן. תמחרו את זה בהתאם.

הבדיקה. שאלו את הספק: "תראו לי לולאה שלמה אחת מטריגר ועד פעולה, בלי אדם באמצע." אם הם מראים לכם חלון צ'אט, זה קופיילוט.

2. האם ה-human-in-the-loop אמיתי או תיאטרון?

המערכות הסוכנותיות הכנות עוצרות לאישור אנושי בשלב המסוכן: השליחה, החיוב, המחיקה. הלא כנות מדלגות על העצירה (סיכון גבוה), או עוצרות בכל שלב כולל הטריוויאליים (תיאטרון שהופך את המוצר ללא שמיש).

צפו בסשן מלא לפני שאתם קונים. ספרו את האישורים. אם הוא מבקש מכם לאשר כל טוקן בפלט, ברחו.

3. לאן הולכים הנתונים שלכם?

שלוש שאלות, לפי הסדר:

  1. האם הנתונים שלי משמשים לאימון המודל הבסיסי?
  2. האם הנתונים שלי משותפים עם תת-מעבדים שלא נקבו בשמם?
  3. האם אני יכול לייצא ולמחוק הכל בלחיצה אחת?

אם אתם לא מקבלים תשובות נקיות בכתב, אין לכם כלי ברמה ארגונית. יש לכם פרויקט תחביב עם הנתונים שלכם בתוכו.

4. מה קורה כשזה נכשל?

סוכנים נכשלים. המוצרים הבוגרים אומרים לכם בדיוק איך: timeouts, ניסיונות חוזרים, dead-letter queues, התראות. הלא בוגרים שותקים.

שאלו: "איך נראה מצב הכשל, ואיך אגלה אותו?" אם התשובה היא "תראה את זה בלוגים", אין להם סיפור התראה. אם התשובה היא "נשלח לך אימייל תוך 5 דקות", יש לכם ספק.

5. האם יכולתם לשחזר 80% מזה באחר צהריים?

זו השאלה שספקים שונאים. הסתכלו על התהליך שמוצע. הייתם יכולים להעמיד משהו דומה עם AI Gateway, function call וטריגר בסגנון Zapier? אם כן, השאלה הופכת להיות אם הליטוש, התמיכה והאמינות של הספק שווים את התוספת.

לפעמים כן. הרבה פעמים לא.

הקיצור

אם כלי יכול לענות על כל חמש השאלות בבהירות בתוך 15 דקות בשיחת מכירה, זה מוצר אמיתי. אם השיחה נסחפת לאזור "תאמינו לקסם" באחת מהחמש, מצאתם אוויר.

בכל מקרה, אתם שומרים את הכסף שלכם.

אחרי הקריאה

רוצים להריץ את זה על העסק שלכם?

קבעו שיחה של 30 דקות. ספרו לי מה מאט את הצוות. תקבלו תשובה ישירה: אם שכבת AI יכולה לעזור, ואיזו עבודה היא יכולה לקחת על עצמה.

Omri Dan

תדברו עם

Omri Dan · מייסד

קבעו שיחת אבחון חינם

30 דקות · בלי מצגות · בלי התחייבות

קבעו שיחת אבחון חינם