Üretim Ortamında Laravel Horizon: Gerçekten Tutabilen Yapay Zeka Kuyruk Yüklerinin Yapılandırılması

Son güncelleme: 15 Mayıs 2026 05:15

Laravel Horizon, üretim aşamasında oldukça basit görünebilir, ancak LLM çıkarım işi zaman aşımına uğradığında ve kullanıcılarınız boş yanıtlar almaya başladığında işler karmaşıklaşır. Standart kuyruk işleri (e-posta gönderimi, resim işleme, kayıt senkronizasyonu) milisaniyeler içinde tamamlanır. Ancak AI çıkarım işleri bu kadar hızlı değildir. Soğuk bir claude-sonnet-4-6 çağrısı, yoğun bir sistem istemiyle 45 saniye sürebilir. Bir gemini-2.5-pro toplu özetleme işi ise yük altında 2 dakikayı aşabilir. Horizon’un varsayılanları bu tür işler için tasarlanmamıştır ve hata modları oldukça zorlayıcıdır: failed_jobs alanına düşmeden kaybolan işler, 30 saniyenin altında tükenen tries bütçesini tüketen tekrarlar ve tamamlanmanın ortasında terk edilen pahalı çıkarım işleri.

<p>Bu kılavuz, üretimde Laravel AI uygulamalarını çalıştırmanın tüm alanını kapsayan <a href="https://origin-main.com/ai-deployment-production-operations/" target="_blank" rel="noopener noreferrer">AI Deployment &amp; Production Operations modülü</a>'nın bir parçasıdır. Eğer hala çevresel dağıtım altyapınızı hazırlıyorsanız, <a href="https://origin-main.com/guides/deploy-laravel-to-production/" target="_blank" rel="noopener noreferrer">tam üretim dağıtım kılavuzu</a> en doğru başlangıç noktasıdır.</p>

<p>Aşağıdaki bilgiler, AI kuyruk iş yüklerinin dikkatli bir şekilde yapılandırılması gereken üç katmanı kapsar: supervisor ayarı, iş sınıfı tasarımı ve operasyonel izleme.</p>

<h2>
    <a name="why-ai-jobs-break-standard-horizon-assumptions" href="#why-ai-jobs-break-standard-horizon-assumptions"></a>
    AI İşlerinin Standart Horizon Varsayımlarını Neden Kırdığı
</h2>

<p>Standart Horizon yapılandırması, işlerin saniyeler içinde döngüye gireceğini varsayar. Varsayılanlar bu durumu yansıtır: 60 saniyelik zaman aşımı, gerileme ayarı olmadan üç tekrar ve verimlilik için ayar yapılmış supervisor ayarları. Bu varsayımlar, LLM çıkarım kuyruklamaya başladığınız anda çökme yaşar.</p>

<p>Üç ana hata durumu tekrar eden sorunlardır:</p>

<p><strong>Sessiz zaman aşımı.</strong> Horizon'un varsayılan <code>timeout</code> değeri olan 60 saniye, AI çıkarımı için agresiftir. Büyük bir bağlam penceresiyle yapılacak bir <code>gpt-4o</code> çağrısı, ilk token'ını döndürmeden 50 saniye bekleyebilir. Ağı bant varyansı ekleyin ve çalışan işlem bir <code>SIGKILL</code> alır. Herhangi bir istisna kaydedilmez. İş <code>failed_jobs</code> kaydına düşmez. Sadece kaybolur. Bu, AI için Horizon'u ayarlamamış ekiplerden gördüğümüz en yaygın destek bileti desenidir: "işler kayboluyor."</p>

<p><strong>Oran sınırlama yanlış yönetimi.</strong> OpenAI, Anthropic ve Google'dan alınan 429 yanıtları, geleneksel anlamda hatalar değildir. Beklenen, geçici ve telafi edilebilirler. Hemen tekrar denemek, <code>tries</code> bütçesini saniyeler içinde tüketir. İşin üzerinde bir <code>backoff</code> dizisi tanımlanmadığında, Laravel varsayılan olarak tekrar denemeler arasında sıfır gecikme kullanır. 15 saniye içinde bir oran sınırına beş kez çarpan bir iş, gerçekten bir hata almış olan bir iş kadar kalıcı olarak başarısız olmuştur.</p>

<p><strong>Kısmi çıktı kaybı.</strong> AI işleri, başarısız olmadan önce yararlı işler görür. Bir belge özetleme işi, bağlam sınırına geldiğinde girişinin %80'ini işleyebilir. Standart iş hata yönetimi, bu durumu tamamen vazgeçer. Uzun belgelerde pahalı çıkarım iş yükleri için, bu ölçülebilir bir maliyettir.</p>

<p>Düzeltme, üç alanda değişiklik gerektirir: supervisor yapılandırması, iş sınıfı tasarımı ve izleme.</p>

<h2>
    <a name="configuring-laravel-horizon-in-production-for-ai-workloads" href="#configuring-laravel-horizon-in-production-for-ai-workloads"></a>
    AI İş Yükleri İçin Üretimde Laravel Horizon'u Yapılandırma
</h2>

<p>Eğer daha önce yapmadıysanız Horizon'u kurun:<br/></p>

<div class="highlight js-code-highlight">
    <pre class="highlight shell"><code>composer require laravel/horizon

php artisan horizon:install

<p>Kritik yapılandırma <code>config/horizon.php</code> dosyasında bulunur. Varsayılan supervisor yapılandırması kasıtlı olarak jeneriktir. AI iş yükleri için, farklı ayarlarla özelleştirilmiş bir supervisor havuzuna ihtiyacınız var.<br/></p>

<div class="highlight js-code-highlight">
    <pre class="highlight php"><code><span class="c1">// config/horizon.php</span>

‘environments’ => [
‘production’ => [

    <span class="s1">'supervisor-ai-inference'</span> <span class="o">=&gt;</span> <span class="p">[</span>
        <span class="s1">'connection'</span>          <span class="o">=&gt;</span> <span class="s1">'redis'</span><span class="p">,</span>
        <span class="s1">'queue'</span>               <span class="o">=&gt;</span> <span class="p">[</span><span class="s1">'ai-high'</span><span class="p">,</span> <span class="s1">'ai-default'</span><span class="p">,</span> <span class="s1">'ai-low'</span><span class="p">],</span>
        <span class="s1">'balance'</span>             <span class="o">=&gt;</span> <span class="s1">'auto'</span><span class="p">,</span>
        <span class="s1">'autoScalingStrategy'</span> <span class="o">=&gt;</span> <span class="s1">'time'</span><span class="p">,</span>
        <span class="s1">'minProcesses'</span>        <span class="o">=&gt;</span> <span class="mi">2</span><span class="p">,</span>
        <span class="s1">'maxProcesses'</span>        <span class="o">=&gt;</span> <span class="mi">12</span><span class="p">,</span>
        <span class="s1">'balanceMaxShift'</span>     <span class="o">=&gt;</span> <span class="mi">2</span><span class="p">,</span>
        <span class="s1">'balanceCooldown'</span>     <span class="o">=&gt;</span> <span class="mi">5</span><span class="p">,</span>
        <span class="s1">'timeout'</span>             <span class="o">=&gt;</span> <span class="mi">300</span><span class="p">,</span>  <span class="c1">// 5 dakika — akış tamamlamalarını kapsar</span>
        <span class="s1">'sleep'</span>               <span class="o">=&gt;</span> <span class="mi">3</span><span class="p">,</span>
        <span class="s1">'tries'</span>               <span class="o">=&gt;</span> <span class="mi">5</span><span class="p">,</span>
        <span class="s1">'nice'</span>                <span class="o">=&gt;</span> <span class="mi">0</span><span class="p">,</span>
    <span class="p">],</span>

    <span class="s1">'supervisor-default'</span> <span class="o">=&gt;</span> <span class="p">[</span>
        <span class="s1">'connection'</span>  <span class="o">=&gt;</span> <span class="s1">'redis'</span><span class="p">,</span>
        <span class="s1">'queue'</span>       <span class="o">=&gt;</span> <span class="p">[</span><span class="s1">'default'</span><span class="p">,</span> <span class="s1">'notifications'</span><span class="p">,</span> <span class="s1">'mail'</span><span class="p">],</span>
        <span class="s1">'balance'</span>     <span class="o">=&gt;</span> <span class="s1">'simple'</span><span class="p">,</span>
        <span class="s1>'minProcesses'</span><span class="o">=&gt;</span><span class="mi">1</span><span class="p">,</span>
        <span class="s1>'maxProcesses'</span><span class="o">=&gt;</span><span class="mi">8</span><span class="p">,</span>
        <span class="s1>'timeout'</span><span class="o">=&gt;</span><span class="mi">60</span><span class="p">,</span>
        <span class="s1>'sleep'</span><span class="o">=&gt;</span><span class="mi">3</span><span class="p">,</span>
        <span class="s1>'tries'</span><span class="o">=&gt;</span><span class="mi">3</span><span class="p">,</span>
    <span class="p">],</span>
<span class="p">],</span>
<span class="p">],</span>

<p>Burada açıklanması gereken birkaç karar bulunmaktadır.</p>

<p><code>autoScalingStrategy: time</code>, işçilerin ölçeklenmesini kuyruk bekleme süresine göre ayarlar, kuyruk boyutuna göre değil. AI iş yükleri için, kuyruk boyutu zayıf bir sinyaldir: bekleyen üç iş yönetilebilir gibi görünse de, her biri 90 saniye alıyorsa, son kullanıcının beklemesi 4 dakika olacaktır. Zaman tabanlı ölçekleme, bu durumu daha önce tespit eder.</p>

<p><code>timeout: 300</code> değerinin akış tamamlamaları ve büyük bağlam çağrıları için bol miktarda alan sağladığını belirtmek gerekir. Bu, rutin olarak yaklaşmanız gereken bir tavan değildir; daha ziyade, bir güvenlik ağıdır. İşlerin düzenli olarak 120 saniyeyi geçmesi durumunda, bu bir istem mühendisliği sorunudur, zaman aşımı sorunu değil.</p>

<p><code>balanceCooldown: 5</code> değeri, otomatik dengeleyiciyi kısa AI çağrılarda patinaj yapmaktan korur, ardından bir çukur gelir. Varsayılan değer, 3 saniye olup, çıkarım iş yükleri için fazla tepkisel bir ayardır.</p>

<p><strong>Supervisord sunucu yapılandırması</strong> da ayrıca önemlidir. <code>stopwaitsecs</code> değeri, Horizon'un <code>timeout</code> değerini aşmalıdır, aksi takdirde işlem yöneticisi, bir dağıtım sırasında uzun bir çıkarım işinin tamamlanmadan önce çalışan Horizon işçisini öldürecektir:<br/></p>

<div class="highlight js-code-highlight">
    <pre class="highlight ini"><code>

[program:laravel-horizon]
process_name=%(program_name)s
command=php /var/www/html/artisan horizon
autostart=true
autorestart=true
user=www-data
redirect_stderr=true
stdout_logfile=/var/www/html/storage/logs/horizon.log
stopwaitsecs=360

<p><code>stopwaitsecs</code> değerini en az <code>timeout + 60</code> ayarlamalısınız. Bu değerin varsayılan 10 saniye olarak bırakılması durumunda, yuvarlak dağıtımlarda sessiz bir şekilde in-flight çıkarım çağrıları kesilebilir.</p>

<h2>
    <a name="designing-the-job-class-timeout-retry-and-rate-limit-handling" href="#designing-the-job-class-timeout-retry-and-rate-limit-handling"></a>
    İş Sınıfının Tasarımı: Zaman Aşımı, Tekrar ve Oran Sınırları Yönetimi
</h2>

<p>Supervisor yapılandırması dış sınırı belirler. İş sınıfı, içinde çalışacak olan davranışı tanımlar. AI çıkarım işlerinde üç özellik tartışılmaz: <code>$timeout</code>, <code>$tries</code>, ve <code>$backoff</code>.<br/></p>

<div class="highlight js-code-highlight">
    <pre class="highlight php"><code><span class="cp"><?php </span?>

namespace App\Jobs;

use Illuminate\Bus\Queueable;
use Illuminate\Contracts\Queue\ShouldQueue;
use Illuminate\Foundation\Bus\Dispatchable;
use Illuminate\Queue\InteractsWithQueue;
use Illuminate\Queue\SerializesModels;
use Illuminate\Queue\Middleware\RateLimited;
use Illuminate\Support\Facades\Log;

class GenerateAIInsightJob implements ShouldQueue
{
use Dispatchable, InteractsWithQueue, Queueable, SerializesModels;

<span class="cd">/ 
 * Hard kill threshold. Horizon's supervisor timeout is the outer wall;
 * this property is the job's own declaration to the queue system.
 * Set it below the supervisor timeout to allow graceful error handling.
 */</span>
<span class="k">public</span> <span class="kt">int</span> <span class="nv">$timeout</span> <span class="o">=</span> <span class="mi">240</span><span class="p">;</span>

<span class="cd">/ 
 * Total attempts before the job is moved to failed_jobs.
 * 5 attempts with exponential backoff covers transient provider outages.
 */</span>
<span class="k">public</span> <span class="kt">int</span> <span class="nv">$tries</span> <span class="o">=</span> <span class="mi">5</span><span class="p">;</span>

<span class="cd">/ 
 * Seconds to wait before each retry attempt.
 * Indices correspond to attempt number: attempt 1 waits 30s, attempt 2 waits 60s, etc.
 */</span>
<span class="k">public</span> <span class="kt">array</span> <span class="nv">$backoff</span> <span class="o">=</span> <span class="p">[</span><span class="mi">30</span><span class="p">,</span> <span class="mi">60</span><span class="p">,</span> <span class="mi">120</span><span class="p">,</span> <span class="mi">180</span><span class="p">,</span> <span class="mi">240</span><span class="p">];</span>

<span class="k">public</span> <span class="k">function</span> <span class="n">__construct</span><span class="p">(</span>
    <span class="k">private</span> <span class="k">readonly</span> <span class="kt">int</span>    <span class="nv">$documentId</span><span class="p">,</span>
    <span class="k">private</span> <span class="k">readonly</span> <span class="kt">string</span> <span class="nv">$prompt</span><span class="p">,</span>
    <span class="k">private</span> <span class="k">readonly</span> <span class="kt">string</span> <span class="nv">$model</span> <span class="o">=</span> <span class="s1">'claude-sonnet-4-6'</span><span class="p">,</span>
<span class="p">)</span> <span class="p">{}</span>

<span class="k">public</span> <span class="k">function</span> <span class="n">middleware</span><span class="p">():</span> <span class="kt">array</span>
<span class="p">{</span>
    <span class="k">return</span> <span class="p">[</span><span class="k">new</span> <span class="nc">RateLimited</span><span class="p">(</span><span class="s1>'ai-inference'</span><span class="p">)];</span>
<span class="p">}</span>

<span class="k">public</span> <span class="k">function</span> <span class="n">handle</span><span class="p">():</span> <span class="kt">void</span>
<span class="p">{</span>
    <span class="nv">$document</span> <span class="o">=</span> <span class="nc">Document</span><span class="o">::</span><span class="nf">findOrFail</span><span class="p">(</span><span class="nv">$this</span><span class="o">-&gt;</span><span class="n">documentId</span><span class="p">);</span>

    <span class="k">try</span> <span class="p">{</span>
        <span class="nv">$response</span> <span class="o">=</span> <span class="nc">\Anthropic</span><span class="o">::</span><span class="nf">messages</span><span class="p">()</span><span class="o">-&gt;</span><span class="nf">create</span><span class="p">([</span>
            <span class="s1>'model'</span>      <span class="o">=&gt;</span> <span class="nv">$this</span><span class="o">-&gt;</span><span class="n">model</span><span class="p">,</span>
            <span class="s1>'max_tokens'</span> <span class="o">=&gt;</span> <span class="mi">2048</span><span class="p">,</span>
            <span class="s1>'messages'</span>   <span class="o">=&gt;</span> <span class="p">[</span>
                <span class="p">[</span><span class="s1>'role'</span> <span class="o">=&gt;</span> <span class="s1>'user'</span><span class="p">,</span> <span class="s1>'content'</span> <span class="o">=&gt;</span> <span class="nv">$this</span><span class="o">-&gt;</span><span class="n">prompt</span><span class="p">],</span>
            <span class="p">],</span>
        <span class="p">]);</span>

        <span class="nv">$document</span><span class="o">-&gt;</span><span class="nf">update</span><span class="p">([</span>
            <span class="s1>'ai_insight'</span>       <span class="o">=&gt;</span> <span class="nv">$response</span><span class="o">-&gt;</span><span class="n">content</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">-&gt;</span><span class="n">text</span><span class="p">,</span>
            <span class="s1>'insight_model'</span>    <span class="o">=&gt;</span> <span class="nv">$this</span><span class="o">-&gt;</span><span class="n">model</span><span class="p">,</span>
            <span class="s1>'insight_token_count'</span> <span class="o">=&gt;</span> <span class="nv">$response</span><span class="o">-&gt;</span><span class="n">usage</span><span class="o">-&gt;</span><span class="n">inputTokens</span> <span class="o">+</span> <span class="nv">$response</span><span class="o">-&gt;</span><span class="n">usage</span><span class="o">-&gt;</span><span class="n">outputTokens</span> <span class="o">,</span>
        <span class="p">]);</span>

    <span class="p">}</span> <span class="k">catch</span> <span class="p">(</span><span class="nc">\Throwable</span> <span class="nv">$e</span><span class="p">)</span> <span class="p">{</span>
        <span class="k">if</span> <span class="p">(</span><span class="nv">$this</span><span class="o">-&gt;</span><span class="nf">isRateLimitException</span><span class="p">(</span><span class="nv">$e</span><span class="p">))</span> <span class="p">{</span>
            <span class="c1">// Geri almak için kuyruktan çıkmadan gerekli gecikme ile bırak.</span>
            <span class="c1">// Hata fırlatmayın — fırlatmak, bir başarısız girişim olarak sayılır.</span>
            <span class="nv">$this</span><span class="o">-&gt;</span><span class="nf">release</span><span class="p">(</span><span class="nv">$this</span><span class="o">-&gt;</span><span class="n">backoff</span><span class="p">[</span><span class="nv">$this</span><span class="o">-&gt;</span><span class="nf">attempts</span><span class="p">()</span> <span class="o">-</span> <span class="mi">1</span><span class="p">]</span> <span class="o">??</span> <span class="mi">240</span><span class="p">);</span>
            <span class="k">return</span><span class="p">;</span>
        <span class="p">}</span>

        <span class="nc">Log</span><span class="o">::</span><span class="nf">error</span><span class="p">(</span><span class="s1>'AI insight generation failed'</span><span class="p">,</span> <span class="p">[</span>
            <span class="s1>'document_id'</span> <span class="o">=&gt;</span> <span class="nv">$this</span><span class="o">-&gt;</span><span class="n">documentId</span><span class="p">,</span>
            <span class="s1>'attempt'</span>     <span class="o">=&gt;</span> <span class="nv">$this</span><span class="o">-&gt;</span><span class="nf">attempts</span><span class="p">(),</span>
            <span class="s1>'error'</span>       <span class="o">=&gt;</span> <span class="nv">$e</span><span class="o">-&gt;</span><span class="nf">getMessage</span><span class="p">(),</span>
        <span class="p">]);</span>

        <span class="k">throw</span> <span class="nv">$e</span><span class="p">;</span>
    <span class="p">}</span>
<span class="p">}</span>

<span class="k">public</span> <span class="k">function</span> <span class="n">failed</span><span class="p">(</span><span class="nc">\Throwable</span> <span class="nv">$exception</span><span class="p">)</span><span class="o">:</span> <span class="n">void</span>
<span class="p">{</span>
    <span class="c1">// Tamamlanmış olabilecek herhangi bir kısmi çalışmayı koru, tamamen silme.</span>
    <span class="nc">Document</span><span class="o">::</span><span class="nf">where</span><span class="p">(</span><span class="s1>'id'</span><span class="p">,</span> <span class="nv">$this</span><span class="o">-&gt;</span><span class="n">documentId</span><span class="p">)</span><span class="o">-&gt;</span><span class="nf">update</span><span class="p">([</span>
        <span class="s1>'ai_insight_status'</span> <span class="o">=&gt;</span> <span class="s1>'failed'</span><span class="p">,</span>
        <span class="s1>'ai_insight_error'</span>  <span class="o">=&gt;</span> <span class="nv">$exception</span><span class="o">-&gt;</span><span class="nf">getMessage</span><span class="p">(),</span>
    <span class="p">]);</span>

    <span class="nc">Log</span><span class="o">::</span><span class="nf">critical</span><span class="p">(</span><span class="s1>'AI insight job exhausted all retries'</span><span class="p">,</span> <span class="p">[</span>
        <span class="s1>'document_id'</span> <span class="o">=&gt;</span> <span class="nv">$this</span><span class="o">-&gt;</span><span class="n">documentId</span><span class="p">,</span>
        <span class="s1>'model'</span>       <span class="o">=&gt;</span> <span class="nv">$this</span><span class="o">-&gt;</span><span class="n">model</span><span class="p">,</span>
    <span class="p">]);</span>
<span class="p">}</span>

<span class="k">public</span> <span class="k">function</span> <span class="n">retryUntil</span><span class="p">():</span> <span class="nc">\DateTime</span>
<span class="p">{</span>
    <span class="c1">// Mutlak son tarih. $tries kalan olsa bile, iş bu noktadan sonra tekrar yapılmayacaktır.
    // Zaman açısından kritik çıkarım hatları için kritik.</span>
    <span class="k">return</span> <span class="nf">now</span><span class="p">()</span><span class="o">-&gt;</span><span class="nf">addHours</span><span class="p">(</span><span class="mi">3</span><span class="p">);</span>
<span class="p">}</span>

<span class="k">private</span> <span class="k">function</span> <span class="n">isRateLimitException</span><span class="p">(</span><span class="nc">\Throwable</span> <span class="nv">$e</span><span class="p">)</span><span class="o">:</span> <span class="n">bool</span>
<span class="p">{</span>
    <span class="k">return</span> <span class="nf">str_contains</span><span class="p">(</span><span class="nv">$e</span><span class="o">-&gt;</span><span class="nf">getMessage</span><span class="p">(),</span> <span class="s1>'429'</span><span class="p">)</span>
        <span class="o">||</span> <span class="nf">str_contains</span><span class="p">(</span><span class="nv">$e</span><span class="o">-&gt;</span><span class="nf">getMessage</span><span class="p">(),</span> <span class="s1>'rate_limit'</span><span class="p">)</span>
        <span class="o">||</span> <span class="nf">str_contains</span><span class="p">(</span><span class="nv">$e</span><span class="o">-&gt;</span><span class="nf">getMessage</span><span class="p">(),</span> <span class="s1>'Too Many Requests'</span><span class="p">);</span>
<span class="p">}</span>

<p><code>$this-&gt;release()</code> deseninin <code>isRateLimitException</code> içindeki verilmesi gereken doğru yaklaşım olduğu vurgulanmaktadır. Hata fırlatmak, başarısız bir deneme sayıldığından, tekrar döngüsünü başlatır. <code>release()</code> çağrısı, işi tekrar ekler ve geri bırakırken gecikme süresi ekler, <code>tries</code> sayacını azaltmaz. Oran sınırları iş hataları değildir; bunlar programlama sinyalleridir.</p>

<p><code>retryUntil()</code> bir güvenlik vanasıdır. Bunun olmaması durumunda, beş deneme boyunca artan geri beklemeyle birlikte bir iş teorik olarak saatlerce yeniden denemeye geçebilir, sonucu artık gerekli değilse. Bunu gerçek iş gereğine uyacak şekilde ayarlayın.</p>

<h2>
    <a name="registering-the-rate-limiter" href="#registering-the-rate-limiter"></a>
    Oran Sınırlayıcıyı Kaydetme
</h2>

<p>İş üzerindeki <code>RateLimited</code> ara yazılımı, bir isimlendirilmiş oran sınırlayıcıyı referans alır. Bunu <code>AppServiceProvider</code>'ınızda kaydedin:<br/></p>

<div class="highlight js-code-highlight">
    <pre class="highlight php"><code><span class="c1">// app/Providers/AppServiceProvider.php</span>

use Illuminate\Cache\RateLimiting\Limit;
use Illuminate\Support\Facades\RateLimiter;

public function boot(): void
{
RateLimiter::for(’ai-inference’, function (object $job) {
// Bunu sağlayıcı tepenize göre ayarlayın.
// Anthropic İkinci Seviye: ~1,000 RPM. OpenAI Üçüncü Seviye: ~5,000 RPM.
// Koruyucu başlayın ve geçiş sürecini doğruladıkça artırın.
return Limit::perMinute(60)->by(’global’);
});
}

<p>Çok kiracılı uygulamalar için, her kiracı sağlayıcının anahtarlarını içerecek şekilde sınırlayıcıyı kiracı bazında ayarlayın:<br/></p>

<div class="highlight js-code-highlight">
    <pre class="highlight php"><code><span class="nc">RateLimiter</span><span class="o">::</span><span class="k">for</span><span class="p">(</span><span class="s1>'ai-inference'</span><span class="p">,</span> <span class="k">function</span> <span class="p">(</span><span class="kt">object</span> <span class="nv">$job</span><span class="p">)</span> <span class="p">{</span>
<span class="nv">$tenantId</span> <span class="o">=</span> <span class="nv">$job</span><span class="o">-&gt;</span><span class="n">tenantId</span> <span class="o">??</span> <span class="s1>'global'</span><span class="p">;</span>
<span class="k">return</span> <span class="nc">Limit</span><span class="o">::</span><span class="nf">perMinute</span><span class="p">(</span><span class="mi">30</span><span class="p">)</span><span class="o">-&gt;</span><span class="nf">by</span><span class="p">(</span><span class="s1>"tenant:</span><span class="si>{</span><span class="nv">$tenantId</span><span class="si>}</span><span class="s1>"</span><span class="p">);</span>

});

<p>Token bütçeleri ve her kiracı için limitler etrafında daha geniş bir yönetim katmanı inşa ediyorsanız, <a href="https://origin-main.com/laravel-architecture/laravel-ai-middleware-token-tracking/" target="_blank" rel="noopener noreferrer">AI ara yazılım makalesi</a> bu desenin HTTP istek katmanındaki karşılığını kapsar.</p>

<h2>
    <a name="job-duration-why-this-visualisation-matters" href="#job-duration-why-this-visualisation-matters"></a>
    İş Süresi: Neden Bu Görselleştirme Önemlidir
</h2>

<p>Aşağıdaki grafik, AI çıkarım işlerinin standart kuyruk işleri ile aynı supervisor havuzunu paylaşamaz nedenini göstermektedir. Standart işler neredeyse tamamen 200ms altında toplansalar da, AI çıkarım işleri 5 ila 90 saniye arasında dağılım gösterir, önemli bir kuyruk oluştururlar. Paylaşılan 60 saniyelik bir zaman aşımı, AI dağılımının kuyruğunu sessizce keser.</p>

<h3>
    <a name="bar-chart-comparing-job-duration-distribution-between-standard-queue-jobs-and-ai-inference-jobs-illustrating-why-a-shared-60second-timeout-is-insufficient-for-ai-workloads" href="#bar-chart-comparing-job-duration-distribution-between-standard-queue-jobs-and-ai-inference-jobs-illustrating-why-a-shared-60second-timeout-is-insufficient-for-ai-workloads"></a>
    Standart kuyruk işleri ve AI çıkarım işleri arasındaki iş süresi dağılımını karşılaştıran çubuk grafik, paylaşılan 60 saniyelik zaman aşımının AI iş yükleri için neden yetersiz olduğunu göstermektedir.
</h3>

<p><a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F102oonzqavuc49zx253j.PNG" class="article-body-image-wrapper"><img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F102oonzqavuc49zx253j.PNG" alt=" " loading="lazy"/></a></p>

<h2>
    <a name="monitoring-what-actually-matters-for-ai-queues" href="#monitoring-what-actually-matters-for-ai-queues"></a>
    AI Kuyrukları İçin Gerçekten Önemli Olanı İzleme
</h2>

<p>Horizon panosu, kutu başına, bekleme süresi ve son iş çalışma süresini otomatik olarak sunar. Standart iş yükleri için bu üç değer, ihtiyaç duyduğunuz çoğu bilgiyi sağlar. Ancak AI çıkarım iş yükleri için en ihtiyaç duyulan sinyal, varsayılan olarak gösterilmediği için önemlidir: <code>SIGKILL</code> ile çıkan işler ile normal şekilde tamamlanan işler arasındaki oran.</p>

<p>Aşağıdaki tablo, AI iş yükleri için gerçek öneme sahip Horizon metriklerini ve alarm için değerlendirilecek eşik değerlerini özetlemektedir:</p>

<ul>
    <li>Metrik: İş bekleme süresi
        <ul>
            <li>Varsayılan eşik: 30 saniyede uyarı ver</li>
            <li>AI iş yükleri için eşik: 120 saniyede uyarı ver</li>
            <li>Neden farklıdır: AI işleri daha yavaş geçer (kısa bekleme süreleri normaldir)</li>
        </ul>
    </li>

    <li>Metrik: İş çalışma süresi (p95)
        <ul>
            <li>Varsayılan eşik: 10 saniyede uyarı ver</li>
            <li>AI iş yükleri için eşik: 90 saniyede uyarı ver</li>
            <li>Neden farklıdır: Uzun tamamlamalar beklenir; ortalamadan ziyade kuyruğun sonunu izleyin</li>
        </ul>
    </li>

    <li>Metrik: Başarısız iş oranı
        <ul>
            <li>Varsayılan eşik: %5'te uyarı ver</li>
            <li>AI iş yükleri için eşik: %2'de uyarı ver</li>
            <li>Neden farklıdır: Pahalı çıkarım; hatalar, hesaplamadan daha maliyetlidir</li>
        </ul>
    </li>

    <li>Metrik: Tekrar oranı
        <ul>
            <li>Varsayılan eşik: İzlenmez</li>
            <li>AI iş yükleri için eşik: %15'te uyarı ver</li>
            <li>Neden farklıdır: Yüksek tekrar oranları oran sınırı veya model kararsızlığı sorununu gösterir</li>
        </ul>
    </li>

    <li>Metrik: Kuyruk derinliği (ai-high)
        <ul>
            <li>Varsayılan eşik: 50'de uyarı ver</li>
            <li>AI iş yükleri için eşik: 10'da uyarı ver</li>
            <li>Neden farklıdır: Yüksek öncelikli AI işler hemen işlenmelidir</li>
        </ul>
    </li>
</ul>

<p>Sessiz zaman aşımı öldürme sorunu için, yerel bir Horizon alarmı yoktur. Semptom, tamamlanmayan işlerin <code>failed_jobs</code> alanında hiçbir iz bırakmadan iş bırakmasıdır. Bunu dolaylı olarak uygulama katmanınızdaki iş dağıtım sayıları ile tamamlanma sayılarını izleyerek tespit edebilirsiniz:<br/></p>

<div class="highlight js-code-highlight">
    <pre class="highlight php"><code><span class="c1">// Dağıtım tarafı — niyet kaydını tut</span>

Cache::increment(”jobs:dispatched:{$this->documentId}”);
GenerateAIInsightJob::dispatch($document->id, $prompt)->onQueue(’ai-default’);

// İşlem tarafı — tamamlanmayı kaydet
Cache::increment(”jobs:completed:{$this->documentId“);

<p>Bu iki sayacı arasındaki farkın artması, <code>failed_jobs</code> alanında karşılık gelen bir artış olmaksızın, sessiz <code>SIGKILL</code> öldürmelerinin parmak izi gibidir. Her beş dakikada bir, bu zamanla ilgili bir komut ekleyerek eşiği aşması durumunda uyarı verebilirsiniz:<br/></p>

<div class="highlight js-code-highlight">
    <pre class="highlight php"><code><span class="c1">// routes/console.php</span>

use Illuminate\Support\Facades\Schedule;

Schedule::call(function () {
$dispatched = Cache::get(’jobs:dispatched:total’, 0);
$completed = Cache::get(’jobs:completed:total’, 0);
$failed = DB::table(’failed_jobs’)
->where(’queue’,’like’,’ai-%’)
->where(’failed_at’,’>=’,now()->subHour())
->count();

<span class="nv">$missing</span> <span class="o">=</span> <span class="nv">$dispatched</span> <span class="o">-</span> <span class="nv">$completed</span> <span class="o">-</span> <span class="nv">$failed</span><span class="p">;</span>

<span class="k">if</span> <span class="p">(</span><span class="nv">$missing</span> <span class="o">&gt;</span> <span class="mi">5</span><span class="p">)</span> <span class="p">{</span>
    <span class="nc">Log</span><span class="o">::</span><span class="nf">critical</span><span class="p">(</span><span class="s1>'AI jobs disappearing without trace'</span><span class="p">,</span> <span class="p">[</span>
        <span class="s1>'dispatched'</span> <span class="o">=&gt;</span> <span class="nv">$dispatched</span><span class="p">,</span>
        <span class="s1>'completed'</span>  <span class="o">=&gt;</span> <span class="nv">$completed</span><span class="p">,</span>
        <span class="s1>'failed'</span>     <span class="o">=&gt;</span> <span class="nv">$failed</span><span class="p">,</span>
        <span class="s1>'missing'</span>    <span class="o">=&gt;</span> <span class="nv">$missing</span><span class="p">,</span>
    <span class="p">]);</span>
<span class="p">}</span>

})->everyFiveMinutes();

<blockquote>
    <p><strong>[Üretim Tehlikesi]</strong> Sessiz <code>SIGKILL</code> öldürmesi, AI kuyruk iş yüklerindeki en tehlikeli hata modu olarak belirlenmiştir, çünkü herhangi bir eyleme geçirilebilir çıktı üretmez. Ekipler, kaybolmuş çıktıları "AI'nin yavaş olduğu" ifadesiyle geçiştirerek bu durumda haftalarca çalışabilirler. Herhangi bir şeyden önce <code>stopwaitsecs</code> ve <code>timeout</code> uyumunuzu kontrol edin. Eğer <code>stopwaitsecs</code> supervisord yapılandırmanızda Horizon'un <code>timeout</code> değerinden düşükse, her dağıtım sessiz bir şekilde in-flight çıkarım çağrılarını kesmektedir.</p>
</blockquote>

<p>Eğer AI mimariniz etrafında izleme katmanı inşa ediyorsanız, <a href="https://origin-main.com/laravel-architecture/production-grade-ai-architecture-in-laravel/" target="_blank" rel="noopener noreferrer">üretim AI mimarisi kılavuzu</a> bu tür kesişen operasyonel sinyalleri sağlayıcılar arasında nasıl merkezileştirebileceğinizi kapsar.</p>

<h2>
    <a name="failed-job-strategy-for-llm-inference" href="#failed-job-strategy-for-llm-inference"></a>
    LLM Çıkarımı için Başarısız İş Stratejisi
</h2>

<p>Bir iş <code>failed_jobs</code>'a düştüğünde, varsayılan tepki <code>php artisan queue:retry</code> komutu ile tekrar dağıtmak ve hatanın geçici olduğunu ummaktır. AI çıkarımında bu, nadiren yeterlidir. Çıkarım hataları genellikle belirli sebeplerle kümelenir (sağlayıcı kesintileri, hatalı istemler, bağlam penceresi taşmaları veya geçersiz çıktı üreten çıkarım parametreleri) ve her biri farklı bir tepki gerektirir.</p>

<p>Başarısız iş yönetiminizi, doğru bir biçimde triage yapmak için yeterli bağlamı toplamak üzere yapılandırın:<br/></p>

<div class="highlight js-code-highlight">
    <pre class="highlight php"><code><span class="k">public</span> <span class="k">function</span> <span class="n">failed</span><span class="p">(</span><span class="nc">\Throwable</span> <span class="nv">$exception</span><span class="p">)</span><span class="o">:</span> <span class="n">void</span>

{
$reason = match(true) {
str_contains($exception->getMessage(), ’context_length_exceeded’) => ’context_overflow’,
str_contains($exception->getMessage(), ’429′) => ’rate_limit_exhausted’,
str_contains($exception->getMessage(), ’invalid_request_error’) => ’bad_prompt’,
default => ’unknown’,
};

<span class="nc">Document</span><span class="o">::</span><span class="nf">where</span><span class="p">(</span><span class="s1>'id'</span><span class="p">,</span> <span class="nv">$this</span><span class="o">-&gt;</span><span class="n">documentId</span><span class="p">)</span><span class="o">-&gt;</span><span class="nf">update</span><span class="p">([</span>
    <span class="s1>'ai_insight_status'</span> <span class="o">=&gt;</span> <span class="s1>'failed'</span><span class="p">,</span>
    <span class="s1>'ai_failure_reason'</span> <span class="o">=&gt;</span> <span class="nv">$reason</span><span class="p">,</span>
    <span class="s1>'ai_insight_error'</span>  <span class="o">=&gt;</span> <span class="nv">$exception</span><span class="o">-&gt;</span><span class="nf">getMessage</span><span class="p">(),</span>
<span class="p">]);</span>

<span class="nc">Log</span><span class="o">::</span><span class="nf">error</span><span class="p">(</span><span class="s1>'AI inference job failed permanently'</span><span class="p">,</span> <span class="p">[</span>
    <span class="s1>'document_id'</span> <span class="o">=&gt;</span> <span class="nv">$this</span><span class="o">-&gt;</span><span class="n">documentId</span><span class="p">,</span>
    <span class="s1>'model'</span>       <span class="o">=&gt;</span> <span class="nv">$this</span><span class="o">-&gt;</span><span class="n">model</span><span class="p">,</span>
    <span class="s1>'reason'</span>      <span class="o">=&gt;</span> <span class="nv">$reason</span><span class="p">,</span>
    <span class="s1>'attempts'</span>    <span class="o">=&gt;</span> <span class="nv">$this</span><span class="o">-&gt;</span><span class="nf">attempts</span><span class="p">(),</span>
<span class="p">]);</span>

}

<p><code>reason</code> alanı önemli bir eklemedir. <code>context_overflow</code> hataları, hızlı bir kısayol mantığı gerektirirken, <code>bad_prompt</code> hataları, bir geliştiricinin istem şablonuna bakmasını gerektirir, otomatik bir yeniden kuyruklama değil. Bunları kör bir şekilde tekrar denemek, sağlayıcı kotalarını gereksiz yere yakar.</p>

<p>Ajansla iş akışları için, çıkarım işi çok aşamalı bir zincirin bir adımı olduğunda, hata yönetimi daha karmaşık hale gelir. Bu durumu etkileyecek sonraki işlerin ne olacağı ve mevcut kısmi çıktıyı nasıl doğrulayacağınız, <a href="https://origin-main.com/laravel-architecture/laravel-agentic-workflow-schema-validation/" target="_blank" rel="noopener noreferrer">ajans iş akışı şeması doğrultma kılavuzunda</a> detaylı şekilde ele alınmıştır. Burada uygulanacak temel ilke de birdir: Sahip olduğunuzu doğruladığınızdan emin olun, ardından tekrar denemenin gerekip gerekmediğine karar verin.</p>

<p>Horizon panosu ve Laravel Telescope'un bir arada kullanılması ile ilgili son bir not: Telescope'un iş izleyici özelliği, her bir başarısız iş için tam iş yükünü, istisna yığın izini ve zamanlamayı yakalar. AI iş yükleri için, iş yükü, istemi içerdiğinden post mortem analizini önemli ölçüde hızlandırır. Minimumda üretim dışı ortamlarda iş izleyiciyi etkinleştirin ve PII içeren herhangi bir şey için yük koruma ile birlikte üretimde etkinleştirmeyi düşünün. AI iş hatalarını sessizleştirmek için tag tabanlı filtreleme özelliğini kullanın, diğer kuyruk trafiğinden kurtulmanın yolunu bulun. Anthropic'in <a href="https://docs.anthropic.com/en/api/rate-limits" target="_blank" rel="noopener noreferrer">oran limiti dokümantasyonu</a>, <code>RateLimiter::for('ai-inference')</code> tavanınızı ayarlamak için sağlam bir referanstır.</p>

Kaynak: Orijinal Makale

Üretim Ortamında Laravel Horizon: Gerçekten Tutabilen Yapay Zeka Kuyruk Yüklerinin Yapılandırılması

Sanal Medya

Son Eklenenler

Silicon Valley’nin Yeni IPO Milyarderleri Geliyor: Kar Amacı Gütmeyenler Hazır!

RTS Oyunları Hala Canlı: Yeni Dönem Başlıyor!

Kritik: MCBS Medikal Fatura Verisi 1.26 Milyon Kişiyi Etkiledi

Acil: TeamCity Açığında Saldırganlar OS Komutları Çalıştırabilir!

Aşırı Güneş Fırtınası Beklenenden Daha Yıkıcı Olabilir mi?

Hugging Face ile Hızla Giydirme ve Soyundurmanın Yeni Yolu

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

Kategoriler

Populer