Yapay Zeka Destekli Karar Destek Sistemleri: Mimari ve Tanılama

Şubat 17, 2026 1 Görüntülenme

Yapay Zeka Destekli Karar Destek Sistemleri: Tanılama, Mimari ve Çözüm Yaklaşımı

Giriş

Endüstriyel tesislerde karar destek sistemleri (KDS) artık yalnızca raporlama aracı değil; üretim hattı stabilitesi, enerji yönetimi ve güvenlik aksiyonları için gerçek zamanlı yönlendirici. Bir pompa istasyonunda veya otomasyonlu montaj hattında hatalı karar 1 dakika içinde yüz binlerce TL'lik üretim kaybına neden olabilir. Bu bağlamda yapay zeka (YZ) destekli KDS'ler operasyonel riskleri azaltmak için kritik hale gelmiştir.

Operasyonel riskler, hata teşhisi gecikmeleri, yanlış alarmlar ve model sürüm uyuşmazlıkları şeklinde kendini gösterir. Gerçek sahada gözlemlediğimiz tipik gecikme: sensör arıza tanımlama sürecinin 2–10 dakika aralığına uzaması, bu da üretim kaybında %3–7 artış olarak yansıyabiliyor. Unutmayın, küçük gecikmeler bile kümülatif olarak operasyonel KPI'larda ölçülebilir bozulma yaratır.

Teknik kapsam bu yazıda model doğruluklarından (precision/recall, %), işlem gecikmesine (ms), veri gecikmesine (saniye) ve sistem yüküne (TPS, CPU%) kadar ölçülebilir parametrelerle ele alınacaktır. Amacımız geliştirici, mühendis ve araştırmacıların saha kararlarını hızlandırmak için pratik, test edilebilir ve uygulanabilir bir yaklaşım sunmaktır.

Bu yazıda açıklanan yöntemler; sensörlerin zaman damgası sapması, veri hatalarının korelasyonu, model drift'i ve otomasyon sistemleriyle entegrasyon gibi sahadan gelen problemleri doğrudan hedefler. Unutmayın: gerçek saha koşulları laboratuvar ortamından farklı davranır ve ölçüm disiplinine ihtiyaç duyar.

Kavramın Net Çerçevesi

YZ destekli karar destek sistemi, saha verisini alıp ön işleme tabi tutan, model tabanlı içgörü üreten ve eylem önerileri ile operatörü/otomasyonu besleyen uçtan uca bir dizidir. Sistem bileşenleri veri toplama, veri işleme, model çıkarımı, eylem orkestrasyonu ve izleme/geri bildirim döngüsünden oluşur.

Ölçülebilir sınırlar: model çıkarım gecikimi 50–200 ms aralığında olmalı; uçtan uca karar döngüsü (sensörden eyleme) 200 ms - 5 s arasında tanımlanmalıdır. Örneğin bir kompresör koruma senaryosunda anomali tespitinden 500 ms içinde koruyucu vana komutunun iletilmesi saha güvenliği için kritik olabilir.

Bu tanım, sistem tasarımının bileşen ilişkisini ve servis seviyelerini netleştirir: veri doğruluğu %1 sapma sınırında izlenmeli, model doğruluğu (F1) en az %85 hedeflenmelidir. Örneğin İzmir'de yapılan bir saha testinde anomali tespiti doğruluğu optimizasyonuyla duruş süresi %18 azaltıldı.

Yapay zeka destekli karar destek sistemi, sensör verisini işleyip operasyonel eylem üreten ve geri bildirimle kendini iyileştiren yazılım-mekanik bir döngüdür. Bu döngüde gecikme, doğruluk ve güvenilirlik ölçümleri birincil metriklerdir.

KDS'nin performans eşiği, hem model seviyesinde (% doğruluk, F1) hem de sistem seviyesinde (ms gecikme, TPS) tanımlanır. Ölçümler sahada sürekli olarak kaydedilmelidir.

Karar destek çıktıları, insan operatör ve otomasyon mantığı arasında bir kontrat gibidir; güven aralığı düşük çıktılar için insan onayı zorunlu tutulmalıdır. Bu kontrat yüzde olarak (ör. %95 güven aralığı) ifade edilebilir.

Kritik Teknik Davranışlar ve Risk Noktaları

1) Veride Zaman Damgası ve Senkronizasyon Hataları

Problem: Sensörler ve veri toplayıcılar arasında zaman damgası sapması, olay sıralamasını bozarak yanlış eylem tetiklemesine sebep olur. Saniyeler düzeyindeki sapma kritik olaylarda yanlış karar üretir.

Teknik detay: Senkronizasyon hataları 10 ms ile birkaç saniye arasında değişebilir; saha raporlarında tipik sapma 50–500 ms arasıdır. Ölçülebilir parametreler: zaman sapması (ms), sıra bozulma oranı (%). Ölçüm yöntemi: pcap + zaman damgası korelasyonu (packet capture ile GPS/PTS damgaları karşılaştırma).

Saha davranışı örneği: Pompa istasyonunda alarm tetiklediğinde, sensör zaman damgası 400 ms gecikmeli olduğu için koruma sistemi geç devreye girdi ve basınç pikinde vana 300 ms geç kapandı.

Saat senkronizasyonu için NTP yerine PTP uygulanması (stabilite <1 ms hedefi).
Her veri kaynağı için zaman sapması izleme metriği oluşturulması (threshold: 50 ms).
Toplanan verinin zaman damgasını referans GPS ile 1 saatte bir korelasyon testi.
Edge'de tamponlama; çıkış gecikmesi SLA'sına göre dinamik ayarlama (örn. 200 ms).
Test senaryolarında worst-case jitter ile 95. persentil gecikme ölçümü.

2) Model Drift ve Sürüm Uyumsuzluğu

Problem: Model davranışı zamanla değişen saha koşullarına uyumsuz hale gelir; doğruluk %5–20 arasında düşebilir. Ayrıca canlı sistemde yeni model sürümleri eski veri boru hatlarıyla uyumsuz parametre üretir.

Teknik detay: Ölçülebilir parametreler: F1 skoru (%), model inference latency (ms). Ölçüm yöntemi: rolling-window performans izleme (7/30 günlük pencere) ve log korelasyonu ile ground truth karşılaştırması.

Saha davranışı örneği: Mersin limanında konteyner tespit modeli 6 ay sonunda sınıflandırma F1'inde %12 düşüş gösterince yanlış alarm oranı %30 arttı.

Canlıda A/B modeli ve shadow deployment ile yeni sürümlerin 7/30 günlük gözetimli testleri.
Drift tespit eşiğini F1 düşüşü >%3 olarak belirlemek ve uyarı oluşturmak.
Model metriklerini veri segmentlerine göre raporlamak (sensor tipi, çevresel koşul).
Model geri dönüşüm pipeline'ı: her 30 günde bir veri örneklemesi ve yeniden eğitme tetiklemesi.
Sürüm yönetimi: model API versiyonlarını zorunlu hale getirip geriye dönük uyum testi yapmak.

3) Gerçek Zamanlı Çıkarımda Gecikme ve Ölçeklenebilirlik

Problem: Model inference gecikmesi hedef SLA'yı aşarsa (ör. hedef 200 ms), sistem eylemleri zamanında gerçekleştirilemez. Trafik piklerinde TPS (transactions per second) artışı nedeniyle gecikme artar.

Teknik detay: Ölçülebilir parametreler: p95 inference latency (ms), sistem throughput (TPS). Ölçüm yöntemi: load test ile 95. persentil gecikme ve CPU/MEM profil histogramları.

Saha davranışı örneği: Bir dolum hattında paketleme hatası tespiti sırasında TPS pikin %40 artmasıyla p95 gecikme 180 ms'den 420 ms'ye çıktı ve hatalı ürün oranı %2'den %6'ya yükseldi.

Model optimizasyonu: kuantizasyon ve pruning ile model boyutunu azalt, hedef inference p95 <200 ms.
Edge-Cloud hibrit: kritik kararlar için lokal çıkarım, ağır istatistiksel analizler için bulut.
Autoscaling kuralları: TPS artışı %30 üzerinde ise ek çıkarım konteynerleri devreye alma.
Load test senaryoları ile 95. persentil gecikme ve hat oranı metrikleri oluşturma.
Sistem gözlemlenebilirliği: inference latency için histogram ve heatmap raporları.

4) Veri Kalitesi Bozucu Etkenler ve Eksik Girdi

Problem: Eksik veya bozuk sensör verisi, modelin yanlış çıkış üretmesine yol açar. Veri kaybı %0.1 gibi düşük oranlarda bile kritik kararlarda hatalı tetiklemeye neden olabilir.

Teknik detay: Ölçülebilir parametreler: veri kaybı oranı (%), imputasyon hata metriği (MSE). Ölçüm yöntemi: veri akış histogramı ve eksik veri korelasyonu, log korelasyonu ile ground truth karşılaştırması.

Saha davranışı örneği: Bursa'da bir hattaki sıcaklık sensörünün periyodik kaybı, modelin ısı stresi uyarılarını %22 yanlış pozitif olarak üretmesine neden oldu.

Veri doğrulama katmanı: her okuma için sanity check (range check, spike detection).
Eksik veride deterministik imputasyon stratejisi; kritik sinyallerde reddetme ve insan müdahalesi.
Veri geri kazanımı için kısa süreli tampon ve yeniden iletim mekanizması (max 5 s tampon).
Kalite metriği: veri uygunluk oranı hedefi %99.5.
Veri bozulma tespitinde korelasyon analizi (Pearson/Spearman) ile eşlik eden sensörlerin durumuna bakma.

5) İnsan-Makine Karar Sınırlarının Yanlış Yönetimi

Problem: Sistem önerilerinin güven aralığı düşük olduğunda insan müdahalesi gerekse de otomatik eylemin engellenmesi gecikmeye yol açabilir. Operasyonel prosedürlerle otomasyon politikasının çakışması da risk yaratır.

Teknik detay: Ölçülebilir parametreler: insan müdahalesi gecikmesi (saniye), otomatik eylem başarısı (%). Ölçüm yöntemi: olay log korelasyonu, insan onay sürelerinin histogram analizi.

Saha davranışı örneği: Ankara'da bir üretim hattında sistem önerileri %60 güven aralığının altındaysa insan onayı bekleniyordu; bu kural kritik alarm durumlarında eylem süresini 8 s arttırdı, duruş süresi %4 arttı.

Güven aralığı pragmaları: otomatik eylem için >=%90, öneri + insan onayı için %60–90 aralığı.
Human-in-the-loop akışında onay hedef süresini 30 s ile sınırlama; SLAs belirleme.
Operatör eğitimleri ve görselleştirilmiş güven skoru panelleri.
Olay sonrası analiz: insan onayı ile otomatik eylem performans karşılaştırması.
Otomasyon politikalarını sürümleyip, her değişiklikte A/B testleri yapma.

Teknik Durum Tablosu

Kod	Belirti	Olası Neden	Ölçüm
001	Geciken alarm	Saat senkronizasyonu bozuk	Zaman sapması (ms) via pcap
002	Artan yanlış alarm	Model drift	F1 değişimi (%), rolling-window
003	Yavaş inference	TPS pikleri / büyük model	p95 latency (ms), load test

Sorunu Sahada Sistematik Daraltma

Bir sorunu sahada daraltırken fiziksel ekipman, ağ/infrastruktur, veri boru hattı ve uygulama/algoritma seviyeleri arasında sistematik ilerlemek gerekir. Bu adımlar sorunun kaynağını mantıksal ve ölçülebilir biçimde sınırlamanızı sağlar.

Fiziksel doğrulama: sensör ve bağlantı sağlığını (voltaj, kablo, konektör) gerçek ölçümlerle kontrol et.
Ağ ve zamanlama doğrulama: packet capture ile zaman damgalarını ve jitter'ı ölç; p95 jitter hedefi <10 ms ise sapmaları raporla.
Veri boru hattı denetimi: eksik veri oranı (%), veri kaybı loglarını kontrol et ve imputasyon uygulanıp uygulanmadığını incele.
Model ve uygulama testi: load test ile inference latency ve throughput ölç; model metriklerini rolling-window ile kontrol et.

Sıralı ilerleyin: fizikselden uygulamaya doğru daraltma, zaman ve kaynak israfını azaltır.

Gerçek saha içgörüsü: Güneybatı Türkiye'de bir tesiste, ilk arıza bildirimi ağ tarafında paket kaybı nedeniyle yanlış alarm olarak sınıflandırıldı; sorunu fiziksel kablo onarımıyla çözmek yaklaşık 2 saat sürdü ve hatalı alarm oranı %45 azaldı.

Gerçek saha içgörüsü: Marmara bölgesinde yapılan bir optimizasyonda model kuantizasyonu ve edge çıkarımıyla latency %60 iyileşme sağlandı ve üretim hattı verimliliği %3 arttı.

Gerçekçi saha senaryosu:

Bir dolum hattında anomali tespit sistemi sık sık yanlış alarm veriyordu; ilk yanlış varsayım, modelin hatalı olduğuydu. Analiz sırasında log korelasyonu ve packet capture ile sensörlerin 300 ms aralıklı kesintiye uğradığı tespit edildi. Kök neden, sensör beslemesindeki kısa dalgalanmalardı. Kalıcı çözüm olarak sensör besleme devresi güç düzenlemesi ve kısa tampon uygulaması yapıldı. Sonuç olarak yanlış alarm oranı %34 azaldı ve üretim kesinti süresi %2.5 iyileşti.

Uzun Vadeli Dayanıklılık ve Ölçüm Disiplini

Uzun vadeli dayanıklılık, düzenli ölçüm ve otomatik geri bildirim devreleri ile sağlanır; tek seferlik düzeltmeler kalıcı güven sağlamaz.

Sürekli izleme panelleri: latency, F1, veri kaybı ve güven aralığı metrikleri.
Periyodik yeniden eğitim: veri değişimine bağlı olarak 30/90 günlük döngüler.
Olay sonrası root cause analysis (RCA) süreçleri ve kalıcı aksiyon listeleri.
Model ve konfigürasyon versiyonlama ile geri dönüş planları.
Saha pilotlarıyla lokasyon bazlı optimizasyon: her tesiste lokal KPI hedefleri belirleme.

"Ölçemediğinizi yönetemezsiniz; KDS için doğru metrikleri seçmek, sahada gerçek etkiyi belirlemenin ilk adımıdır."

Sonuç

Yapay zeka destekli karar destek sistemleri çok katmanlı bir yaklaşım gerektirir: sensör ve zamanlama doğruluğu, veri kalitesi, model performansı, çıkarım gecikmesi ve insan-makine etkileşimi birlikte düşünülmelidir. Bu katmanlar ölçülebilir metriklerle (ms, TPS, %, F1) izlenmeli ve otomatik geri bildirim ile optimize edilmelidir.

Ölçüm ve izleme kültürü, saha dayanıklılığının merkezinde yer alır; Bella Binary olarak biz, lokal edge çıkarımı, sürüm kontrollü model dağıtımı ve saha-özgü performans hedefleri ile farklılaşıyoruz. Bizim yaklaşımımızda her dağıtım bir hipotezdir ve saha verisiyle doğrulanmadan tam üretime alınmaz.

Uzun vadede hedefimiz, sahadaki belirsizliği azaltmak ve operasyonel KPI'larda ölçülebilir iyileşme sağlamaktır. Eğer bu alanda birlikte çalışmak isterseniz teknik detayları ve saha uyarlamalarını birlikte planlayabiliriz. Bella Binary ile çözüm yolculuğunuzda adım adım ilerleyelim.