Danışman: Araş.Gör.Dr. Sevgi Harman
Öğrenciler: Enes Zeren, Emirhan Başaran
Bu proje, telefon AI telesekreteri için gerçek zamanlı soru-cevap eşleştirme sistemidir. Kullanıcının sesli sorusunu metne çevirdikten sonra, semantik anlamına göre veritabanındaki en uygun cevabı bulur ve ses dosyasını oynatır.
<500ms gecikme ile >85% doğrulukta cevap bulma. Turing testinden geçebilen doğal dil anlama.
SBERT (Sentence-BERT) ile 768 boyutlu semantic embedding. FAISS ile milisaniye seviyesinde arama.
Preprocessing: ~0.5ms
Embedding: ~55ms
FAISS Search: ~2ms
Toplam: ~57ms
Deepgram Nova-2 ile ses dalgası → metin dönüşümü. 50ms parçalara bölünmüş, spektrogram analizi. ~200ms gecikme.
Soru-soru eşleştirme yaklaşımı. "randevu alabilir miyim" ile "randevu istiyorum" aynı intent olarak algılanıyor.
Önceden kaydedilmiş insan sesi cevaplar. Her intent için ayrı MP3 dosyası. Doğal ve samimi ses tonu.
Deepgram Nova-2
Ses → Metin dönüşümü
Süre: ~200ms
Doğruluk: %95+
Normalizasyon
Unicode NFKC
Whitespace cleanup
Süre: ~0.5ms
768D Vektör
Sentence Transformers
L2 normalized
Süre: ~55ms
498 Soru Tarama
Kosinüs benzerliği
Top-3 sonuç
Süre: ~2ms
MP3 Oynatma
Insan sesi
Önceden kaydedilmiş
Süre: ~40ms
Burada SBERT kütüphanesi python kodu içerisinde kullanılmıştır