Grok yine zirvede: Yapay zekaların halüsinasyon oranlarında şaşırtıcı sonuçlar

OpenAI, geçtiğimiz Perşembe günü ChatGPT-5’i tanıttığında CEO Sam Altman, bu sürümün şimdiye kadar yayınladıkları en “güçlü, akıllı, hızlı, güvenilir ve sağlam” ChatGPT olduğunu vurguladı. Lansman sırasında, şirket çalışanları ayrıca ChatGPT-5’in “halüsinasyon” olarak bilinen yanlış bilgi üretme oranını azaltacağını belirtti.

Halüsinasyon nedir?

Yapay zekâ, gerçekte olmayan bilgileri gerçekmiş gibi sunduğunda bu durum “halüsinasyon” olarak adlandırılır. Büyük dil modellerinin (LLM) halüsinasyon oranları son yıllarda düşse de, hâlâ tamamen ortadan kalkmış değil. Bu da, insan gözetimi olmadan görevleri güvenle yerine getirmelerini engelleyen temel faktörlerden biri.

Vectara testleri: ChatGPT-5, GPT-4o’dan sadece %0,09 daha iyi

LLM performansını ölçen Vectara, halüsinasyon oranlarını karşılaştırmak için kendi “Hughes Halüsinasyon Değerlendirme Modeli” (HHEM) tablosunu kullandı. Sonuçlara göre:

ChatGPT-5: %1,4 halüsinasyon oranı
GPT-4: %1,8
GPT-4 Turbo & 4o Mini: %1,69
GPT-4o: %1,49

Yani ChatGPT-5, GPT-4o’dan yalnızca %0,09 oranında daha düşük halüsinasyon üretiyor. İlginç bir şekilde, ChatGPT-5’in oranı, %1,2 ile daha iyi bir performans sergileyen ChatGPT-4.5 Önizleme sürümünden biraz daha yüksek. Öte yandan, OpenAI’nin en iyi akıl yürütme modeli olan o3-mini %0,795 ile hâlâ en düşük halüsinasyon oranına sahip.

Grok’un yüksek halüsinasyon oranı ve tartışmalı “Spicy” modu

Karşılaştırmada, rakip modellerin performansı ChatGPT-5’in hâlâ önde olduğunu gösteriyor.

Gemini-2.5-pro: %2,6
Grok-4: %4,8

Özellikle Grok, halüsinasyon üretme konusunda listenin zirvesinde. XAI’nin geliştirdiği Grok, yakın zamanda “Spicy” modu ile de eleştiri topladı. Bu mod, ünlü isimler üzerinde deepfake içerikler oluşturulmasına zemin hazırlayabileceği endişesi yarattı. Şirket, sistemin çıplaklık veya cinsel içerikleri engelleyecek filtreler içerdiğini söylese de, bazı örnekler bu endişeleri güçlendirdi.

Eski modellerin kaldırılması tepki çekti

ChatGPT-5’in piyasaya sürülmesiyle birlikte OpenAI, ChatGPT-4, GPT-4o ve 4o-mini gibi sürümleri Plus kullanıcılarının erişiminden kaldırdı. Bu durum, kullanıcıların tepkisine yol açtı. Bazı Reddit kullanıcıları, “tek arkadaşını bir gecede kaybetmek” benzetmesiyle tepkilerini dile getirdi.

Sam Altman, X üzerinden yaptığı açıklamada, GPT-5’in genel olarak daha iyi olsa da GPT-4o’da sevilen bazı özelliklerin önemini hafife aldıklarını kabul etti. Şirket, bu tepkiler üzerine sınırlı bir süreliğine GPT-4o’yu Plus kullanıcılarına geri getireceğini duyurdu.

12 Ağustos’ta gökyüzünden ne mesaj gelecek?

can tok · 12 Ağustos 2025 · Comments off

12 Ağustos’ta gecenin son demlerinde, şafak henüz ufuk çizgisini gümüşle yalamadan önce gökyüzünde iki eski tanrı buluşacak. Aşkın yıldızı Venüs ve kudretin efendisi Jüpiter. Babilliler bu karşılaşmaya “Tanrıların Şurası” derdi. Çivi yazılı Venüs …

ChatGPT ‘bol bol tüket’ dedi, tavsiyeye uyan adam komaya girdi

can tok · 11 Ağustos 2025 · Comments off

ABD’de yaşanan tüyler ürpertici bir olay, yapay zekâdan alınan sağlık tavsiyelerinin tehlikeli sonuçlarını gözler önüne serdi. ChatGPT’den diyet önerisi alan bir adam, yapay zekânın “alternatif tuz” olarak önerdiği sodyum bromürü üç ay boyunca tüketince zehirlenmeye bağlı psikoz geçirdi.

BYD’de büyük kan kaybı

can tok · 5 Ağustos 2025 · Comments off

Dünyanın en büyük elektrikli araç üreticilerinden BYD, temmuz ayında dünya genelinde 341 bin 30 adet binek otomobil satışı gerçekleştirdi. Bu rakam, şirketin son altı ay içindeki ilk aylık satış düşüşü olarak kayıtlara geçti. Satışlar haziran ayına göre yüzde 9,7 oranında gerilerken, geçen yılın aynı dönemine kıyasla ise yalnızca yüzde 0,1’lik artışla yatay seyretti.

Related Posts

TCL, Türkiye Satış Operasyonlarını Tamer İşisağlam’a Emanet Etti

12 Ağustos’ta gökyüzünden ne mesaj gelecek?

ChatGPT ‘bol bol tüket’ dedi, tavsiyeye uyan adam komaya girdi

BYD’de büyük kan kaybı

Lewotobi Laki-Laki yanardağında şiddetli patlama: 10 kilometrelik kül sütunu yükseldi

ChatGPT “Ben robot değilim” engelini aştı