Gpt-3 Nedir ?

0
27

İşletmenizin OpenAI’nin çığır açan yapay zeka dil programı hakkında bilmesi gereken her şey

Gigabaytlarca metin alan bir yazılım programı, bir kişinin yazmış gibi görünmesine neden olacak kadar doğal olan tüm paragrafları otomatik olarak oluşturabilir. OpenAI’nin GPT-3’ü çok popüler. Nedir, ne yapabilir ve nereye gidiyor?

GPT-3, özel olarak düzenlenen San Francisco başlangıç ​​OpenAI tarafından oluşturulan bir bilgisayar programıdır. Devasa bir sinir ağıdır ve bu nedenle, yapay zeka veya AI olarak bilinen bilgisayar bilimi alanının bir dalı olan makine öğreniminin derin öğrenme bölümünün bir parçasıdır. Program, bir insan tarafından yazılmış gibi görünen metin satırlarını üretmede önceki programlardan daha iyidir.

Böyle bir atılımın şirketler için yararlı olmasının nedeni, görevleri otomatikleştirmek için büyük bir potansiyele sahip olmasıdır. GPT-3, bir kişinin bilgisayara yazdığı herhangi bir metne bağlama uygun yeni bir metin parçasıyla yanıt verebilir. Örneğin, bir arama kutusuna tam bir İngilizce cümle yazın ve alakalı olan tam cümlelerle bazı yanıtları geri alma olasılığınız daha yüksektir. Bu, GPT-3’ün müşteri hizmetleri için sorular ve cevaplardan durum tespiti belgesi aramaya ve rapor oluşturmaya kadar çok çeşitli durumlarda insan çabasını makul bir şekilde artırabileceği anlamına gelir.

Bir kişinin bilgisayara ne yazdığına ve GPT-3’ün nasıl yanıt gönderdiğine ilişkin aşağıdaki kısa örneği inceleyin:

Human-supplied input : Q: Who played tess on touched by an angel?

GPT-3-generated completion : A: Delloreese Patricia Early (July 6, 1931 { November 19, 2017), known professionally as Della Reese

İnsan kaynaklı girdi: S: Bir melek tarafından dokunulduğunda kim tess oynadı?

GPT-3 tarafından oluşturulan tamamlama: A: Delloreese Patricia Early (6 Temmuz 1931 {19 Kasım 2017), profesyonel olarak Della Reese olarak bilinir.

Program şu anda kişilerin bir bekleme listesine kaydolabileceği özel bir beta sürümündedir. OpenAI tarafından bulut üzerinden erişilebilen bir API olarak sunuluyor ve erişim izni verilen şirketler, basit soru yanıtlamadan programlama kodu üretmeye kadar her türlü programı geliştirmek için metin oluşturmayı kullanan bazı ilgi çekici uygulamalar geliştirdiler.

Otomasyon potansiyeli ile birlikte büyük dezavantajlar da vardır. GPT-3, hesaplamaya aç olduğundan, onu çoğu şirketin kullanımının ötesine, akla gelebilecek herhangi bir şirket içi şekilde sunar. Üretilen metin ilk bakışta etkileyici olabilir, ancak uzun kompozisyonlar biraz anlamsız olma eğilimindedir. Irkçılık ve cinsiyetçilik de dahil olmak üzere önyargıları büyütmek için büyük bir potansiyele sahiptir.

GPT-3 NASIL ÇALIŞIR?

GPT-3, belirli bir istatistik programı türü olan dil modeli olarak bilinen modele bir örnektir. Bu durumda, bir sinir ağı olarak yaratıldı.

GPT-3 adı, şimdiye kadarki üçüncü versiyonu olan “üretken ön eğitim” anlamına gelen bir kısaltmadır. Üretken, çünkü sayısal bir puan ya da evet ya da hayır cevabı veren diğer sinir ağlarının aksine, GPT-3 çıktı olarak orijinal metnin uzun dizilerini oluşturabilir. Yabancı dil çevirisi gibi alana özgü görevleri tamamlayabilse de, herhangi bir alan bilgisi ile inşa edilmemiş olması anlamında önceden eğitilmiştir.

GPT-3 durumunda bir dil modeli, metindeki diğer kelimeler verildiğinde bir kelimenin bir metinde görünme olasılığını hesaplayan bir programdır. Kelimelerin koşullu olasılığı olarak bilinen şey budur.

Örneğin, cümlede bir omlet yapmak istedim, bu yüzden buzdolabına gittim ve ____ aldım, boşluk dilin sonsuz birleşebilirliği göz önüne alındığında herhangi bir kelime, hatta anlamsız kelimelerle doldurulabilir. Ama “yumurtalar” kelimesi, normal metinlerin çoğunda bu boşluğu doldurmak için muhtemelen oldukça yüksek, örneğin “filler” den daha yüksek puan alıyor. İstenilen metnin durumuna göre yumurtaların olma ihtimalinin fillerin olasılığından daha yüksek olduğunu söylüyoruz.

 

Resim1

Bir sinir ağı dil modeli, bir metin parçasında bir arada bulunan kelimelerin istatistiksel olasılığını anlamak için kelimeleri kodluyor ve ardından kodlarını çözüyor. Burada, Google’ın Transformer’ı, koşullu olasılık dağılımı olarak bilinen İngilizce ve Fransızca arasındaki kelimelerin olasılığını eşler.

Eğitim aşaması olarak adlandırılan sinir ağı geliştirilirken, GPT-3 milyonlarca ve milyonlarca metin örneğiyle beslenir ve kelimeleri vektörler, sayısal temsiller olarak adlandırılan şeylere dönüştürür. Bu bir veri sıkıştırma biçimidir. Program daha sonra bu sıkıştırılmış metni tekrar geçerli bir cümle haline getirmeye çalışır. Sıkıştırma ve açma görevi, programın kelimelerin koşullu olasılıklarını hesaplamadaki doğruluğunu geliştirir.

Model eğitildikten sonra, yani milyarlarca kelime arasındaki koşullu olasılık hesaplamaları olabildiğince doğru yapılır, o zaman bir kişi bir ilk kelimeyi veya kelimeleri yazarak sorulduğunda, daha sonra hangi kelimelerin geleceğini tahmin edebilir. Bu tahmin eylemi, makine öğreniminde çıkarım olarak bilinir.

Bu çarpıcı bir ayna etkisine yol açar. Sadece olası kelimeler ortaya çıkmaz, aynı zamanda bir türün dokusu ve ritmi veya soru-cevap setleri gibi yazılı bir görevin biçimi de yeniden üretilir. Örneğin, GPT-3, ünlü şairlerin bazı isimleri ve eserlerinin örnekleriyle beslenebilir, sonra başka bir şairin adı ve sadece hayali bir şiirin adı verilebilir ve GPT-3, yeni bir şiir üretecektir. adı sorulan şairin ritmi ve sözdizimi ile tutarlıdır.

Human-supplied input : The City  BY C. P. CAVAFY   TRANSLATED BY EDMUND KEELEY [Poem text omitted]Human-supplied input : SOME TREES John Ashbery [Poem text omitted] Human-supplied input : Shadows on the Way Wallace StevensGPT-3-generated completion : ——– Generated Poem 1 ——–   I must have shadows on the way  If I am to walk I must have  Each step taken slowly and alone  To have it ready made    And I must think in lines of grey  To have dim thoughts to be my guide  Must look on blue and green  And never let my eye forget  That color is my friend  And purple must surround me too  The yellow of the sun is no more  Intrusive than the bluish snow  That falls on all of us. I must have  Grey thoughts and blue thoughts walk with me  If I am to go away at all.

Bir yanıt oluşturmak, GPT-3’ün sadece yazı üretmenin ötesine geçebileceği anlamına gelir. Doğal dilde yanıt içeren muhakeme testleri dahil her türlü testi gerçekleştirebilir. Örneğin, GPT-3, Manhattan kiralık mülklerinin kira oranları hakkında bir makale ve “Manhattan ucuza geliyor” gibi metni özetleyen bir ifade ve “doğru mu yanlış mı?” Sorusu girilirse, GPT-3 yanıt verecektir ifade, makalenin argümanına uymadığı için “yanlış” kelimesini döndürerek tüm bu soruyu yanıtlayın.

Human-supplied input : The trend toward lower rents may seem surprising given that some communities in New York are bemoaning the loss of favorite local businesses to high rents. But, despite the recent softening, for many of these retailers there’s still been too big a jump from the rental rates of the late 1970s, when their leases were signed. Certainly, the recent drop in prices doesn’t mean Manhattan comes cheap.Human-supplied input : question: Manhattan comes cheap. true, false, or neither?Human-supplied input : answer: GPT-3-generated completion : false

GPT-3’ün, daha önce hiç girilmemiş formlar da dahil olmak üzere örnek bir görevle tutarlı bir şekilde yanıt verme yeteneği, onu “az vuruşlu” dil modeli olarak adlandırılan şeyi yapar. Belirli bir görev için kapsamlı bir şekilde ayarlanmış veya “eğitilmiş” olmak yerine, GPT-3 kelimelerin bir araya geldiği birçok yol hakkında o kadar çok bilgiye sahiptir ki, ona bir görevin yalnızca bir avuç örneği verilebilir. ince ayar adımı olarak adlandırılır ve bu yeni görevi de gerçekleştirme becerisi kazanır.

Resim2

OpenAI, GPT-3’ü bir “birkaç vuruşlu” dil modeli programı olarak adlandırır, çünkü komut isteminde çeviri gibi bazı yeni görevlerin birkaç örneğiyle sağlanabilir ve daha önce özel olarak belirtilmeden görevin nasıl yapılacağını öğrenir. bu görev için ayarlanmış.

Doğal dil stillerini yansıtma ve dil temelli testlerde nispeten yüksek puan alma yeteneği, GPT-3’ün dil ile bir tür insan benzeri tesise yaklaştığı izlenimini verebilir. Göreceğimiz gibi, durum bu değil.

OpenAI bilim adamları tarafından yayınlanan resmi GPT-3 belgesinde daha fazla teknik ayrıntı bulunabilir.

GPT-3 NE YAPABİLİR?

OpenAI artık kodunun yayınlama uygulamaları kadar kodun kendisi kadar meşhur – ya da rezil – haline geldi. Şirket, selefi GPT-2’yi 2019 Sevgililer Günü’nde tanıttığında, başlangıçta en yetenekli sürümü kamuoyuna açıklamadı ve seri üretim riski nedeniyle vahşi doğada serbest bırakılmasının çok tehlikeli olduğunu söyledi. yanlış ve yanıltıcı metin. OpenAI daha sonra indirilebilir hale getirdi.

Bu sefer OpenAI herhangi bir indirme sağlamıyor. Bunun yerine, bulut tabanlı bir API uç noktasını açtı ve GPT-3’ü bir hizmet olarak teklif haline getirdi. (Bunu bir hizmet olarak dil modeli olan LMaaS olarak düşünün.) Bunun nedeni, OpenAI’nin hem GPT-3’ün kötü oyuncular tarafından kullanımını sınırlamak hem de para kazanmak olduğunu iddia ediyor.

OpenAI bir sözcüsü aracılığıyla ZDNet’e “Açık kaynak ile ‘geri alma düğmesi’ yoktur,” dedi.

“GPT-3’ü bir API aracılığıyla yayınlamak, kullanımını güvenli bir şekilde kontrol etmemizi ve gerekirse erişimi geri almamızı sağlıyor.”

Şu anda, OpenAI API hizmeti onaylanmış taraflarla sınırlıdır; erişim sağlamak için katılabileceğiniz bir bekleme listesi var.

OpenAI, ZDNet’e “Şu anda API, API kullanarak üretime katmak istedikleri bir şey için fikir gönderen az sayıda geliştiriciyle kontrollü bir beta sürümdedir” dedi.

Beta programındaki şirketlerden neler yapılabileceğine dair ilginç örnekler var. Girişim fonu Y Combinator tarafından desteklenen bir şirket olan Sapling, CRM yazılımının üstüne oturan bir program sunuyor. Bir müşteri temsilcisi gelen bir yardım talebini ele aldığında, örneğin e-posta yoluyla, program en olası yanıtlar arasından bir yanıt olarak tüm bir ifadeyi önermek için GPT-3’ü kullanır.

gpt3-3Resim3

Startup Sappling, yardım masası operatörlerinin bir sohbet oturumu sırasında müşterilerle kullanabilecekleri otomatik yanıtlar oluşturmak için GPT-3’ü kullandığını gösterdi.

Oyun üreticisi Latitude, metin tabanlı macera oyunu AI Dungeon’ı geliştirmek için GPT-3 kullanıyor. Genellikle, bir macera oyunu, oyun boyunca birçok olası yolu yazmak için karmaşık bir karar ağacı gerektirir. Bunun yerine, GPT-3, kullanıcıların yazdığı eylemlere yanıt olarak dinamik olarak değişen bir oyun durumu oluşturabilir.

Resim4

Oyun üreticisi Latitude, “AI Dungeon” oyununda otomatik olarak metin tabanlı maceralar oluşturmak için GPT-3’ün kullanımını araştırıyor.

Zaten, görev otomasyonu bilgisayar kodu üretmeye doğal dilin ötesine geçiyor. Kod bir dildir ve GPT-3, farklı programlama dillerinde operatörlerin ve işlenenlerin en olası sözdizimini çıkarabilir ve başarıyla derlenip çalıştırılabilen diziler üretebilir.

İlk bir örnek, uygulama geliştirme başlangıcı Debuild’in Twitter ayetini aydınlattı. Şirketin şefi Sharif Shameem, bir yazılım kullanıcı arayüzünün açıklamasını düz İngilizce olarak yazdığınız bir program oluşturabildi ve GPT-3, JavaScript’e JSX sözdizimi uzantısını kullanarak bilgisayar koduyla yanıt verdi. Bu kod, tanımladığınızla eşleşen bir kullanıcı arayüzü oluşturur.

This is mind blowing.

With GPT-3, I built a layout generator where you just describe any layout you want, and it generates the JSX code for you.

W H A T pic.twitter.com/w8JkrZO4lk

— Sharif Shameem (@sharifshameem) July 13, 2020

 

Shameem, birden çok düğmeli bir kullanıcı arayüzünü tek bir cümleyle tanımlayarak, temel aritmetiği hesaplamak ve sonucu görüntülemek gibi basit bir program olsa da, tüm bir programı tanımlayabileceğini ve GPT-3’ün bunun için tüm kodu üreteceğini ve çalışan uygulama.

I just built a *functioning* React app by describing what I wanted to GPT-3.

I’m still in awe. pic.twitter.com/UUKSYz2NJO

— Sharif Shameem (@sharifshameem) July 17, 2020

Şirket ZDNet’e verdiği demeçte, OpenAI “bugüne kadar API erişimi için on binlerce uygulama aldı ve bu modellerin gerçek dünyada neler yapabileceğini öğrenirken erişim konusunda mantıklı davranıyor” dedi. “Bu nedenle, bekleme listesi uzun olabilir.”

Nihai bir ticari hizmetin fiyatlandırması hala belirlenecektir. OpenAI, programın beta sürümünden ne zaman çıkacağı sorulduğunda, ZDNet’e “yakın zamanda değil” dedi.

Şirket, “Böylesine güçlü bir modeli piyasaya sürmek, yavaş gitmemiz ve bunun işletmeler, sektörler ve insanlar üzerindeki etkisi konusunda düşünceli olmamız gerektiği anlamına geliyor” dedi. “Bir API’nin formatı, kullanımlarını uygun şekilde incelememize ve denetlememize olanak tanıyor, ancak sınırlamaları nedeniyle onu genel kullanıma sunma konusunda acelemiz yok.”

Beta bekleme listesi konusunda sabırsızsanız, bu arada Docker kurulumu kullanılarak dizüstü bilgisayarda çalıştırılabilen önceki GPT-2 sürümünü indirebilirsiniz. Kaynak kodu, TensorFlow çerçevesi için Python biçiminde aynı Github deposunda yayınlanır. Elbette GPT-3 ile aynı sonuçları almayacaksınız, ancak bu kendinizi tanımaya başlamanın bir yoludur.

Unutmayın, benzer yeteneklere sahip yeni dil modelleri her zaman ortaya çıkar ve bunlardan bazıları sizin amaçlarınız için yeterli olabilir. Örneğin, Google kısa süre önce BERT dil modelinin LaBSE adlı bir sürümünü yayınladı ve bu, dil çevirisinde belirgin bir gelişme gösterdi. TensorFlow Hub’dan indirilebilir.

GPT-3’ÜN TARİHÇESİ NEDİR?

Mayıs ayında tanıtılan GPT-3, ilk olarak 2018’de OpenAI tarafından tanıtılan ve geçen yıl GPT-2 tarafından takip edilen bir programın üçüncü sürümüdür. Üç program, her ikisi de 2015’te gerçekleşen iki büyük ilerleme sayesinde, dil modelleri alanında hızlı yeniliklerin bir örneğidir.

İlk ilerleme, dikkat olarak bilinen şeyin kullanılmasıydı. AI bilim adamı Yoshua Bengio ve Montreal’in AI AI enstitüsünden meslektaşları, İngilizce bir cümleyi sıkıştırıp sonra sıkıştırmayı çözdüklerinde dil modellerinin hepsinin sabit uzunlukta bir vektör kullandığını gözlemlediler. Cümle ne kadar uzun olursa olsun, her cümle aynı boyuttaki vektöre sığdırıldı.

Bengio ve ekibi, bu katı yaklaşımın bir darboğaz olduğu sonucuna vardı. Bir dil modeli, koşullu olasılığı optimize eden kelimeleri bulmak için farklı uzunluklardaki birçok vektörde arama yapabilmelidir. Ve böylece sinir ağının kelimeleri farklı boyutlardaki vektörlere esnek bir şekilde sıkıştırmasına ve programın önemli olan bağlam için bu vektörler arasında esnek bir şekilde arama yapmasına izin vermenin bir yolunu tasarladılar. Buna dikkat çektiler.

Dikkat, dil modellerinde çok önemli bir unsur haline geldi. Google bilim adamları tarafından iki yıl sonra Transformer adlı bir dil modeli programı oluşturmak için kullanıldı. Transformer, dil değiştirme testlerinde inanılmaz puanlar aldı. Fiili dil modeli haline geldi ve Google tarafından çok başarılı bir başka dil modeli olan BERT olarak bilinen modeli oluşturmak için kullanıldı. Transformer ayrıca GPT-1’in temeli oldu.

Resim5

Google’ın Transformer’ı, 2017’de dil modellerinde büyük bir atılım oldu. Kelimeleri vektörlere sıkıştırdı ve programın istatistiksel olasılık hesaplamalarını optimize edecek bir dizi sinir ağı “katmanı” aracılığıyla onları sıkıştırılmış hale getirdi. Her katman, çoğunlukla bir kelimeyi temsil eden bir vektörün sayısal bir ağırlığı temsil eden bir matris ile çarpımı olan matematiksel işlemlerin bir koleksiyonudur. Ağın gücünü kazandığı bu kadar basit işlemlerin birbirini izleyen katmanlarının bir araya getirilmesidir. İşte Transformer’in farklı katmanlarını tanımlayan temel anatomisi, OpenAI’nin ilk versiyonu olan GPT-1’in temeli haline geldi ve bugün temel yaklaşım olmaya devam ediyor.

Sabit boyutlu bir vektörü katı bir şekilde değiştirme ihtiyacından kurtulan Transformer ve onun soyundan gelenler, belirli bir metnin farklı bölümlerinin her yerinde dolaşabilir ve çok daha büyük bağlamı kapsayacak koşullu bağımlılıkları bulabilir.

Bu özgürlük, 2015’te gelen ve denetimsiz öğrenme olarak bilinen OpenAI’nin çalışması için daha da merkezi olan başka bir yeniliğe zemin hazırladı.

Çoğu dil modeli için o zamana kadar odaklanma, etiketli veriler olarak bilinen bilgilerle öğrenmeyi denetlemişti. Bir girdi verildiğinde, bir sinir ağına da cevabın nesnel versiyonu olarak örnek bir çıktı verilir. Dolayısıyla, görev çeviri ise, İngilizce bir cümle girdi olabilir ve istenen hedef olarak insan yapımı bir Fransızca çeviri sağlanır ve cümle çifti etiketli bir örnek oluşturur.

Sinir ağının bir Fransızca çeviri üretme girişimi, resmi Fransızca cümle ile karşılaştırılacak ve ikisi arasındaki fark, sinir ağının tahminlerini yaparken ne kadar hatalı olduğu, kayıp işlevi veya amaç işlevi olarak bilinir.

Eğitim aşaması, sinir ağının önerilen çıktısı ile hedef çıktı arasındaki bu hata açığını kapatmak içindir. Boşluk olabildiğince küçük olduğunda, amaç işlevi optimize edilmiştir ve dil modelinin sinir ağı eğitilmiş kabul edilir.

Ancak istenen çıktının dikkatlice etiketlenmesi bir sorun olabilir, çünkü örnek cümle çiftlerinin insan yargısıyla bir araya getirilmesi gibi zaman alıcı ve kaynak yoğun bir şekilde çok sayıda veri kürasyonu gerektirir. Google’dan Andrew Dai ve Quoc Le, dil modeli ilk olarak denetimsiz bir şekilde eğitilmişse ihtiyaç duyulan etiketli verileri azaltmanın mümkün olduğunu varsaydı.

Ağa bir cümle çifti verilmesi yerine yalnızca tek bir cümle verildi ve her birini bir vektöre sıkıştırmak ve her birini orijinal cümleye döndürmek zorunda kaldı. Aynalama, optimize edilecek kayıp işlevi haline geldi. Etiketsiz örneklerin bu şekilde ne kadar çok sıkıştırılıp sıkıştırılmadığı, çeviri gibi görevlerde o kadar çok etiketlenmiş veriyi değiştirebileceklerini buldular.

2018’de, OpenAI ekibi bu iki unsuru birleştirdi, Bengio ve meslektaşlarının geliştirdiği, birçok kelime vektörü boyunca dolaşacak olan dikkat mekanizması ve büyük miktarda metni silip süpüren Dai ve Le’nin denetimsiz ön eğitim yaklaşımı, onu sıkıştırıp orijinal metni yeniden oluşturmak için sıkıştırmayı açın.

Standart bir Transformer aldılar ve ona, Toronto Üniversitesi ve MIT tarafından derlenen ve toplamda yaklaşık bir milyon kelimeden oluşan, toplamda 5 GB olmak üzere 7.000’den fazla basılı kitap metninden oluşan bir veritabanı olan BookCorpus’un içeriğini beslediler. GPT-1, bu kitapları sıkıştırmak ve açmak için eğitildi.

Böylece, daha büyük ve daha büyük veri kümelerinin üç yıllık bir geçmişi başladı. OpenAI araştırmacıları, daha fazla verinin modeli daha doğru hale getirdiğini varsayarak, programın alabileceklerinin sınırlarını zorladı. GPT-2 ile BookCorpus’u Reddit’ten giden bağlantılardan alınan sekiz milyon web sayfasından oluşan ve toplamda 40 GB’lık veriden oluşan, kendi içinde büyüyen bir veri kümesi lehine bir kenara attılar.

GPT-3’ün eğitimi, 2016’dan 2019’a kadar Web sayfalarının popüler CommonCrawl veri setinden oluşan eğitimi daha da büyüktür. OpenAI, kopyaları kaldırmak ve başka şekilde kaliteyi artırmak için küratörlüğünü yapmış olsa da, nominal olarak 45 TB değerinde sıkıştırılmış metin verisidir. Son sürüm 570GB veridir. OpenAI, kitap verileri de dahil olmak üzere çeşitli türlerde birkaç ek veri kümesiyle tamamladı.

GPT-3 BİLGİSAYAR GÜCÜNE NASIL BAĞLI?

GPT-1, 2 ve 3’ün gelişiyle, bilgi işlem ölçeği ilerleme için temel bir bileşen haline geldi. Modeller, daha iyi sonuçlar elde etmek için eğitildiklerinde giderek daha fazla bilgisayar gücü kullanır.

Eğitim sırasında bir sinir ağını optimize eden şey, ağırlıklarının ayarlanmasıdır. Parametreler olarak da adlandırılan ağırlıklar, her vektörün çarpıldığı matrisler, satır ve sütun dizileridir. Çarpma yoluyla, birçok kelime vektörüne veya kelime parçasına, son çıktıda daha fazla veya daha az ağırlık verilir, çünkü sinir ağı hata boşluğunu kapatmak için ayarlanır.

OpenAI, gittikçe artan veri kümelerinde başarılı olabilmek için daha fazla ağırlık eklemeleri gerektiğini keşfetti.

Google’ın orijinal Transformer’ı 110 milyon ağırlığa sahipti. GPT-1 bu tasarımı takip etti. GPT-2 ile bu sayı 1,5 milyar ağırlığa çıkarıldı. GPT-3 ile parametre sayısı 175 milyara yükseldi ve GPT-3’ü dünyanın gördüğü en büyük sinir ağı haline getirdi.

Çarpma basit bir şeydir, ancak 175 milyar ağırlığın milyarlarca baytlık verinin her bitiyle çarpılması gerektiğinde, paralel bilgisayar işlemede inanılmaz bir alıştırma haline gelir.

Resim6

Grafiğin en sağ tarafındaki GPT-3, Google’ın BERT gibi önceki dil modellerinden çok daha fazla işlem gücü gerektirir.

Zaten GPT-1 ile 2018’de OpenAI, pratik bilgi işlemin sınırlarını zorluyordu. Verileri büyütmek, GPU’ları büyütmek anlamına geliyordu. Önceki dil modelleri tek bir GPU’ya sığmıştı çünkü modellerin kendileri küçüktü. GPT-1’in paralel olarak çalışan sekiz GPU üzerinde eğitim alması bir ay sürdü.

GPT-3 ile OpenAI biraz çekingen davrandı. Microsoft Azure’da çalışan bir Nvidia V100 yongası kümesinde olduğunu söylemek dışında, eğitim için kullanılan tam bilgisayar yapılandırmasını açıklamadı. Şirket, 3.640 gün boyunca günde saniyede bin trilyon kayan noktalı işlem çalıştırmaya eşdeğer olduğunu belirterek, gereken toplam hesaplama döngülerini açıkladı.

Bilgisayar üreticisi ve bulut operatörü Lambda Computing, standart bir bulut GPU bulut sunucusu fiyatıyla 4,6 milyon dolara mal olacak bu kadar bilgi işlem için tek bir GPU’nun 355 yıl süreceğini tahmin etti. Tüm ağırlık değerlerini tutmak, parametrelerin sayısı arttıkça daha fazla bellek gerektirir. GPT-3’ün 175 milyar parametresi, tek bir GPU’daki bellekten 10 kat daha fazla olan 700 GB gerektirir.

Bu türden muazzam bir güç gereksinimi, bilgisayar çipleri alanını harekete geçiriyor. Yapay zeka eğitimi için baskın GPU tedarikçisi olan Nvidia’nın hisse fiyatını son on yılda neredeyse% 5.000 artırdı. Cerebras Systems, Graphcore ve Tachyum da dahil olmak üzere yüz milyonlarca dolarlık risk sermayesi finansmanıyla desteklenen bir dizi yeni başlayan şirketin ortaya çıkmasına neden oldu. Daha büyük ve daha çok modeller inşa etmek alanın yörüngesi olarak kaldığı sürece rekabet gelişmeye devam edecek.

OpenAI, ihtiyaç duyulan artan bilgisayar gücü konusunda kendi araştırmasını yaptı. Firma, 2018’de, en büyük AI eğitim modellerinin tükettiği bilgi işlem döngülerinin 2012’den bu yana her 3,4 ayda bir ikiye katlandığını ve ünlü Moore’un çip transistör büyümesi yasasına göre daha hızlı bir genişleme oranı olduğunu kaydetti. (Unutmayın, şirket ayrıca birim bazında, giderek büyüyen modellerin, aynı işi yapan önceki sinir ağlarından daha verimli olduğunu gösteren araştırmalar da yaptı.)

Çok gizli yapay zeka projeleri hakkında bilgi verilen şirketlere göre, bir trilyondan fazla parametre kullanan modeller şimdiden geliştiriliyor. Google gibi hiper ölçekli şirketler geniş veri merkezlerini her zamankinden daha büyük modellere ayırmaya istekli olduğu sürece muhtemelen sınır bu değil. Yapay zeka uzmanlarının çoğu, daha büyük ve daha büyüklerinin, makine öğrenimi modellerinin bir süre sonra norm olacağı konusunda hemfikir.

Resim7

Yapay zeka çipi başlangıcı Nisan ayında Tenstorrent, önümüzdeki dil modellerinin trilyon parametrenin ötesine nasıl ölçekleneceğini açıkladı.

Yapay zeka yönetim araçları satıcısı Algorithmia CTO’su Kenny Daniel, “Bir alan olarak yapay zeka üzerindeki etkisi açısından, GPT-3’ün en heyecan verici yanı, yapay zekayı ölçeklendirmenin sınırlarına yaklaşmadığımızı göstermesidir.” ZDNet’e söyledi.

Bilgi işlem kullanımını artırmanın yanı sıra, GPT-3’ün diğer büyük etkisi, genel olarak programlama ve uygulama geliştirmeyi nasıl hızlandırdığı olacaktır. Shameem’in basitçe bir cümle yazarak oluşturulmuş bir JSX programını göstermesi, buzdağının sadece görünen kısmı.

GPT-3’ÜN KISITLARI NELERDİR?

Yazarların kendilerinin de belirttiği gibi, önceki sürümdeki büyük gelişmeye rağmen, GPT-3’ün birçok sınırlaması var. “Bir bütün olarak kalite yüksek olmasına rağmen, GPT-3 örnekleri hala bazen kendilerini semantik olarak belge düzeyinde tekrar ediyorlar, yeterince uzun pasajlarda tutarlılıklarını yitirmeye başlıyorlar,” şeklinde yayınlanmış makaleye dikkat çekiyorlar.

Program ayrıca bir dizi bireysel testte iyi performans gösteremiyor. “Özellikle GPT-3, ‘Buzdolabına peynir koyarsam erir mi?’ yazarları, GPT-3’ten kaçan sağduyulu şeylerin türünü açıklayarak yazın.

GPT-3’ün ortaya çıkmasından kısa bir süre sonra o kadar çok heyecan vardı ki, şirketin CEO’su Sam Altman halka açık bir şekilde insanlara coşkularını azaltmalarını söyledi.

Altman 19 Temmuz’da “GPT-3 yutturmaca çok fazla” diye tweet attı. “Etkileyici (güzel iltifatlar için teşekkürler!) Ama yine de ciddi zayıf yönleri var ve bazen çok saçma hatalar yapıyor” diye yazdı. “Yapay zeka dünyayı değiştirecek, ancak GPT-3 çok erken bir bakış. Çözmemiz gereken çok şey var.”

The GPT-3 hype is way too much. It’s impressive (thanks for the nice compliments!) but it still has serious weaknesses and sometimes makes very silly mistakes. AI is going to change the world, but GPT-3 is just a very early glimpse. We have a lot still to figure out.

— Sam Altman (@sama) July 19, 2020

OpenAI dışındaki diğerleri kendi gerçeklik kontrollerini sundular. Birden fazla nesil GPT’nin deneyimli bir kullanıcısı olan Max Woolf, kişisel blogunda GPT-3’ün öncekinden daha iyi olduğunu ancak ortalama olarak yazdı. Oluşturulan metnin bir kalite yelpazesi vardır, bu yüzden karşılaşacağınız bazı örnekler dikkat çekici, diğerleri ise hiç de iyi görünmez. Woolf, GPT-3’ü birçok durumda rahatsız edici bir çöp üretme alışkanlığı olan Apple’ın Siri’sine benzetiyor. (Woolf’un makalesi, GPT-3’ün düşünceli bir incelemesi için bütünüyle okumaya değer.)

Gerçekten de, GPT-3 örneğini, özellikle uzun metin bölümlerini okudukça, başlangıçtaki bazı coşkuların azalması kaçınılmazdır. GPT-3, dedikleri gibi, uzun süreler boyunca arsayı kaybetme eğilimindedir. Tür veya görev ne olursa olsun, metinsel çıktısı, anlatıdaki iç tutarsızlıklarla birlikte, sürekli ve sıkıcı olmaya başlar.

Bazı programcılar, heveslerine rağmen, GPT-3’ün baba şakalarına yönelik başarısız girişimleri gibi pek çok eksikliği katalogladılar. Baba şaka düzeni girdi olarak verildiğinde, “Bir tabak diğerine ne dedi?”, Uygun baba şakası, “Akşam yemeği benden!” Ancak GPT-3, bunun yerine komik olmayan “Beni batırın!”

Human-supplied input : Q. What did one plate say to the other plate?GPT-3-generated completion : A. Dip me!

GPT-3, bir zürafanın kaç gözü olduğu gibi sözde sağduyulu soruları cevaplayabilirken, saçma bir soruyu saptıramaz ve saçma bir cevap vermeye yönlendirilir. “Ayağımın kaç gözü var?” Sorusu görev bilinciyle “Ayağımın iki gözü var” diye cevap verecektir.

Tüm bu sıradanlık hakkında düşünmenin bir yolu, GPT-3’ten iyi çıktı almanın bir dereceye kadar etkili istemler oluşturmaya yatırım gerektirmesidir. İnsan tarafından tasarlanmış bazı istemler, programı diğer bazı istemlerden daha iyi sonuçlara götürür. Bu, “çöp içeri, çöp dışarı” atasözünün yeni bir versiyonu. Bilgi istemleri, kendi başlarına yeni bir programlama alanı haline gelebilecek gibi görünürler ve hem bilgili hem de ustalık gerektirir.

Önyargı, yalnızca GPT-3’te değil, koşullu dağıtıma dayanan tüm programlarda önemli bir husustur. Programın temelinde yatan yaklaşım, bir ayna gibi içine tam olarak ne konulduğunu geri vermektir. Bu, verilerdeki önyargıları çoğaltma potansiyeline sahiptir. GPT-2’deki kapsamlı önyargı hakkında bilimsel bir tartışma zaten var.

Resim8

GPT’nin önceki sürümü olan GPT-2, Sheng ve meslektaşlarının geçtiğimiz Ekim ayında yazdığı ve dil programının “belirli demografik özelliklere yönelik önyargılı” olduğunu tespit eden bu makale gibi önyargılarına odaklanan burs oluşturdu.

 GPT-3 ile Nvidia AI bilim adamı Anima Anandkumar, ırkçı ve cinsiyetçi çıktılar da dahil olmak üzere önyargılı çıktı üretme eğiliminin devam ettiği alarmını verdi.

I am disturbed to see this released with no accountability on bias. Trained this on @reddit corpus with enormous #racism and #sexism. I have worked with these models and text they produced is shockingly biased. @alexisohanian @OpenAI https://t.co/R8TU1AeYZd

— Prof. Anima Anandkumar (@AnimaAnandkumar) June 11, 2020

Anandkumar’ın eleştirisi sorulduğunda OpenAI, ZDNet’e “Giderek güçlenen tüm üretken modellerde olduğu gibi, adalet ve kötüye kullanım bizim endişelerimizdir” dedi.

OpenAI, ZDNet’e “Bu teknolojiyi API aracılığıyla paylaşmamızın ve başlamak için özel beta sürümünde başlatmamızın bir nedeni budur” dedi. Şirket, “taciz, kasıtlı aldatma, radikalleşme, sörf sörfü veya spam dahil, ancak bunlarla sınırlı olmamak üzere, insanlara fiziksel veya zihinsel zarar verdiğine karar verdiğimiz kullanım durumlarını desteklemeyeceğini” belirtmektedir.

OpenAI, ZDNet’e programdaki tehlikeleri tespit etmek için tanıdık bir tür beyaz şapka, siyah şapka savaş oyunu kullandığını söyledi:

Modelin nasıl ve neden kötü çıktılar verdiği hakkında daha fazla bilgi edinebilmek için içerik filtreleme sistemini sürekli olarak kırmakla görevlendirilen ‘kırmızı ekip’ dediğimiz şeyi devreye aldık. Muadili, önyargıyı ölçmek ve azaltmakla görevli “mavi takım” dır.

 Diğer bir büyük sorun da, GPT-3’ün çok geniş, en düşük ortak payda niteliği, koşullu olasılık eğrisinin yalnızca en yağlı kısmını güçlendirmesidir. Olasılık dağılımının uzun kuyruğu ve bazen de şişman kuyruğu olarak bilinen şey vardır. Bunlar, dil kullanımının en yenilikçi örneklerini oluşturabilecek daha az yaygın örneklerdir. Bir toplumdaki en yaygın metni yansıtmaya odaklanmak, yaratıcılığı ve keşfi dışarı atma riski taşır.

Şu an için, OpenAI’nin bu soruna cevabı, GPT-3’te sıcaklık değeri olarak adlandırılan, ayarlanabilen bir ayardır. Bu düğmeyle uğraşmak, GPT-3’ü daha az olası kelime kombinasyonlarını seçecek ve böylece belki de daha sıra dışı olan metinler üretecek şekilde ayarlayacaktır.

Bir işletme için daha acil bir endişe, GPT-3’ün şirkete özgü verilerle ayarlanamamasıdır. Hiçbir şeyi ayarlayamadan, GPT-3’ü endüstriyel bir alan adı için uzmanlaştırmak zor. API hizmetini kullanan herhangi bir şirket, bir etki alanına uygulanabilir hale getirmek için üzerinde daha fazla çalışılması gereken bir metinle sonuçlanabilir. Belki Sapling gibi girişimler, bu sorunu çözecek olan VAR’lara eşdeğer bir ekosistem oluşturacaklar. Belki, ama görülecek olmaya devam ediyor.

Bu yeterince ilgili değilse, bir bulut hizmeti olarak GPT-3’ün kara kutu olduğu başka bir sorun var. Bunun anlamı, hizmeti kullanacak şirketlerin çıktılarına nasıl ulaştıklarına dair hiçbir fikrinin olmamasıdır – önyargı konuları düşünüldüğünde özellikle riskli bir olasılık. GPT-3’ü geliştiren Sapling gibi taraflardan oluşan bir ekosistem, hizmeti geliştirirken aynı zamanda daha fazla gizleme katmanı ekleyebilir.

Kara kutu sorununun bir alt bölümü olan GPT-3, bazı durumlarda ağdan ne emdiğini ezberleyebilir. Bu, telif hakkı sorunlarını ortaya çıkarır. Bir şirket, telif hakkıyla korunan materyal olan API hizmetinden çıktı alırsa, bu şirket başka bir kuruluşun telif hakkını ihlal ediyor olabilir. Telif hakkı ile ilgili sorulan OpenAI, ZDNet’e GPT-3 tarafından oluşturulan metnin telif hakkının “OpenAI’ye değil kullanıcıya ait olduğunu” söyledi. Bunun pratikte ne anlama geldiğini göreceğiz.

Şu anda, en büyük pratik eksiklik, GPT-3’ü eğitmek ve çalıştırmak için gereken ölçek. OpenAI resmi gazetede olduğu kadar kabul ediyor. Yazarlar, büyük modellerin maliyetinin, üretilen çıktının değerine bağlı olarak zaman içinde nasıl amorti edildiğini hesaplamak için iş yapılması gerektiğini yazıyorlar.

GPT-3 GERÇEKTEN ÖĞRENİYOR MU?

Kelimenin dar anlamını kullanan GPT-3, parametre ağırlıklarının eğitim verilerinin alınmasıyla otomatik olarak ayarlandığını ve böylece dil modelinin tek başına açık programlamanın karşılayabileceğinden daha iyi sonuçlandığını öğreniyor. Bu anlamda, GPT-3, bir insan bu işlevi açıkça kodlamadan verileri dönüştürmek için bir işlevi öğrenebilen bir bilgisayar arayışında onlarca yıllık bir ilerlemedir.

Bununla birlikte, makinenin gerçekten zeki olup olmadığı veya gerçekten öğrenip öğrenmediği sorulacak. Bu meseleyi tartışmanın pek çok yolu var, ancak gündelik düşünme, insan düşüncesi olarak adlandırabileceğimiz birçok şeyin burada olmadığını gösteriyor.

Beyninizde kaç kelimenin birbiriyle bağlantılı olarak görünme olasılığının yüksek olduğuna dair sayısal bir puan tutup tutamayacağınızı düşünün. Cümleler, cümleler, paragraflar ve tüm metin pasajlarını oluşturma yeteneğinizin düşünceli olduğunu söyleyebilir misiniz? Muhtemelen bunun sadece istatistiksel olduğunu ve başka bir şeyin eksik olduğunu söylersiniz.

Derin öğrenme ile ustasının toynaklarıyla aritmetik yapabilen bir hayvan olarak onu halka açık bir şekilde sergilediği bir Alman atı olan ünlü Zeki Hans arasında karşılaştırmalar yapıldı. Daha sonra Hans’ın, efendisinden gelen bedensel ipuçlarına toynağını damgalamak için yanıt verdiği ve ipuçları olmadan gerçekleştiremeyeceği keşfedildi.

Benzer şekilde, GPT-3’ün insan kalitesi daha yakından incelendiğinde bozulur. GPT-3, New York gayrimenkulüyle ilgili bir makale hakkındaki doğru-yanlış bir soruyu doğru yanıtladığında, bunun nedeni programın gayrimenkul veya New York hakkında bilgi sahibi olması değildir. Metinlerdeki iddiaları yakalayan olasılık dağılımını ve bir ifade-soru çifti biçimini depoladı ve bunları çıktıda yansıtabilir.

Hans aritmetik hakkında hiçbir şey bilmiyordu, ancak Hans’ın savunmasında yine de zekası vardı. Sinir ağları söz konusu olduğunda, eleştirmenler herhangi bir at duygusu olmadan sadece hilelerin orada olduğunu söyleyecektir.

Yine de zeka ve öğrenme birçok anlama gelebilir ve saha tarihçisi Pamela McCorduck’un belirttiği gibi, hedef direkleri yapay zeka olması gereken şey için yıllar içinde hareket etti. Bazıları, geniş metin gruplarındaki olasılıkları hesaplayabilen bir programın farklı bir zeka türü olabileceğini, belki de bizimkinden farklı bir yabancı zeka olabileceğini iddia edebilir. Reddetmek erken görünüyor.

Dahası, bu koşullu olasılıkları ortaya çıkaran sinir ağları, salt istatistik programlarından daha fazlasıdır. Hesaplamaları, paralel olarak gerçekleşen çoklu eşzamanlı matematiksel işlemlerin ortaya çıkan özelliği, parametre ağırlıklarının ayarlanmasıdır. Diğer zeka biçimlerini de düşünmek mümkünse, sinir ağlarının içinde şekillenen dağıtılmış temsiller gibi ortaya çıkan bir özellik, onu aramak için bir yer olabilir.

GPT-3’ÜN GELECEĞİ NEDİR?

Kesin olan bir şey var: GPT-3, makine öğreniminde yeni bir sayfa açtı. En çarpıcı özelliği genelliğidir. Sadece birkaç yıl önce, çeviri veya soru yanıtlama gibi belirli bir göreve ayarlanmış işlevlerle sinir ağları kuruldu. Veri kümeleri, bu görevi yansıtacak şekilde seçildi. Bunun yerine, GPT-3’ün göreve özgü işlevi yoktur ve özel veri kümesine ihtiyaç duymaz. Her yerden olabildiğince çok metni yutar ve çıktısına yansıtır.

Her nasılsa, tüm bu gigabaytlık metinler boyunca koşullu olasılık dağılımının hesaplanmasında, herhangi bir sayıda görevde rekabetçi yanıtlar üretebilen bir işlev ortaya çıkar. Muhtemelen önünde uzun yıllar süren bir başarıya sahip olan nefes kesici bir sadelik zaferidir.

Ancak bu genellik bile sınırına ulaşabilir. Zaten, GPT-3’ün yazarları makalelerinin sonunda eğitim öncesi yönün sonunda gazın bitebileceğini not ediyorlar. “Bu makalede […] açıklanan genel yaklaşımın daha temel bir sınırlaması, eninde sonunda ön eğitim hedefinin sınırlarıyla karşılaşabileceğidir (veya zaten içine giriyor olabilir).”

Yazarlar umut verici yeni yönlerin “insanlardan nesnel işlevi öğrenmeyi” ve DeepMind’ın AlphaZero’sunda satrançta kazanmak ve gitmek için kullanılan “pekiştirmeli öğrenme” yaklaşımı gibi diğer derin öğrenme türlerini karıştırmayı içerebileceğini öne sürüyorlar.

Önerdikleri başka bir şey de, programın “dünya modelini” doldurmak için resimler gibi başka veri türlerini eklemektir.

Nitekim, önümüzdeki yıllarda bu çok genel yaklaşımın, resimler ve videolar gibi metnin ötesinde başka yöntemlere de yayıldığını görebileceksiniz. İkisi arasındaki ilişkiyi modellemek için herhangi bir özel algoritma olmadan görüntüleri kelimelere ve tersini çevirebilen GPT-3 gibi bir program hayal edin. Örneğin, fotoğraflardan metinsel sahne açıklamalarını “öğrenebilir” veya metin açıklamalarından olayların fiziksel sıralarını tahmin edebilir.

Facebook AI direktörü Yann LeCun, çeşitli biçimlerde denetimsiz eğitimin derin öğrenmenin geleceği olduğunu ortaya koydu. Bu doğruysa, sesten metne, görüntülere ve videoya kadar çeşitli veri biçimlerine uygulanan eğitim öncesi yaklaşım, denetimsiz dalganın çok umut verici bir gelecek yönü olarak görülebilir.

Yazar Hakkında