Evrişim işlemi, evrişimli sinir ağları (CNN'ler) alanında, özellikle görüntü tanıma alanında temel bir süreçtir. Bu işlem, derin öğrenme modellerinin görsel verileri anlamasına ve yorumlamasına olanak tanıyarak görüntülerden özelliklerin çıkarılması açısından çok önemlidir. 2 boyutlu bir görüntü üzerinde evrişim işleminin matematiksel formülasyonu, CNN'lerin görüntüleri nasıl işlediğini ve analiz ettiğini kavramak için gereklidir.
Matematiksel olarak 2 boyutlu bir görüntü için evrişim işlemi şu şekilde ifade edilebilir:
[ (I * K)(x, y) = toplam_{i=-m}^{m} toplam_{j=-n}^{n} I(x+i, y+j) cdot K(i, j ) ]Nerede:
– ( I ) giriş görüntüsünü temsil eder.
– ( K ) çekirdeği veya filtreyi belirtir.
– ( (x, y)) ) çıkış pikselinin koordinatlarıdır.
– ( m ) ve ( n ) sırasıyla çekirdeğin yarı genişliği ve yarı yüksekliğidir.
Bu denklemde, çekirdek ( K ), giriş görüntüsü ( I ) üzerinde kayar, öğe bazında çarpma gerçekleştirir ve tek bir çıkış pikseli değeri üretmek için sonuçları toplar. Bu işlem, çıktı özellik haritasındaki her piksel için tekrarlanır ve sonuçta çekirdeğin değerlerine dayalı olarak belirli özellikleri vurgulayan dönüştürülmüş bir görüntü elde edilir.
Evrişim işlemi adım adım bir örnekle daha iyi anlaşılabilir. Basit bir 3×3 çekirdeği ( K ) ve 5×5 giriş görüntüsünü ( I ) düşünün:
[ K = başlangıç{bmatrix}1 & 0 & -1 \
1 & 0 & -1 \
1 ve 0 ve -1
end{bmatrix} ] [ I = begin{bmatrix}
1 & 2 & 3 & 4 & 5 \
6 & 7 & 8 & 9 & 10 \
11 & 12 & 13 & 14 & 15 \
16 & 17 & 18 & 19 & 20 \
21 & 22 & 23 & 24 & 25
bitiş{bmatrix} ]
Evrişimi hesaplamak için çekirdeğin merkezini giriş görüntüsünün her pikseline yerleştiririz ve aşağıdaki adımları gerçekleştiririz:
1. Çekirdeği konumlandırın: Çekirdeğin merkezini görüntünün sol üst köşesine yerleştirin.
2. eleman bazında çarpma: Çekirdeğin her öğesini görüntünün karşılık gelen öğesiyle çarpın.
3. Özet: Eleman bazında çarpmanın sonuçlarını toplayın.
4. Çekirdeği taşı: Çekirdeği bir sonraki konuma kaydırın ve 2-3. adımları tekrarlayın.
İlk konum için (sol üst köşe) hesaplama şu şekildedir:
[ başlangıç{hizalanmış}(I * K)(1, 1) &= (1 cdot 1) + (2 cdot 0) + (3 cdot -1) \
&dört + (6 cdot 1) + (7 cdot 0) + (8 cdot -1) \
&dört + (11 cdot 1) + (12 cdot 0) + (13 cdot -1) \
&= 1 + 0 – 3 + 6 + 0 – 8 + 11 + 0 – 13 \
&= -6
bitiş{hizalanmış} ]
Bu sonuç -6, (1, 1) konumundaki çıktı özellik haritasının değeridir. Bu işlemin giriş görüntüsü üzerindeki çekirdeğin her konumu için tekrarlanması, tüm çıktı özellik haritasının oluşturulmasını sağlar.
Evrişim işlemine tipik olarak dolgu ve adım gibi ek kavramlar eşlik eder:
- Dolgu malzemesi: Çıkış özelliği haritasının uzamsal boyutlarını kontrol etmek için giriş görüntüsünün kenarlarına genellikle sıfırlarla (sıfır dolgu) ekstra pikseller ekleme. Dolgu, çıktı özellik haritasının giriş görüntüsüyle aynı boyutlara sahip olmasını sağlayarak mekansal bilgiyi korur.
- Adım: Çekirdeğin giriş görüntüsü boyunca hareket ettiği adım boyutu. 1 adım, çekirdeğin bir seferde bir piksel hareket ettiği anlamına gelirken, 2 adım, çekirdeğin bir seferde iki piksel hareket ettiği anlamına gelir. Adım, çıktı özellik haritasının uzamsal boyutlarını etkiler; daha büyük adımlar, daha küçük çıktı boyutlarına yol açar.
Evrişim işleminin çıktı boyutları aşağıdaki formül kullanılarak hesaplanabilir:
[ text{Çıkış Genişliği} = leftlfloor frac{text{Giriş Genişliği} – text{Çekirdek Genişliği} + 2 cdot text{Dolgu}}{text{Stride}} rightrfloor + 1 ] [ text{Çıkış Yüksekliği} = leftlfloor frac{text {Giriş Yüksekliği} – text{Çekirdek Yüksekliği} + 2 cdot text{Padding}}{text{Stride}} rightrfloor + 1 ]Bu formüller, çıktı özellik haritasının uzamsal boyutlarının, giriş görüntüsü boyutlarına, çekirdek boyutuna, dolguya ve adıma göre doğru şekilde belirlenmesini sağlar.
Evrişimli sinir ağları bağlamında, her biri kendi öğrenilebilir çekirdek kümesine sahip birden çok evrişimli katman bir araya getirilir. Bu katmanlar, giriş görüntüsünden aşamalı olarak daha yüksek düzeyde özellikler çıkararak ağın karmaşık desenleri ve nesneleri tanımasını sağlar. Her katmandaki çekirdekler, eğitim süreci sırasında geri yayılma yoluyla öğrenilir ve ağın verilen görevdeki performansı optimize edilir.
Evrişimli katmanları genellikle modele doğrusal olmama özelliğini getiren ReLU (Düzeltilmiş Doğrusal Birim) gibi aktivasyon fonksiyonları takip eder. Bu doğrusal olmama, ağın daha karmaşık temsilleri öğrenmesine olanak tanır. Ek olarak, maksimum havuzlama veya ortalama havuzlama gibi havuzlama katmanları, özellik haritalarının uzamsal boyutlarını azaltmak için kullanılır, bu da modeli hesaplama açısından daha verimli hale getirir ve fazla uydurmaya daha az eğilimli hale getirir.
Görüntü tanımaya yönelik evrişimli sinir ağının pratik bir örneği, el yazısı rakam tanıma için tasarlanmış ünlü LeNet-5 mimarisidir. LeNet-5, birden fazla evrişim ve havuzlama katmanından ve ardından tamamen bağlı katmanlardan oluşur. Evrişimli katmanlar giriş görüntülerinden özellikler çıkarırken, tamamen bağlı katmanlar son sınıflandırmayı gerçekleştirir.
LeNet-5 bağlamında evrişim işlemini göstermek için, 32x32 giriş görüntüsünü alan ve 5 adımla ve dolgusuz altı adet 5x1 çekirdek uygulayan ilk evrişim katmanını düşünün. Çıktı özelliği haritalarının boyutları 28×28 olup aşağıdaki şekilde hesaplanır:
[ text{Çıkış Genişliği} = leftlfloor frac{32 – 5 + 2 cdot 0}{1} rightrfloor + 1 = 28 ] [ text{Output Height} = leftlfloor frac{32 – 5 + 2 cdot 0}{1} rightrfloor + 1 = 28 ]Altı çekirdeğin her biri, giriş görüntüsünün farklı yönlerini yakalayan ayrı bir 28x28 özellik haritası üretir. Bu özellik haritaları daha sonra bir ReLU aktivasyon fonksiyonundan ve 2 adımlık bir 2x2 maksimum havuzlama katmanından geçirilir ve sonuçta 14x14 özellik haritaları elde edilir.
LeNet-5'teki sonraki katmanlar, evrişim ve havuzlama işlemlerini uygulamaya devam ederek, özellik haritalarının derinliğini arttırırken uzamsal boyutları kademeli olarak azaltır. Tamamen bağlı son katmanlar, çıkarılan özelliklere dayalı olarak sınıflandırmayı gerçekleştirir ve tahmin edilen rakam sınıfının çıktısını verir.
Evrişim işlemi, evrişimsel sinir ağlarının temel taşıdır ve görüntülerden anlamlı özelliklerin çıkarılmasını sağlar. Evrişim işleminin matematiksel formülasyonu, bir çekirdeği giriş görüntüsünün üzerine kaydırmayı, eleman bazında çarpmayı ve sonuçları toplamayı içerir. Dolgu ve adım gibi ek kavramlar, çıktı özellik haritasının mekansal boyutlarını kontrol etmede önemli roller oynar. Aktivasyon fonksiyonları ve havuzlama katmanlarıyla birleştirilen evrişimsel katmanlar, görsel verilerdeki karmaşık desenleri ve nesneleri tanıma yeteneğine sahip LeNet-5 gibi güçlü görüntü tanıma modellerinin yapı taşlarını oluşturur.
ile ilgili diğer yeni sorular ve cevaplar Gelişmiş bilgisayar görüşü:
- Modele doğrusal olmamayı katmak için Düzeltilmiş Doğrusal Birim gibi bir aktivasyon fonksiyonunun formülü nedir?
- Evrişim sinir ağlarında kayıp fonksiyonunun matematiksel formülü nedir?
- Maksimum havuzlamanın denklemi nedir?
- Videolarda eylem tanıma için 3 boyutlu evrişimleri kullanmanın avantajları ve zorlukları nelerdir ve Kinetics veri kümesi bu araştırma alanına nasıl katkıda bulunuyor?
- Optik akış tahmini bağlamında FlowNet, görüntü çiftlerini işlemek için kodlayıcı-kod çözücü mimarisini nasıl kullanıyor ve Uçan Sandalyeler veri kümesi bu modelin eğitiminde nasıl bir rol oynuyor?
- U-NET mimarisi anlamsal bölümleme çıktılarının kesinliğini ve ayrıntısını geliştirmek için atlama bağlantılarından nasıl yararlanır ve bu bağlantılar geri yayılım için neden önemlidir?
- Faster R-CNN gibi iki aşamalı dedektörler ile RetinaNet gibi tek aşamalı dedektörler arasında eğitim verimliliği ve türevlenemeyen bileşenlerin işlenmesi açısından temel farklar nelerdir?
- Birleşim Üzerinden Kesişme (IoU) kavramı, ikinci dereceden kayıp kullanımına kıyasla nesne algılama modellerinin değerlendirmesini nasıl geliştirir?
- ResNet mimarilerindeki artık bağlantılar çok derin sinir ağlarının eğitimini nasıl kolaylaştırıyor ve bunun görüntü tanıma modellerinin performansı üzerinde ne gibi bir etkisi oldu?
- AlexNet'in 2012 yılında tanıttığı ve evrişimli sinir ağları ve görüntü tanıma alanını önemli ölçüde geliştiren başlıca yenilikler nelerdi?
Gelişmiş bilgisayar görüşü bölümünde daha fazla soru ve yanıt görüntüleyin

