Düzenli İfadelerin Derlenmesi

Yazar: Unknown Tarih: 10 Ağustos 2013 Cumartesi Yorum: (0)
compile() metodu
Bu konumuzda ifadelerimizi düzenledikten sonra işleme koyacağız.Peki bu derlemenin ne farkı var? diye sorarsak;
bilmemiz gereken en önemli özelliği programlarımızın daha hızlı çalışmalarını sağlamak.Tabiki bunu görebilmek için
büyük çapta projelerde çalışıyor olmamız lazım ki şu an için sadece nasıl kullanıldığını öğreneceğiz.

Önceki derslerdeki örnekleri biraz değiştirerek başlayalım:

>>> import re
>>> version=["python2.7","django1.0","php5.0","Android4.0"]
>>> Compiler=re.compile("[a-z]+[0-9]\.[0-9]")
>>> for i in version:
derli=Compiler.search(i)
if derli:
print derli.group()

kodumuz bu şekilde.Şimdi bunu açıklayalım.
İlk iki satır bilindik şeyler asıl iş üçüncü satırdaki "Compiler" değişkeni ile başlıyor.
Bir önceki konumuzda "Compiler" değişkeninde yaptığımız işlemi for döngüsü içinde yapıyorduk ve program her döngüye
başladığında "Compiler" değişkeni tekrar tekrar oluşturuyordu.Fakat burada yaptığımız ise tek bir sefer "Compiler"
değişkenini tanımladıktan sonra for döngüsü içinde kullanmmız gereken sadece search() metodu, bu metodda
aradıklarımızı bulmamızı sağlar.

Kodumuzu çalıştırdığımızda

python2.7
django1.0
php5.0
ndroid4.0

çıktılarını alırız.


compile() ile derleme seçenekleri

re.IGNORECASE veya re.I
Bu alt metodumuz büyük-küçük harf ayrımı yapmamızı sağlıyor.

>>> php=" Hypertext Preprocessor (Türkçe: Üstünyazı Önişlemcisi [1]) (Aslen: Personal Home Page - Kişisel Ana Sayfa) , genelağ için yaratılmış, sunucu taraflı, çok geniş kullanımlı, genel amaçlı, HTML içerisine gömülebilen betik ve programlama dilidir[1]. PHP, ilk kez Rasmus Lerdorf tarafından, web üzerinden sayfasına ziyaret edenleri izlemek amacıyla bir dizi Perl betiği kullanılarak geliştirilmişti. İnsanlar kısa zamanda bununla ilgilenmeye ve bu konuyla ilgili sorular sormaya başladıklarında, Rasmus kararını verdi ve bir betik motoru oluşturdu. Ayrıca formlara da destek verdi ve böylece PHP/F1'i biçimlendirmiş oldu. Adını duyurdukça bir grup yazılım geliştirmecinin dikkatini çekti ve böylece bir API oluşturuldu ve PHP3 ortaya çıktı. Daha sonraları yeniden ele alınması gerekti ve Zend motoru PHP4'ü yaratmış oldu. Artık PHP önünde pek engel bulunmuyordu, böylece PHP daha ünlenmeye başladı. Günümüzde PHP, bloglardan forumlara, portal sistemlerinden veri tabanlarına, yapay sinir ağlarından matematiksel sistemlere, sınıflardan fonksiyonlara her türlü işlevde kullanılır."
>>> derle=re.compile("PHP",re.IGNORECASE)
>>> print derle.findall(php)

şeklindeki kodumuzun çıktısı

['PHP', 'PHP', 'PHP', 'PHP', 'PHP', 'PHP', 'PHP']

olur.Örneği şu şekilde ve daha faklı şekillerde de kullanabiliriz.

>>> derle=re.compile("PHP+[0-9]",re.IGNORECASE)
>>> print derle.findall(php)

bu kodumuzun şıktısı ise

['PHP3', 'PHP4']

olacaktır.Bundan daha fazlası sizin ihtaycınıza kalmış.
php adlı yazı http://tr.wikipedia.org/wiki/PHP adresinden alınmıştır.

re.DOTALL veya re.S
Bu alt metodumuz ise "." sembolünü string olarak kabul ederek istediğimiz ifadeyi diğer satırlardada aramamızı sağlar

>>> example="deneme python.\n deneme python"
>>> print re.search("python.*",example).group()

şeklindeki kodumuz "." sembolünün gerçek rolünün kullanıldığı bir örnek ve sonucu da şu şekilde:

python.

Gördüğümüz gibi "\n" ifadesine kadar arama yaptı bir alt satıra geçip oradaki "python" ifadesini aramadı.
Şimdi bizim öğreneceğimiz kodu buna uyarlıyalım.

>>> example="deneme python.\n deneme python"
>>> derle=re.compile("python.*",re.DOTALL)
>>> nesne=derle.search(example)
>>> if nesne:
print nesne.group()

kodumuz bu şekilde ve sonucumuz ise

python.
 deneme python

re.UNICODE veya re.U
Tükrçe programlar yazabilmemiz için diğer seçeneklerden biri

>>> list=["şeker","şey","ğ","çatal","python"]
>>> for i in list:
nesne=re.search("\w*",i)
if nesne:
print nesne.group()

kodlarımız bize içinde Türkçe karakter bulunduğu için bize "php" ifadesinden başka bir sonuç döndürmeyecek.
Fakat kodumuzu şu şekilde düzeltirsek

>>> list=["şeker","şey","ğ","çatal"]
>>> derle=re.compile("\w*",re.UNICODE)
>>> for i in list:
nesne=derle.search(i)
if nesne:
print nesne.group()

bize Türkçe karakterdede arama olanağı sağlayacaktır.
Sonucumuz

şeker
şey
ğ
çatal
python



Özel Diziler

Yazar: Unknown Tarih: 17 Temmuz 2013 Çarşamba Yorum: (0)

Boşluk Karakterinin Yerini Turan Dizi: \s

Bu ifade karakter dizimizdeki boşluk karakterini bulmamızı sağlar.

import re
language=["python programlama","django web programlama","php web programlama","Android"]
for i  in language:
sonuc=re.search("[A-Za-z]+\s[A-Za-z]+",i)
if sonuc:
print sonuc.group()

kodlarını çalıştırdığımızda bizi vereceği karakter dizileri aşağıdaki gibidir;

python programlama
django web
php web

Gördüğünüz gibi bize burada boşluk ifadesinin kullanıldığı karakter dizileri geri döndürüldü.

Ondalık Sayıların Yerini Tutan Dizi: \d

Bu ifade karakter dizimizdeki ondalık sayı karakterini bulmamızı sağlar.
Örneği önceki derslerimizde şöyle bir ifade kullanıyorduk

karakter_dizisi=re.search("[0-9][A-Za-z]")

şeklinde ifade kullanmıştık.Buradaki amaç sayı ile başlayan ve harf karakterleriyle devam eden karakter dizilerini bulmaktı. İşte kodumuz tam burada öne çıkıyor.

version=["php5","python 2","python3","CSS 3","HTML5"]
for i in version:
sonuc = re.search("[A-Za-z]+\d+",i)
if sonuc:
print sonuc.group()

yukarıdaki kodumuz bize sonu sayı ile biten karakter dizilerini verecektir.

php5
python3
HTML5

Gördüğünüz gibi sonu sayısal ifade olan karakter dizilerimizi kolaylıkla bulduk.
Ama diyelim ki biz "CSS 3" bulmak istiyoruz.Küçük bir değişiklik ile onuda kolaylıkla bulabilir.

for i in version:
sonuc = re.search("[A-Za-z]+\s\d+",i)
if sonuc:
print sonuc.group()

kodunu çalıştırdığımızda bize çıktı olarak

python 2
CSS 3

2 çıktı verecektir.Burada dikkat edilmesi gereken kod => sonuc = re.search("[A-Za-z]+\s\d+",i)
Çünkü bu kodun içindeki boşluk(\s) dizisini sayısal ifade(\d) dizisinden sonra yazarsak, önce sayısal ifade arayacak sonra boşluk ifadesini arayacak.Fakat bizin karakter dizilerimiz içinde böyle bir karakter dizisi bulunmadığı için sonuç boş dönecektir.Bunu denemek için

for i in version:
sonuc = re.search("[A-Za-z]+\d\s+",i)
if sonuc:
print sonuc.group()

kodunu çalıştırarak sonucu görebilirsiniz.

Alfanümerik Karakterlerin Yerini Tutan Özel Dizi: \w

Bu ifade karakter dizimizdeki alfanümerik karakterleri ve "_" karakterini bulmamızı sağlar.

alfanumerik = "yukonit12_$"
print re.search("\w*",alfanumerik).group()

Yukarıdaki kodumuzu çalıştırdığımızda bize alfanumerik olmayan bir karaktere kadar olan alfanumerik karakter dizisini verdi.
Cümle biraz karışık gibi oldu ama bir sonraki örnekte daha iyi anlaşılacağını umuyorum.Bu kodumuzun çıktısı;

yukonit12_


Diğer bir örnek olarak şu kodlarımızı yazalım.

alfanumerik="yukonit12_python_$_php_%_asp"
print re.search("\w*",alfanumerik).group()

Kodlarımız bunlar şimdi bu kodlarımızı çalıştıralım ve sonucu görelim.

yukonit12_python_

Gördüğünüz gibi yukarıda bahsettitğim " bize alfanumerik olmayan bir karaktere kadar olan alfanumerik karakter dizisi " olayı
umarım burada daha iyi anlaşılmıştır.

Dersimizin sonuna gelmeden önce şu soruyu sorabiliriz: Peki bu harfleri büyük yazarsak ne olur?

"\s" ifadesi boşluk karakterinin yerini bulmamızı sağlarken, "\S" ifadesi boşluk karakteri olmayan karakter dizilerini bulmamızı sağlar.
"\d" ifadesi ondalık sayı karakterinin yerini bulmamızı sağlarken, "\D" ifadesi ondalık sayı karakteri olmayan karakter dizilerini bulmamızı sağlar.
"\w" ifadesi alfanümerik ve "_ "karakterinin yerini bulmamızı sağlarken, "\W" ifadesi alfanümerik olmayan ve " _ " karakteri bulunmayan karakter dizilerini bulmamızı sağlar.

Bunlarla ilgili örnekleri size bırakıyorum.Hatta bu dersteki örnekler üzerinde denerseniz sizin içi daha faydalı olur.
Bir sonraki derste görüşmek üzere...
Videolu Ders: 8 Python Fonksiyonlar

Videolu Ders: 8 Python Fonksiyonlar

Yazar: Unknown Tarih: 12 Temmuz 2013 Cuma Yorum: (0)
Python Fonksiyonlar( global, return, pass)

Eşleşme Nesnelerinin Metodları

Yazar: Unknown Tarih: 10 Temmuz 2013 Çarşamba Yorum: (0)
Group() metodu
Bu metodu daha önce işlediğimiz düzenli ifadelerde kullanmıştık.
Bu bölümde başka bir özelliğine daha değineceğiz.Bu özellik ise
bir karakter dizisini gruplamamızı sağlaması.

improt re
gruplanacak_yazi="django python dilinin web çatısıdır."
gruplama=re.search("(django) (python) (dilinin) (web) (çatısıdır)")
print gruplama.group()

kodlarını çalıştırdığımızda biz

django python dilinin web çatısıdır.

çıktısını verecektir.Bu çıktı oluşturduğumuz grubumuzun tamamıdır.
Grubumuzun bölümlerine erişmek için ise

print gruplama.group(3)

şeklinde yazdığımızda bu kodumuzun çıktısı 3. kelimemiz yani "dilinin" olacaktır.
Burada karıştırılmaması gerek konu indis numarasının 1'den başlaması.Daha önce gördüğümüz
listeler ile karıştırılmamalıdır.Örneğimizi biraz daha geliştirelim;

gruplama=re.search("(django) (python) (dilinin) (web çatısıdır)",gruplanacak_yazi)

şeklinde düzenledikten sonra grubumuzun 4.bölümünü çağıralım

print gruplama.group(4)

Kodumuzu çağırdıktan sonra biz verdiği çıktı "web çatısıdır" oldu.Yani grublamayı biz yönetbiliyoruz.

Groups() Metodu
Bu metodumuz bizim grupladığımız düzenli ifademizi demet haline çevirerek bize sunar.Bir önceki örnekle
devam edersek sadece çıktı alıcağımız yerdeki "group" koduna "s" ekliyeceğiz.

.
.
.
print gruplama.groups()

kodumuz bize şu şekilde bir çıktı verecektir:

('django', 'python', 'dilinin', 'web \xe7at\xfds\xfdd\xfdr')

buradaki 4 ifademizdeki "web" kelimesinden sonraki bölümdeler Türkçe karakter uyumsuzluğu olduğu için
çıkmaktadır.Aslında "\xe7at\xfds\xfdd\xfdr" ifadesinin anlamı "çatısıdır".

bir sonraki dersete görüşmek üzere

Düzenli İfadeler - 5

Yazar: Unknown Tarih: 21 Ocak 2013 Pazartesi Yorum: 2


$ (Dolar)
Bir Önceki derste gördüğümüz ^(şapka) metakarakterinin ilk özelliğinin ters işlevine sahiptir.
Yani ^(şapka), karakter arama işlemini karakter topluluğunun başında yapıyordu, $(dolar)'da ise
aranacak karakter topluluğunun sonunda arama yapıyor.
Örnek verelim:

1.Örnek

>>> import re
>>> y=['deneme','söyleme','kaleme','makine','toplantı','kaşıntı','mırıntı']
>>> for i in y:
if re.search('me$',i):
print i


deneme
söyleme
kaleme

2.Örnek

>>> for i in y:
if re.search('e$',i):
print i


deneme
söyleme
kaleme
makine

3.Örnek

>>> for i in y:
if re.search('tı$',i):
print i


toplantı
kaşıntı
mırıntı


import re ile re kütüphanemizi eklemiş olduk.
1.örnekte sonu "me" ile biten kelimeleri buldurduk.
2.örnekte is sonu "e" ile biten kelimeleri buldurduk.
3.örnekte ise sonu "tı" ile biten kelimeleri buldurduk.


\ (Ters Bölme İşareti)
Bu metakarakter bildiğimiz kaçış dizisi ifadesidir.Bunu burada kullanmamızın sebebi ise özel karakterin
çıktısını alabilmek için.Örneğin az önceki konu olan $(dolar) işaretini el alalım.


>>>for i in liste:
if re.match('[0-9]+$',i):
print i

şeklinde bir kod yazarsek ekrana herhangi bir çıktı vermeyecek.Çünkü bizim sayı ile biten karakter dizisini
aradığımızı zannedecek, fakat bizim amacımız $(Dolar) fiyatlarını bulmak olduğu için yukarıdaki kodu
şöyle değiştiriyoruz:


>>> for i in liste:
if re.match('[0-9]+\$',i):
print i


10$
35$

Görüldüğü gibi istediğimiz sonuca ulaştık.

|(Dik Çizgi)
Bu metakarakterimizde birden falza düzenli ifadeyi eşleştirmemizde işimize yarıyor.Örneğin "de" ile başlayan ve "me" ile biten karakter dizilerini arayalım;


>>>y=['deneme','söyleme','kaleme','makine','toplantı','kaşıntı','mırıntı']
>>> for i in y:
if re.search('^de|me$',i):
print i


deneme
söyleme
kaleme

yada "ka" ile başlayan veya "ı" ile biten karakter dizilerini arayalım;


>>> for i in y:
if re.search('^ka|ı$',i):
print i


kaleme
toplantı
kaşıntı
mırıntı



ve son olarak bir örnek daha yaparak bu dersi sonlandıralım.

>>> import re
>>> import urllib
>>> url='http://www.pythondili.blogspot.com'
>>> f=urllib.urlopen(url)  //Bu kodu yazdıktan sonra biraz beklemeniz lazım çünkü programın siteye ulaşması biraz zaman(10sn) alıyor.
>>> for i in f:
nesne=re.search('.+',i)
if nesne:
print nesne.group()

Çıktı olarak "Python İle İp Bulma" yazımda verdiğim linki buldu: Kaynak


Bu son örneğimizde pythondili.blogspot.com içindeki yazıların içinde verilen linkleri aratmaktayız.
Bu kodun url='http://www.pythondili.blogspot.com' kısmını url='http://pythondili.blogspot.com/2013/01/duzenli-ifadeler-4.html' olarak değiştirdiğimizde sadece o yazı içerisinde link var mı yok mu kontrol eder.

Düzenli İfadeler - 4

Yazar: Unknown Tarih: 20 Ocak 2013 Pazar Yorum: (0)

{} (küme parantezi)
Bu metakarakter sayesinde, istediğimiz bir karakteri istediğimiz kadar yineletmemizi sağlıyor.


>>>import re
>>> liste=['st','sat','saat,','zaaat',]
>>>for i in liste:
if re.match("sa{2}t",i):
print i

saat


ilk örneğimizde 2 a harfi olan saat kelimesini buldurduk.



>>> for i in liste:
if re.match("za{3}t",i):
print i


zaaat

bu örneğimizdede 3 a harfi olan zaat kelimesini bulduk

Bu metakarakterimizin diğer bir özelliğide {0,2} şeklinde yazarak en az ve en çok ne kadar
tekrar etmesini belirtebiliriz

>>> for i in liste:
if re.match("sa{0,2}t",i):
print i


st
sat
saat


aynı sonucu şu kodlarlada alabiliriz;


>>> for i in liste:
if re.match("sa*t",i):
print i


st
sat
saat

sonuç aynı fakat burada herhangi bir sınır olmadığı için saaaaaat kelimesini listeye eklediğimizde
bu kelimeyide çıktı verecektir.Bir önceki dersten hatırlayalım.

^ (Şapka)
Bu metakarakterimizin 2 özelliği var.Bunlar ilki bir karakter dizisini en başındaki verileri sorgulamak:

>>> x=['VC10DD','FF33GG','WW44EE','QQ11QQ']
>>> for i in x:
ara=re.search("^[A-Z]+[0-9]",i)
if ara:
print ara.group()


VC1
FF3
WW4
QQ1



İkincisi ise " hariç " anlamında kullanımı:

>>>x.appen('4fbPY91')
>>> for i in x:
ara=re.match("[0-9A-Z][^a-z]+",i)
if ara:
print ara.group()


VC10DD
FF33GG
WW44EE
QQ11QQ

gördüğünüz gibi burada sonrada eklediğimiz "4fbPY91" elemanını çıktıda vermedi.Çünkü biz match
metoduyla aranacak kriterleri şöyle belirledik:

[0-9A-Z]=aranacak değerin en başında bir sayı veya büyük harf olmalı şartı
[^a-z]=belirlediğimiz sayı veya büyük har şartından sonra ^(şapka) metakarakterimizin ikinci özelliği
olan haric tutma özelliği ile küçük harf olmaması şartını sağlıyor.
+ =Bu karakterimizde ise yukarıdaki küçük harf olayının tekrar etmesi şartını sağlıyor yani
sayı veya büyük harften sonra ne kadar küçük harf gelirse gelsin yinede bu karakter topluluğunu almayacak.

Bu ^(şapka) metakarakterimizin dahil etmeme özelliğini şöylede kullanabiliriz:

>>> for i in x:
ara=re.search("[0-9A-Z][^a-z]+",i)
if ara:
print ara.group()


VC10DD
FF33GG
WW44EE
QQ11QQ
PY91

Görüldüğü gibi burada "4fbPY91" elemanımızın başında sayı olmasına rağmen sonraki karakterler küçük harf
olduğu için ilk üç karakteri çıkararak sonr 4 karakteri bize verdi