[Python] 정규표현식과 re모듈(1)

2022-12-19 1 분 소요

raw string

a = 'abcdef\n' # escape 문자열
print(a)

b = r'abcdef\n'
print(b)

abcdef

abcdef\n

기본 패턴

a, X, 9 등등 문자 하나하나의 character들은 정확히 해당 문자와 일치
- e.g) 패턴 test는 test 문자열과 일치
- 대소문자의 경우 기본적으로 구별하나, 구별하지 않도록 설정 가능
몇몇 문자들에 대해서는 예외가 존재하는데, 이들은 특별한 의미로 사용됨
- . ^ $ * + ? {} [] \ ()
. (마침표) - 어떤 한 개의 character와 일치 ( newline(엔터) 제외)
\w - 문자 character와 일치 [a-zA-Z0-9_]
\s - 공백 문자와 일치
\t, \n, \r - tab, newline, return
\d - 숫자 character와 일치 [0-9]
^ = 시작, $ = 끝 각각 문자열의 시작과 끝을 의미
\가 붙으면 spacial 한 의미가 없어짐. 예를 들어 \.는 .자체를 의미 \\는 \를 의미
자세한 내용은 링크 참조

search method

import re

re.search(r'abc', 'abcdef')
print(m.start())
print(m.end())
print(m.group())

0
3
abc

re.search(r'abc', '123abcdef')
print(m.start())
print(m.end())
print(m.group())

3
6
abc

m = re.search(r'abc', '123abdef')
print(m)

None

m = re.search(r'\d\d', '112abcdef119')
m

<_sre.SRE_Match object; span=(0, 2), match='11'>

m = re.search(r'\d\d\d\w', '112abcdef119')
m

<_sre.SRE_Match object; span=(0, 4), match='112a'>

m = re.search(r'..\w\w', '@#$%ABCDabcd')
m

<_sre.SRE_Match object; span=(2, 5), match='$%AB'>

metacharacter (메타 캐릭터)

[] 문자들의 범위를 나타내기 위해 사용

re.search(r'[cbm]at', 'cat')

<_sre.SRE_Match object; span=(0, 3), match='cat'>