본문 바로가기
프로그래밍/python

정규식을 이용해 html 태그 제거하기

by 신일석 2020. 8. 21.

정규식을 이용해 html의 태그를 제거합니다.
예를 들어 아래 html에서 '샘플2'를 추축하게 됩니다.

<b><span style="bold:4px">샘플</span>2</b>

주의. python3에서 사용합니다. python2에서는 UnicodeDecodeError가 발생하게 됩니다.

import re
pattern = re.compile(u'<\/?\w+\s*[^>]*?\/?>', re.DOTALL | re.MULTILINE | re.IGNORECASE | re.UNICODE)
ht1 = '<span style="bold:4px">샘플</span>'
print(pattern.sub(u"",ht))
'샘플'
ht2 = '<b><span style="bold:4px">샘플</span></b>'
print(pattern.sub(u"",ht2))
'샘플'
ht3 = '<b><span style="bold:4px">샘플</span>2</b>'
print(pattern.sub(u"",ht3))
'샘플2'