정규식을 이용해 html의 태그를 제거합니다.
예를 들어 아래 html에서 '샘플2'를 추축하게 됩니다.
<b><span style="bold:4px">샘플</span>2</b>
주의. python3에서 사용합니다. python2에서는 UnicodeDecodeError가 발생하게 됩니다.
import re
pattern = re.compile(u'<\/?\w+\s*[^>]*?\/?>', re.DOTALL | re.MULTILINE | re.IGNORECASE | re.UNICODE)
ht1 = '<span style="bold:4px">샘플</span>'
print(pattern.sub(u"",ht))
'샘플'
ht2 = '<b><span style="bold:4px">샘플</span></b>'
print(pattern.sub(u"",ht2))
'샘플'
ht3 = '<b><span style="bold:4px">샘플</span>2</b>'
print(pattern.sub(u"",ht3))
'샘플2'
'프로그래밍 > python' 카테고리의 다른 글
빅텍스트 출력하기 (0) | 2020.08.21 |
---|---|
설치된 파이썬이 32비트인지 64비트인지 확인하기 (0) | 2020.08.21 |
pyqt5에서 포인트 이동하며 방향 바꾸기 (0) | 2020.08.15 |