본문 바로가기
Python

Python - 도메인, 서브도메인, URL 구분 방법 tldextract

by 올엠 2024. 3. 2.
반응형

 Python을 이용해서 도메인과 서브 도메인을 구분하는 방법은 Regex를 사용할 수도 있지만, .com과 같은 2차 도메인과 .co.kr 3차 도메인의 차이점, 그리고 서브에 서브도메인을 구분하기 위해서는 많은 조건이 필요해지게 된다.

이를 효과적으로 활용할 수 있는 라이브러리인 tldextract가 있어 간단히 사용할 수 있는 방법을 소개해 보겠다.

tldextract는 아래와 같이 co.kr과 같은 국가 2차 도메인 이외 dev와 같은 1차 도메인도 아래처럼 쉽게 구분해 낸다.

import tldextract

url = '01-sub.web.testsite.co.kr'
ext = tldextract.extract(url)
url = '01-sub.web.testsite.dev'
ext = tldextract.extract(url)

// 도메인만 가져오기
url = '01-sub.web.testsite.dev'
domain = tldextract.extract(url).domain
반응형