💻 MAKE와 GPT로 웹사이트 크롤링 완전정복
✨ 서론: 웹크롤링, 이제는 코딩 없이도 가능하다!
웹사이트에서 필요한 정보를 자동으로 수집하고 싶은데, 코딩은 너무 어려워 보였나요?
이제는 MAKE, ChatGPT, APIFY만 있으면 정적·동적 웹사이트를 모두 크롤링할 수 있습니다.
이번 글에서는 코딩 없이도 누구나 따라 할 수 있는 웹크롤링 자동화 방법을 단계별로 소개합니다. 영상 속 내용을 바탕으로 실습하며 익혀보세요!
🧩 본론
🔹 1. 웹사이트의 유형 파악: 정적 vs 동적
- 정적 웹사이트: 단순한 HTML로 구성. 블로그, 기업 홈페이지 등.
- 동적 웹사이트: 자바스크립트로 후처리된 콘텐츠. 리액트, 뷰, 앵귤러 기반의 대형 서비스가 해당됨.
이 차이를 알아야 적절한 크롤링 전략을 세울 수 있습니다.
🔹 2. 정적 웹사이트 크롤링 – MAKE + HTTP 모듈
- MAKE 시나리오 생성 후 HTTP 모듈에서 GET 요청으로 HTML 코드 가져오기
- HTML to Text로 가공하여 본문만 추출
- ChatGPT를 호출해 논문 제목, 저자, 링크를 JSON 형태로 정리
- Google Sheet 연동으로 자동 저장
✅ 정규표현식(Regex) 없이도 AI가 원하는 데이터만 추출해줍니다!
🔹 3. 정적 딥크롤링 – 기사 링크 안까지 추출하기
- 예시: TechCrunch의 AI 뉴스 목록 크롤링
- 기사 리스트에서 개별 링크 추출 → 각 링크에 다시 접속
- HTML → TEXT → 요약 전처리 → GPT로 뉴스 요약 (타이틀, 날짜, 내용)
- 결과를 Google Sheet에 자동 저장
📌 불필요한 콘텐츠(광고, 메뉴)는 텍스트 슬라이싱으로 제거해 정확도 ↑
🔹 4. 동적 웹사이트 크롤링 – APIFY 연동하기
- 예시: 크몽의 AI 자동화 프로그램 리스트
- 자바스크립트 기반의 동적 콘텐츠는 HTTP로 직접 접근 불가
- APIFY의 Web Scraper Actor 사용 → 자바스크립트 렌더링 후 HTML 추출
- MAKE와 연동해 상품명, 가격, 별점, 링크 정보까지 추출
- 결과를 시트로 자동 기록
🛠 APIFY는 월 5달러 무료 크레딧 제공. MAKE와의 연동도 간편.
🧾 결론: AI와 자동화로 웹리서치의 판을 바꾸다
MAKE, ChatGPT, APIFY의 조합만으로도 강력한 웹사이트 자동 수집 시스템을 구축할 수 있습니다.
이제는 코딩을 몰라도 누구나 자신만의 크롤링 자동화 파이프라인을 만들 수 있는 시대입니다.
업무 자동화, 시장조사, 논문 정리 등 다양한 곳에 직접 활용해보세요!
🎯 시작이 반입니다. 지금 바로 실습해보세요!
❓ Q&A
Q1. 정규표현식을 몰라도 크롤링이 가능한가요?
A. 네! 복잡한 정규식 대신 ChatGPT에게 예시와 지시만 주면 원하는 데이터를 뽑아줍니다.
Q2. 동적 웹사이트는 왜 어렵나요?
A. 자바스크립트로 구성되어 있어 HTML만 받아선 내용이 없기 때문입니다. APIFY를 통해 이를 해결할 수 있습니다.
Q3. MAKE에서 ChatGPT 연동은 어떻게 하나요?
A. OpenAI API 키를 MAKE에 입력해 연동하면 됩니다. 기본 사용은 월 5달러 크레딧으로 충분합니다.
Q4. 자동화를 위해 꼭 시트 저장까지 해야 하나요?
A. 아니요. Notion, Airtable, DB 등 원하는 곳으로 확장 가능합니다.
Q5. 주기적으로 크롤링할 수 있나요?
A. 가능합니다! MAKE의 트리거 기능으로 매일·매주 원하는 시간에 자동 실행되게 설정할 수 있습니다.