2009/04/21 18:04
[Tech]
웹 서핑을 하다보면 UCC를 수집해 보여 주는 사이트들이 보이더군요..
이런 소스 파는 곳도 몇곳이 있고 보통 150만원 이상 이더군요.
요즘에는 UCC 사이트들에서 RSS를 지원하는 곳이 많기 때문에 RSS를 파싱해서 데이타를 수집해도 됩니다.
하지만 역시 RSS를 제약이 많죠. 공급하는 쪽 마음이니 빠진 항목도 많고.
그래서 페이지를 긁어와 파싱하는 방법을 쓸수 밖에 없습니다.
이때 가장 중요한것은 규칙을 찾는 것이 겠죠. 이거 찾는거 어렵습니다. 찾는다 하여도 규칙에 맡는 스크립트를 짜야 하기 때문에.... ㅡㅡㅋ
공부삼아 프리첼과 엠군에서 UCC를 수집하는 스크립트를 한번 짜봤습니다.
보기보다 그렇게 어렵지는 않습니다.
우선 최근 목록이 표시되는 페이지에서 UCC 항목을 추출하고 세부항목은 추출한 URL을 가지고 다시 페이지를 긁어 가져오고 싶은 항목을 추출하면 됩니다.
동영상은 동영상마다 인덱스가 될수 있는 것들이 있습니다. 그것을 가지고 보여 주면 됩니다.
수집은 서버에 무리가지 않도록 cron으로 주기적으로 돌리는 것이 좋습니다. 워낙 무거워서 페이지 로딩시 끼워서 스크립트를 돌리시면 버벅거립니다.
설명이 좀 장황한데 자신만의 UCC 사이트를 만들고 싶으신 분들은 페이지 파싱만 잘해주면 됩니다. 응용하면 정말 많은 것을 할 수 있겠네요. 저작권만 걸리지 않는 다면.. ^^
예제 사이트 http://yesyo.com/ucc/
디자인만 추가 되면 좋을 것 같은데 파폭에서는 이상하게 보이네요. ^.^;
이런 소스 파는 곳도 몇곳이 있고 보통 150만원 이상 이더군요.
요즘에는 UCC 사이트들에서 RSS를 지원하는 곳이 많기 때문에 RSS를 파싱해서 데이타를 수집해도 됩니다.
하지만 역시 RSS를 제약이 많죠. 공급하는 쪽 마음이니 빠진 항목도 많고.
그래서 페이지를 긁어와 파싱하는 방법을 쓸수 밖에 없습니다.
이때 가장 중요한것은 규칙을 찾는 것이 겠죠. 이거 찾는거 어렵습니다. 찾는다 하여도 규칙에 맡는 스크립트를 짜야 하기 때문에.... ㅡㅡㅋ
공부삼아 프리첼과 엠군에서 UCC를 수집하는 스크립트를 한번 짜봤습니다.
보기보다 그렇게 어렵지는 않습니다.
우선 최근 목록이 표시되는 페이지에서 UCC 항목을 추출하고 세부항목은 추출한 URL을 가지고 다시 페이지를 긁어 가져오고 싶은 항목을 추출하면 됩니다.
동영상은 동영상마다 인덱스가 될수 있는 것들이 있습니다. 그것을 가지고 보여 주면 됩니다.
수집은 서버에 무리가지 않도록 cron으로 주기적으로 돌리는 것이 좋습니다. 워낙 무거워서 페이지 로딩시 끼워서 스크립트를 돌리시면 버벅거립니다.
설명이 좀 장황한데 자신만의 UCC 사이트를 만들고 싶으신 분들은 페이지 파싱만 잘해주면 됩니다. 응용하면 정말 많은 것을 할 수 있겠네요. 저작권만 걸리지 않는 다면.. ^^
예제 사이트 http://yesyo.com/ucc/
디자인만 추가 되면 좋을 것 같은데 파폭에서는 이상하게 보이네요. ^.^;
그냥 가지 마시구 추천 버튼 꾸욱 눌러주세요~ 외로운 블로거에게 큰 힘이 된답니다*^^*


