可按Ctrl+D收藏 蚂蚁资源网

蚂蚁资源网

爬虫源码(使用爬虫挣钱月入3万)

  • 全部评论(3)
  • 售微星二开源码
  • /*最简单的爬虫*/import java.io.File;import java.net.URL;import java.net.URLConnection;import java.nio.file.Files;import java.nio.file.Paths;import java.util.Scanner;import java.util.UUID;import java.util.regex.Matcher;import java.util.regex.Pattern;public class DownMM {    public static void main(String[] args) throws Exception {        //out为输出的路径,注意要以\\结尾        String out = "D:\\JSP\\pic\\java\\";         try{        File f = new File(out);        if(! f.exists()) {                  f.mkdirs();              }          }catch(Exception e){        System.out.println("no");        }        String url = "        Pattern reg = Pattern.compile("<img src=\"(.*?)\"");        for(int j=0, i=1; i<=10; i++){            URL uu = new URL(url+i);            URLConnection conn = uu.openConnection();            conn.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko");            Scanner sc = new Scanner(conn.getInputStream());            Matcher m = reg.matcher(sc.useDelimiter("\\A").next());            while(m.find()){                Files.copy(new URL(m.group(1)).openStream(), Paths.get(out + UUID.randomUUID() + ".jpg"));                System.out.println("已下载:"+j++);            }        }    }}
  • 2021-02-20 06:50:01
  • 外网
  • ivspider 一个C语言开发、封装为dll的爬虫引擎,支持多线程。http://yiivon.com/ivspider/tt 是使用该引擎写的一个爬虫小工具,也使用C(VC6环境)。有源码与发布版本。引用官方说法:”tt 是一个使用 ivspider 爬虫引擎的网站信息采集小工具,运行在windows 的控制台上。它可以通过指定一系列的参数进行高效灵活地抓取自己感兴趣的网页信息以进行处理。1、可选择性。如指定标签抓取、下载或排除等;2、数量可控性。如指定爬取深度、抓取最大链接数等;3、时限保证性。如解析DNS超时、连接超时、读取数超时等;4、可实时性。如指定DNS不使用缓存、页面不缓存等;5、人性化。如可指定连接失败时自动重试、选择是否跨站抓取等;6、可永久性存储。如把网页或图片等数据保存到本地磁盘等;7、适用于几乎所有的windows 版本。如windows 98/xp/2003/vista/7等。"地址 http://yiivon.com/download/tt/
  • 2021-02-11 17:49:35
  • 哆啦A梦的爸爸
  • ajax框架的原理,以及怎样用爬虫程序来进行框架识别,最好有ajax爬虫的源代码。,1、AJAX理解:异步的javascript 与xml包含的主要技术点:异步;javascript;xml2、AJAX的技术组成:AJAX不是一种技术,而是多种传统技术的组合HTML 和 CSSJavaScript XML和XSLTDOMXMLHttpRequest对象 3、AJAX的工作原理:传统的b/s操作,客户端执行的是与服务器端的同步操作,必须等待服务器有返回信息后才能在客户端显示出来,而是客户端有明确的刷新过程。在AJAX的工作中,在传统的浏览器端,服务器端的基础上,添加了一个称为AJAX引擎的中间层,来实现异步的数据传输。AJAX引擎,主要是通过一个XMLHttpRequest对象实现的。4、XMLHttpRequest对象通过XMLHttpRequest,AJAX可以像桌面应用程序一样,只同服务器进行数据层面的交互,而不用每次都刷新页面。这样,即减轻了服务器的负担,又加快了响应速度,缩短了用户等待的时间。XMLHttpRequest是AJAX中最重要的一个对象。XMLHttpRequest在IE5中,就已经实现了,而且在不同浏览器中是兼容的。所以,在开发中可以通过固定的方法来获得5、AJAX的核心工作机制(1)初始化XMLHttpRequest对象(2)客户端发送请求(3)服务器接收请求并进行处理(4)服务器返回响应数据(5)客户端接受响应数据(6)根据响应数据在客户端进行显示根据以上流程,可形成初步的AJAX的开发框架<script language="javascript">var XMLHttpReq; //创建XMLHttpRequest对象 function createXMLHttpRequest() {if(window.XMLHttpRequest) { //Mozilla 浏览器XMLHttpReq = new XMLHttpRequest();}else if (window.ActiveXObject) { // IE浏览器try {XMLHttpReq = new ActiveXObject("Msxml2.XMLHTTP");} catch (e) {try {XMLHttpReq = new ActiveXObject("Microsoft.XMLHTTP");} catch (e) {}}}}或者是函数如下:var XMLHttpReq;function createXMLHttpRequest() {if(window.ActiveXObject){XMLHttpReq = new ActiveXObject("Microsoft.XMLHTTP");}else{XMLHttpReq = new XMLHttpRequest();}}//发送请求函数function sendRequest(url) {createXMLHttpRequest();XMLHttpReq.open("GET", url, true);XMLHttpReq.onreadystatechange = processResponse;//指定响应函数XMLHttpReq.send(null); // 发送请求}// 处理返回信息函数 function processResponse() { if (XMLHttpReq.readyState == 4) { // 判断对象状态 if (XMLHttpReq.status == 200) { // 信息已经成功返回,开始处理信息 var res=XMLHttpReq.responseXML.getElementsByTagName("res")[0].firstChild.data; window.alert(res); } else { //页面不正常 window.alert("您所请求的页面有异常。"); } } }//实现自己功能的函数,在此函数中根据需要调用请求发送的函数sendRequest
  • 2021-02-11 17:49:35
  • 商品推荐