Git Product home page Git Product logo

hawk's People

Contributors

alexchx avatar dalenewman avatar ferventdesert avatar grs4321 avatar nanwanwang avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

hawk's Issues

反爬怎么破?

这个是反扒了吧?


404
logo
近期我们监控到您所用的IP地址出现异常,您的IP地址是:

临时将此IP地址进行安全保护,但可能导致您无法正常登陆。

如有问题,请发送邮件至[email protected]。带来不便,敬请谅解,谢谢!

加载最新的工程到vs2015中,报这个错误。

[Failure] Could not find file 'D:\Github\Hawk\Hawk.ETL\Plugins\Transformers\ResponseTF.cs'.

Severity Code Description Project File Line Suppression State
Error Source file 'D:\Github\Hawk\Hawk.ETL\Plugins\Transformers\ResponseTF.cs' could not be found. Hawk.ETL D:\Github\Hawk\Hawk.ETL\CSC

大众点评数据采集重复项

您好:

学习了大众点评的数据采集视频,但是在最终采集的数据表中,发现极大多数的数据重复项,请问这可能是哪种情况造成的?
多谢

没有Main函数?!

严重性 代码 说明 项目 文件 行 禁止显示状态
错误 Program does not contain a static 'Main' method suitable for an entry point Hawk.Core E:\Course\Hawk\Hawk-master\Hawk.Core\CSC

启动的是Hawk.Core

无法找到节点

为什么在属性提取模块中输入某一套房的单价出现的信息是:
2016-07-13 18:08:37 WARN 找不到其他符合条件的节点,搜索器已经返回开头 ?

?

只调用采集的核心功能,界面根据用户需求重新去开发

大众点评的例子中, 启动并行 page 默认开启时获取到的列表页为 3170个。关闭这个选项,获取到的列表页有6506个。即,启动并行 时,会发生数据丢失的现象。

大众点评的例子中, 启动并行 page 默认开启时获取到的列表页为 3170个。关闭这个选项,获取到的列表页有6506个。即,启动并行 时,会发生数据丢失的现象。
我看源码中 SmartETLTool.cs 中,标注了 //TODO:这种分组方式可能会丢数据!!
请问,这个bug现在解决了吗。谢谢!

when I click "执行", control show message:error

2016-05-30 10:20:36 ERROR 任务已经出错:System.NullReferenceException: 未将对象引用设置到对象的实例。
在 Hawk.ETL.Plugins.Executor.DbEX.<>c__DisplayClass14_0.b__2(IFreeDocument document)
在 System.Linq.Enumerable.WhereSelectEnumerableIterator2.MoveNext() 在 Hawk.Core.Utils.ExtendEnumerable.<MergeAll>d__351.MoveNext()
在 System.Linq.Enumerable.WhereSelectEnumerableIterator2.MoveNext() 在 Hawk.ETL.Plugins.Executor.TableEX.<Execute>d__12.MoveNext() 在 Hawk.ETL.Managements.TemporaryTask.<>c__DisplayClass6_01.b__0()
在 Hawk.ETL.Managements.TemporaryTask.b__7_0()

不能打开网页采集器

2016-12-16 19:47:54 ERROR 点击按钮: 添加 执行失败,错误信息 System.Exception: System.Reflection.TargetInvocationException: 调用的目标发生了异常。 ---> System.IO.FileLoadException: 未能加载文件或程序集“HtmlAgilityPack, Version=1.4.9.5, Culture=neutral, PublicKeyToken=bd319b19eaf3b43a”或它的某一个依赖项。找到的程序集清单定义与程序集引用不匹配。 (异常来自 HRESULT:0x80131040)

“自动嗅探”改成“超级模式”了?

文案是不是也要跟着改一下?

图传不上来,就是调试信息窗口“2017-07-09 14:02:53 WARN 在该网页中找不到关键字 xxxxxx,可能是动态请求,可以启用【自动嗅探】,并将浏览器页面翻到包含该关键字的位置 ”

然后右侧3.动态请求嗅探中的文案是“超级模式”

可以爬微博数据吗?

有两个需求,一个是按照搜索关键词和一些条件,爬取相关微博账号,第二个是爬取这些账号的关注数、粉丝数、粉丝列表、注册时间、微博、微博发布时间、等内容,不知道能不能实现啊

链家数据清洗问题

现在链家北京的网页和视频不一样了,hawk抓取到数据表现为 远洋德邑 | 2室1厅 | 97.64平米 | 东南 | 精装 ,这种情况下需要户型、面积和朝向信息分别成列要怎样写表达式?
谢谢大神分享,还望不吝赐教。。

网盘里发布的版本不能运行

加载的HtmlAgilityPack版本不对

System.Exception: System.Reflection.TargetInvocationException: 调用的目标发生了异常。 ---> System.IO.FileLoadException: 未能加载文件或程序集“HtmlAgilityPack, Version=1.4.9.5, Culture=neutral, PublicKeyToken=bd319b19eaf3b43a”或它的某一个依赖项。找到的程序集清单定义与程序集引用不匹配。 (异常来自 HRESULT:0x80131040)
在 Hawk.ETL.Process.SmartCrawler..ctor()
--- 内部异常堆栈跟踪的结尾 ---
在 System.RuntimeTypeHandle.CreateInstance(RuntimeType type, Boolean publicOnly, Boolean noCheck, Boolean& canBeCached, RuntimeMethodHandleInternal& ctor, Boolean& bNeedSecurityCheck)
在 System.RuntimeType.CreateInstanceSlow(Boolean publicOnly, Boolean skipCheckThis, Boolean fillCache, StackCrawlMark& stackMark)
在 System.RuntimeType.CreateInstanceDefaultCtor(Boolean publicOnly, Boolean skipCheckThis, Boolean fillCache, StackCrawlMark& stackMark)
在 System.Activator.CreateInstance(Type type, Boolean nonPublic)
在 System.Activator.CreateInstance(Type type)
在 Hawk.Core.Utils.Plugins.PluginProvider.GetObjectInstance(Type pluginType)SmartCrawler
在 Hawk.Core.Utils.Plugins.PluginProvider.GetObjectInstance(Type pluginType)
在 Hawk.Core.Utils.Plugins.PluginProvider.GetObjectByType[T](String name)
在 Hawk.ETL.Managements.DataProcessManager.GetOneInstance(String name, Boolean isAddToList, Boolean newOne, Boolean isAddUI)
在 Hawk.ETL.Managements.ProcessTask.<>c__DisplayClass12_0.b__1()
在 Hawk.Core.Utils.ControlExtended.UIInvoke(Action handler)
在 Hawk.Core.Utils.ControlExtended.SafeInvoke(Action action, LogType type, String name, Boolean isui)

ERROR 任务已经出错:System.ArgumentNullException: 值不能为 null

感谢作者做出优秀的产品,今天在博客园看到之后过来使用,有如下感受

  • 缺乏一个大的主线流程,做为第一次使用人花了一定的时间去理解这个内容
  • 在从数据流选择爬虫时,使用的text文本框,建议使用dropbox下拉框,从已经写好的爬虫中做出选择。
  • 建议像scrapy那样划出一个大的逻辑架构

错误

  • 如题
  • project.xml文件如下

<root>
  <Doc Name="" Description="" Version="0" SavePath="D:\BaiduNetdiskDownload\Hawk\工程文件\cnblogs.xml">
    <DBConnections>
      <Children DBName="" Name="文件管理" TypeName="FileManager" ConnectString="" AutoConnect="True" />
      <Children DBName="hawk" Name="MongoDB连接器" TypeName="MongoDBConnector" ConnectString="" AutoConnect="False" />
    </DBConnections>
    <Children Name="cnblogs文章列表" Type="SmartCrawler" URL="www.cnblogs.com" RootXPath="" IsMultiData="List" IsSuperMode="False" ShareCookie="" Description="任务描述" ScriptPath="" Children="System.Collections.Generic.List`1[Hawk.Core.Utils.Plugins.FreeDocument]">
      <HttpSet URL="" Allowautoredirect="True" Postdata="" Encoding="Unknown" Method="GET" Parameters="User-Agent: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.89 Safari/537.36&#xA;" />
      <Children Name="diggit_diggnum" XPath="/html[1]/body[1]/div[1]/div[4]/div[6]/div[6]/div[1]/div[1]/span[1]" IsHtml="False" />
      <Children Name="digg_diggit_onclick" XPath="/html[1]/body[1]/div[1]/div[4]/div[6]/div[8]/div[1]/div[1]/@onclick[1]" IsHtml="False" />
      <Children Name="digg_digg_tip_id" XPath="/html[1]/body[1]/div[1]/div[4]/div[6]/div[10]/div[1]/div[3]/@id[1]" IsHtml="False" />
      <Children Name="titlelnk" XPath="/html[1]/body[1]/div[1]/div[4]/div[6]/div[16]/div[2]/h3[1]/a[1]" IsHtml="False" />
      <Children Name="pfs_src" XPath="/html[1]/body[1]/div[1]/div[4]/div[6]/div[5]/div[2]/p[1]/a[1]/img[1]/@src[1]" IsHtml="False" />
      <Children Name="a_href" XPath="/html[1]/body[1]/div[1]/div[4]/div[6]/div[3]/div[2]/p[1]/a[1]/@href[1]" IsHtml="False" />
      <Children Name="post_item_foot_lightblue" XPath="/html[1]/body[1]/div[1]/div[4]/div[6]/div[6]/div[2]/div[1]/a[1]" IsHtml="False" />
      <Children Name="article_comment_gray" XPath="/html[1]/body[1]/div[1]/div[4]/div[6]/div[18]/div[2]/div[1]/span[1]/a[1]" IsHtml="False" />
      <Children Name="article_view_gray" XPath="/html[1]/body[1]/div[1]/div[4]/div[6]/div[3]/div[2]/div[1]/span[2]/a[1]" IsHtml="False" />
    </Children>
    <Children Name="cnblogs数据流" Type="SmartETLTool" MaxThreadCount="20" GenerateMode="串行模式" SampleMount="20" Description="任务描述" ScriptPath="" Children="System.Collections.Generic.List`1[Hawk.Core.Utils.Plugins.FreeDocument]">
      <Children Enabled="True" MinValue="1" MaxValue="20" Interval="1" Column="page" MergeType="Append" Type="RangeGE" Group="Generator" />
      <Children Enabled="True" MergeWith="" Format="http://www.cnblogs.com/p{0}" Column="page" NewColumn="url" OneOutput="True" IsMultiYield="False" Type="MergeTF" Group="Transformer" />
      <Children Enabled="True" MaxTryCount="1" ErrorDelay="3000" CrawlerSelector="cnblogs_spider" Column="url" NewColumn="" OneOutput="False" IsMultiYield="True" Type="CrawlerTF" Group="Transformer" />
      <Children Group="Executor" Enabled="True" EncodingType="UTF8" Type="WriteFileTextTF" />
      <Children Enabled="True" Column="diggit_diggnum" NewColumn="" OneOutput="False" IsMultiYield="False" Type="DeleteTF" Group="Transformer" />
    </Children>
  </Doc>
</root>

微信文章采集

微信文章用于对外分享的标题、描述、图片是在页面js内写的,请问一下这类信息如何采集?通过搜索字符获取的XPath地址是不正确的,也获取不到想要的数据。

大众点评的抓取问题

大众点评,根据视频的教程,最后一步从爬虫转换url,没有出现内容,只是出现了content里面一堆JavaScript,没有出现各种属性。请问是为什么,其他的步骤显示都是正确的。完全按照视频来的。

乱码问题

练习淘女郎爬取时,出现中文乱码,是什么原因呢
default

Bug

Hawk.ETL\Plugins\Transformers\ResponseTF.cs row:51:

Xpath提取属性的值时不能正确显示值,而是显示的节点的文本

`<li class="w8">`
`<a href="www.baidu.com" target="_blank" class="btn">百度</a>`
`</li>`

在采集器里想提取上面的“www.baidu.com”,用xpath语句为://li[@class="w8"]/a/@href显示的结果为“百度”,而不是“www.baidu.com”。//li[@class="w8"]/a的结果是“百度”才对,我想提取属性的值怎么出现的还是节点的文本呢。是我写的语句有错误吗,请指教,谢谢。实际的截图如下:
image

xpath筛选器执行后如何保留原始列?

单转多文档的特别说明

当你使用List模式的爬虫,或单转多时,虽然生成了多个文档,但原始的数据(如URL)不见了。这是因为Hawk丢弃了这些列。`

经过大量实践,如果不这么做,每个新数据后面,都会跟上原始的老数据,如果1转20,则老数据会重复生成20次,这是没有必要的。

当然,有时转换时需要包含原始数据的部分列,则可在转换器的新列名中填写要鲤鱼跳龙门的列的名称,中间用空格分割。

上面这个操作找不到对应的转换,请问要如何处理啊?

MongoDB

你的MongoDB的驱动太旧了。
推荐使用最新的MongoDB驱动。
我是MongoCola的作者,能不能考虑两个工具的合作呢。
我的想法是你的工作可以作为抓取数据,我的工具作为存储和管理数据。
然后再找个人做机器学习和自然语言处理的工作。

加载到vs2015报错,无法编译

D:\vs_home\WPFPropertyGrid\System.Windows.Controls.WPFPropertyGrid\System.Windows.Controls.WPFPropertyGrid.csproj : error : 未能加载项目文件。未能找到路径“D:\vs_home\WPFPropertyGrid\System.Windows.Controls.WPFPropertyGrid\System.Windows.Controls.WPFPropertyGrid.csproj”的一部分。 D:\vs_home\WPFPropertyGrid\System.Windows.Controls.WPFPropertyGrid\System.Windows.Controls.WPFPropertyGrid.csproj

大众点评爬取出问题,搜索不到xpath

我在搜索字符里输入点评数获价格的时候,任务管理视图跳出找不到其他符合条件的节点,多点几次搜索xpath,他会搜索到一条xpath,但是在提取测试里还是提取不到内容,不知道为什么

抓取大众点评数据失败(HTML数据抽取失败)

采集的页面url:http://www.dianping.com/search/category/2/20/g187r2591

在采集器配置界面,选择“提取测试”,能够获取到预期的结果,如下图
image

配置数据清洗任务后,点击执行,提示HTML数据抽取失败。 如下图
image

相关配置:

生成区间数:最小值为1,最大值为50,生成模式为append
image

合并多列:url format为http://www.dianping.com/search/category/2/20/g187r2591p{0}
image

从爬虫转换:
image

写入数据表:
image

分类枚举报错

再把分类枚举拖入HTML列后,加载爬虫报错

2016-12-10 14:40:06 ERROR 任务已经出错:System.NullReferenceException: 未将对象引用设置到对象的实例。
在 Hawk.ETL.Crawlers.XPathTF2.Get(HtmlDocument docu, IEnumerable1 source, String name, String xpath) 在 Hawk.ETL.Crawlers.XPathTF2.<TransformManyData>d__8.MoveNext() 在 System.Linq.Enumerable.<TakeIterator>d__241.MoveNext()
在 Hawk.ETL.Managements.TemporaryTask.<>c__DisplayClass6_0`1.b__0()
在 Hawk.ETL.Managements.TemporaryTask.b__7_0()

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.