ferventdesert / hawk Goto Github PK

View Code? Open in Web Editor NEW

3.1K 3.1K 976.0 40.02 MB

visualized crawler & ETL IDE written with C#/WPF

License: Apache License 2.0

C# 100.00%

hawk's People

Contributors

Stargazers

Watchers

Forkers

lorgine-li gisdaodao cookcoder kissfu csdoc cqwang vezhang csuffyy fuxuejun rafiei82 kenchen1101 yhtsnda zwn476867589 sevenboy2012 lemongeek impanda-cookie h31h31 giantfoot mitvip dut3062796s littlewrite it8090 zhujinlong gilgamash johnsonz dwflzxj zpzgone jaysh1029 liuhao10119 moyanyunyue luciferlol cacker newctech alagerald caineqt vaniy lx339 heitaoa hefnernew gaoz8888 longxingbao jackwangcumt jhx1003 awesome-python chazz1 quejuwen liyic clh021 shoff hopelesszxq kcly3027 tinatiantjy jslpower reilf hehuanshu96 chenkaigithub cwqstudio shellleyma hanningxiao gloriayy jjaugust alven8816 mengxh1990 1149441708 pakerliu gaobo07 fksad1992 lijian8 codecopy sparm26 jaybeat yaoclee aquncode kisbuddy dianfu tonydony louiekang oconnorendure flyingoe hhy5277 loveglory funnykun cheneason saintland linkfar signdown khmfighter kanelbutt hxp2k6 cjy313 ruo2012 chzhewl yolandamiao jetzfly nangal sawyergao92 alexanlee clear-datacenter lucentcosmos jennyunc

hawk's Issues

a标签中的href的链接如何作为属性提取？

无线市场群雄逐鹿 H3C等厂商崭露头角——2007年无线网络市场回顾与展望

请问一下，类似于这样的a标签，要怎么把href的地址做为一个属性抓出来呢？

反爬怎么破？

这个是反扒了吧？

近期我们监控到您所用的IP地址出现异常，您的IP地址是：

临时将此IP地址进行安全保护，但可能导致您无法正常登陆。

如有问题，请发送邮件至[email protected]。带来不便，敬请谅解，谢谢！

尝试自动重定向的次数太多？

在网页采集器输入url后刷新的时候出现“尝试自动重定向的次数太多”的错误，要怎么解决？

加载最新的工程到vs2015中，报这个错误。

[Failure] Could not find file 'D:\Github\Hawk\Hawk.ETL\Plugins\Transformers\ResponseTF.cs'.

Severity Code Description Project File Line Suppression State
Error Source file 'D:\Github\Hawk\Hawk.ETL\Plugins\Transformers\ResponseTF.cs' could not be found. Hawk.ETL D:\Github\Hawk\Hawk.ETL\CSC

正则转换时无法使用正则表达式中的&匹配结尾

(?<=单位\s*\]\s*:\s*).*?(?=学院\s*)
能出结果
(?<=单位\s*\]\s*:\s*).*?(?=学院\s*&)
就出不了新列

按照教程爬了大众点评的数据，总共爬了9w但总共有8w的重复数据呢

感觉问题是在从爬取获取那出问题了吧，但教程看了很多次，做了也很多次，还是不行呢

【类大众点评】抓取城市美食分类时xpath筛选失败

第一步正常获取了网页内容，也显示了：

第二步加入“xpath筛选器”到content列：

但第三步配置了xpath路径以后，列都没有了：

请问是什么原因？如何解决？谢谢！

大众点评数据采集重复项

您好:

学习了大众点评的数据采集视频，但是在最终采集的数据表中，发现极大多数的数据重复项，请问这可能是哪种情况造成的？
多谢

没有Main函数？！

严重性代码说明项目文件行禁止显示状态
错误 Program does not contain a static 'Main' method suitable for an entry point Hawk.Core E:\Course\Hawk\Hawk-master\Hawk.Core\CSC

启动的是Hawk.Core

无法找到节点

为什么在属性提取模块中输入某一套房的单价出现的信息是：
2016-07-13 18:08:37 WARN 找不到其他符合条件的节点，搜索器已经返回开头？

大众点评的例子中, 启动并行 page 默认开启时获取到的列表页为 3170个。关闭这个选项，获取到的列表页有6506个。即，启动并行时，会发生数据丢失的现象。

大众点评的例子中, 启动并行 page 默认开启时获取到的列表页为 3170个。关闭这个选项，获取到的列表页有6506个。即，启动并行时，会发生数据丢失的现象。
我看源码中 SmartETLTool.cs 中，标注了 //TODO:这种分组方式可能会丢数据！！
请问，这个bug现在解决了吗。谢谢！

"超级模式"无法嗅探到网页动态内容

Win10 x64，没装WinCap Fiddle，默认的开启360浏览器，发现无法自动嗅探。手动开IE，也同样抓取不到内容。。。

添加链家二手房网站的总价和单价字段，提取测试显示结果是这样，请问哪里做错了呢？

when I click "执行"， control show message:error

2016-05-30 10:20:36 ERROR 任务已经出错：System.NullReferenceException: 未将对象引用设置到对象的实例。
在 Hawk.ETL.Plugins.Executor.DbEX.<>c__DisplayClass14_0.b__2(IFreeDocument document)
在 System.Linq.Enumerable.WhereSelectEnumerableIterator2.MoveNext() 在 Hawk.Core.Utils.ExtendEnumerable.<MergeAll>d__351.MoveNext()
在 System.Linq.Enumerable.WhereSelectEnumerableIterator2.MoveNext() 在 Hawk.ETL.Plugins.Executor.TableEX.<Execute>d__12.MoveNext() 在 Hawk.ETL.Managements.TemporaryTask.<>c__DisplayClass6_01.b__0()
在 Hawk.ETL.Managements.TemporaryTask.b__7_0()

不能打开网页采集器

2016-12-16 19:47:54 ERROR 点击按钮: 添加执行失败,错误信息 System.Exception: System.Reflection.TargetInvocationException: 调用的目标发生了异常。 ---> System.IO.FileLoadException: 未能加载文件或程序集“HtmlAgilityPack, Version=1.4.9.5, Culture=neutral, PublicKeyToken=bd319b19eaf3b43a”或它的某一个依赖项。找到的程序集清单定义与程序集引用不匹配。 (异常来自 HRESULT:0x80131040)

“自动嗅探”改成“超级模式”了？

文案是不是也要跟着改一下？

图传不上来，就是调试信息窗口“2017-07-09 14:02:53 WARN 在该网页中找不到关键字 xxxxxx,可能是动态请求，可以启用【自动嗅探】,并将浏览器页面翻到包含该关键字的位置 ”

然后右侧3.动态请求嗅探中的文案是“超级模式”

可以爬微博数据吗？

有两个需求，一个是按照搜索关键词和一些条件，爬取相关微博账号，第二个是爬取这些账号的关注数、粉丝数、粉丝列表、注册时间、微博、微博发布时间、等内容，不知道能不能实现啊

不知道怎么启动啊 C#写的所以要安装.NET环境吗?

要安装.net环境才能使用吗? 要不然写个详细点的使用教程小白不懂得使用啊

链家数据清洗问题

现在链家北京的网页和视频不一样了，hawk抓取到数据表现为远洋德邑 | 2室1厅 | 97.64平米 | 东南 | 精装，这种情况下需要户型、面积和朝向信息分别成列要怎样写表达式？
谢谢大神分享，还望不吝赐教。。

遇到一个网页抓取的是乱码，应该是编码解释不对吧

网址： http://0756fang.com/fang/974914.html
直接打开没有问题，把网页另存，在用hex看，也没有问题
但用hawk的网页采集器抓到的是乱码。
比对后发现是有些字节错了，文件头是 EF BB 3F，应该没有这么一个头，
etf-8是EF BB BF，把头尝试该为EF BB BF，发现有些字对了，但有些字还是显示不出来，
@ferventdesert 有时间看看是啥原因？

网盘里发布的版本不能运行

加载的HtmlAgilityPack版本不对

System.Exception: System.Reflection.TargetInvocationException: 调用的目标发生了异常。 ---> System.IO.FileLoadException: 未能加载文件或程序集“HtmlAgilityPack, Version=1.4.9.5, Culture=neutral, PublicKeyToken=bd319b19eaf3b43a”或它的某一个依赖项。找到的程序集清单定义与程序集引用不匹配。 (异常来自 HRESULT:0x80131040)
在 Hawk.ETL.Process.SmartCrawler..ctor()
--- 内部异常堆栈跟踪的结尾 ---
在 System.RuntimeTypeHandle.CreateInstance(RuntimeType type, Boolean publicOnly, Boolean noCheck, Boolean& canBeCached, RuntimeMethodHandleInternal& ctor, Boolean& bNeedSecurityCheck)
在 System.RuntimeType.CreateInstanceSlow(Boolean publicOnly, Boolean skipCheckThis, Boolean fillCache, StackCrawlMark& stackMark)
在 System.RuntimeType.CreateInstanceDefaultCtor(Boolean publicOnly, Boolean skipCheckThis, Boolean fillCache, StackCrawlMark& stackMark)
在 System.Activator.CreateInstance(Type type, Boolean nonPublic)
在 System.Activator.CreateInstance(Type type)
在 Hawk.Core.Utils.Plugins.PluginProvider.GetObjectInstance(Type pluginType)SmartCrawler
在 Hawk.Core.Utils.Plugins.PluginProvider.GetObjectInstance(Type pluginType)
在 Hawk.Core.Utils.Plugins.PluginProvider.GetObjectByType[T](String name)
在 Hawk.ETL.Managements.DataProcessManager.GetOneInstance(String name, Boolean isAddToList, Boolean newOne, Boolean isAddUI)
在 Hawk.ETL.Managements.ProcessTask.<>c__DisplayClass12_0.b__1()
在 Hawk.Core.Utils.ControlExtended.UIInvoke(Action handler)
在 Hawk.Core.Utils.ControlExtended.SafeInvoke(Action action, LogType type, String name, Boolean isui)

首页数据源打开文件导入数据每行截断一个字符

使用txt、csv单行一个数据时都存在此问题

ERROR 任务已经出错：System.ArgumentNullException: 值不能为 null

感谢作者做出优秀的产品，今天在博客园看到之后过来使用，有如下感受

缺乏一个大的主线流程，做为第一次使用人花了一定的时间去理解这个内容
在从数据流选择爬虫时，使用的text文本框，建议使用dropbox下拉框，从已经写好的爬虫中做出选择。
建议像scrapy那样划出一个大的逻辑架构

错误

如题
project.xml文件如下


<root>
  <Doc Name="" Description="" Version="0" SavePath="D:\BaiduNetdiskDownload\Hawk\工程文件\cnblogs.xml">
    <DBConnections>
      <Children DBName="" Name="文件管理" TypeName="FileManager" ConnectString="" AutoConnect="True" />
      <Children DBName="hawk" Name="MongoDB连接器" TypeName="MongoDBConnector" ConnectString="" AutoConnect="False" />
    </DBConnections>
    <Children Name="cnblogs文章列表" Type="SmartCrawler" URL="www.cnblogs.com" RootXPath="" IsMultiData="List" IsSuperMode="False" ShareCookie="" Description="任务描述" ScriptPath="" Children="System.Collections.Generic.List`1[Hawk.Core.Utils.Plugins.FreeDocument]">
      <HttpSet URL="" Allowautoredirect="True" Postdata="" Encoding="Unknown" Method="GET" Parameters="User-Agent: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.89 Safari/537.36&#xA;" />
      <Children Name="diggit_diggnum" XPath="/html[1]/body[1]/div[1]/div[4]/div[6]/div[6]/div[1]/div[1]/span[1]" IsHtml="False" />
      <Children Name="digg_diggit_onclick" XPath="/html[1]/body[1]/div[1]/div[4]/div[6]/div[8]/div[1]/div[1]/@onclick[1]" IsHtml="False" />
      <Children Name="digg_digg_tip_id" XPath="/html[1]/body[1]/div[1]/div[4]/div[6]/div[10]/div[1]/div[3]/@id[1]" IsHtml="False" />
      <Children Name="titlelnk" XPath="/html[1]/body[1]/div[1]/div[4]/div[6]/div[16]/div[2]/h3[1]/a[1]" IsHtml="False" />
      <Children Name="pfs_src" XPath="/html[1]/body[1]/div[1]/div[4]/div[6]/div[5]/div[2]/p[1]/a[1]/img[1]/@src[1]" IsHtml="False" />
      <Children Name="a_href" XPath="/html[1]/body[1]/div[1]/div[4]/div[6]/div[3]/div[2]/p[1]/a[1]/@href[1]" IsHtml="False" />
      <Children Name="post_item_foot_lightblue" XPath="/html[1]/body[1]/div[1]/div[4]/div[6]/div[6]/div[2]/div[1]/a[1]" IsHtml="False" />
      <Children Name="article_comment_gray" XPath="/html[1]/body[1]/div[1]/div[4]/div[6]/div[18]/div[2]/div[1]/span[1]/a[1]" IsHtml="False" />
      <Children Name="article_view_gray" XPath="/html[1]/body[1]/div[1]/div[4]/div[6]/div[3]/div[2]/div[1]/span[2]/a[1]" IsHtml="False" />
    </Children>
    <Children Name="cnblogs数据流" Type="SmartETLTool" MaxThreadCount="20" GenerateMode="串行模式" SampleMount="20" Description="任务描述" ScriptPath="" Children="System.Collections.Generic.List`1[Hawk.Core.Utils.Plugins.FreeDocument]">
      <Children Enabled="True" MinValue="1" MaxValue="20" Interval="1" Column="page" MergeType="Append" Type="RangeGE" Group="Generator" />
      <Children Enabled="True" MergeWith="" Format="http://www.cnblogs.com/p{0}" Column="page" NewColumn="url" OneOutput="True" IsMultiYield="False" Type="MergeTF" Group="Transformer" />
      <Children Enabled="True" MaxTryCount="1" ErrorDelay="3000" CrawlerSelector="cnblogs_spider" Column="url" NewColumn="" OneOutput="False" IsMultiYield="True" Type="CrawlerTF" Group="Transformer" />
      <Children Group="Executor" Enabled="True" EncodingType="UTF8" Type="WriteFileTextTF" />
      <Children Enabled="True" Column="diggit_diggnum" NewColumn="" OneOutput="False" IsMultiYield="False" Type="DeleteTF" Group="Transformer" />
    </Children>
  </Doc>
</root>

微信文章采集

微信文章用于对外分享的标题、描述、图片是在页面js内写的，请问一下这类信息如何采集？通过搜索字符获取的XPath地址是不正确的，也获取不到想要的数据。

大众点评的抓取问题

大众点评，根据视频的教程，最后一步从爬虫转换url，没有出现内容，只是出现了content里面一堆JavaScript，没有出现各种属性。请问是为什么，其他的步骤显示都是正确的。完全按照视频来的。

乱码问题

练习淘女郎爬取时，出现中文乱码，是什么原因呢

Bug

Hawk.ETL\Plugins\Transformers\ResponseTF.cs row:51:

怎么爬取帖子内容

您好,我转到这里提问.感谢不吝赐教~ 我是发邮件给您的人.辛苦啦~~~

能否提供一份最新的可行性文件包

百度网盘的可执行包，貌似好久没更新了。

源码运行起来只有“属性配置器”和“调试信息窗口”

为什么我下载源码运行之后，界面只有“属性配置器”和“调试信息窗口”两个窗口

模块窗口和ETL窗口都没有。请问这是什么原因导致的

Xpath提取属性的值时不能正确显示值，而是显示的节点的文本

`<li class="w8">`
`<a href="www.baidu.com" target="_blank" class="btn">百度</a>`
`</li>`

在采集器里想提取上面的“www.baidu.com”，用xpath语句为：//li[@class="w8"]/a/@href显示的结果为“百度”，而不是“www.baidu.com”。//li[@class="w8"]/a的结果是“百度”才对，我想提取属性的值怎么出现的还是节点的文本呢。是我写的语句有错误吗，请指教，谢谢。实际的截图如下：

xpath筛选器执行后如何保留原始列？

单转多文档的特别说明

当你使用List模式的爬虫，或单转多时，虽然生成了多个文档，但原始的数据（如URL）不见了。这是因为Hawk丢弃了这些列。`

经过大量实践，如果不这么做，每个新数据后面，都会跟上原始的老数据，如果1转20，则老数据会重复生成20次，这是没有必要的。

当然，有时转换时需要包含原始数据的部分列，则可在转换器的新列名中填写要鲤鱼跳龙门的列的名称，中间用空格分割。

上面这个操作找不到对应的转换，请问要如何处理啊？

无法添加多个生成区间数的列

如图生成列的数据不能产生

数据清洗，当列值等于System.Object[]，如何处理数据

如题，没能找到处理的方法？指导一下？

MongoDB

你的MongoDB的驱动太旧了。
推荐使用最新的MongoDB驱动。
我是MongoCola的作者，能不能考虑两个工具的合作呢。
我的想法是你的工作可以作为抓取数据，我的工具作为存储和管理数据。
然后再找个人做机器学习和自然语言处理的工作。

点击网页中页码数字,网址不变的怎么爬?

我在爬下面的网址遇到这么一个问题:
点击下面换页的页码, 发现上面的网页地址不会变, 所以就不知道怎么爬这个网页了,
请告诉怎么爬? 能给给个示例代码最好 :-), 先谢了.
http://data.eastmoney.com/bbsj/201703/yysj.html

读取文件数据的连接器配置不显示内容

“从爬虫转换”和“Xpath筛选器”的输出列和输入列是不是不能指定？只有默认Content和OHTML才生效

指定了新的列也没有效果。“从爬虫转换”后获得的Content有没有办法能接着被两个“Xpath筛选器”执行？
现在执行会报错“未将对象引用设置到对象的实例”

加载到vs2015报错，无法编译

D:\vs_home\WPFPropertyGrid\System.Windows.Controls.WPFPropertyGrid\System.Windows.Controls.WPFPropertyGrid.csproj : error : 未能加载项目文件。未能找到路径“D:\vs_home\WPFPropertyGrid\System.Windows.Controls.WPFPropertyGrid\System.Windows.Controls.WPFPropertyGrid.csproj”的一部分。 D:\vs_home\WPFPropertyGrid\System.Windows.Controls.WPFPropertyGrid\System.Windows.Controls.WPFPropertyGrid.csproj

这套程序只能在windows上运行吗？

看起来似乎时这样的，win上生成xml，再跑到linux下用etlpy

大众点评爬取出问题，搜索不到xpath

我在搜索字符里输入点评数获价格的时候，任务管理视图跳出找不到其他符合条件的节点，多点几次搜索xpath，他会搜索到一条xpath,但是在提取测试里还是提取不到内容，不知道为什么

add language settings

HI

Can you add language settings to configuration file

抓取大众点评数据失败（HTML数据抽取失败）

采集的页面url：http://www.dianping.com/search/category/2/20/g187r2591

在采集器配置界面，选择“提取测试”，能够获取到预期的结果，如下图

配置数据清洗任务后，点击执行，提示HTML数据抽取失败。如下图

分类枚举报错

再把分类枚举拖入HTML列后，加载爬虫报错

2016-12-10 14:40:06 ERROR 任务已经出错：System.NullReferenceException: 未将对象引用设置到对象的实例。
在 Hawk.ETL.Crawlers.XPathTF2.Get(HtmlDocument docu, IEnumerable1 source, String name, String xpath) 在 Hawk.ETL.Crawlers.XPathTF2.<TransformManyData>d__8.MoveNext() 在 System.Linq.Enumerable.<TakeIterator>d__241.MoveNext()
在 Hawk.ETL.Managements.TemporaryTask.<>c__DisplayClass6_0`1.b__0()
在 Hawk.ETL.Managements.TemporaryTask.b__7_0()

Click '从爬虫转换' error

when i click '从爬虫转换' ,the list show error like ' 未将对象引用设置到对象的实例'

How to pause and resume the crawler?

When the IP is forbidden during the crawling, I didnt find how to resume to crawl after I change my ip