我想将一行数据拆分成每行,每行代表一个州的参议院提名投票。为了回答这个问题,我已将所有五十个州的数据截断为两个州的数据。我目前拥有以下格式的数据:
Alabama: Sessions (R-AL), Yea Shelby (R-AL), Yea Alaska: Murkowski (R-AK), Nay Sullivan (R-AK), Yea
这里的问题是,如果我在 处分割线:
,我最终会得到
Alabama:
Sessions (R-AL), Yea Shelby (R-AL), Yea Alaska:
Murkowski (R-AK), Nay Sullivan (R-AK), Yea NextState:
我也无法按固定数量的字符进行拆分,因为州和参议员的名字长度是可变的。
我希望能够做的是说“找到:
并在前一个连续字母串之前的空格处拆分”。
这(假设)会找到:
然后向后数“amabalA”,找到空格,然后在那里分割。
那看起来就像
Alabama: Sessions (R-AL), Yea Shelby (R-AL), Yea
Alaska: Murkowski (R-AK), Nay Sullivan (R-AK), Yea
这可能吗?你能想到更好的方法吗?如果不用 Notepad++,那么用 R 或 SQL 怎么样?
更新
我能够使用 x 个单词后的拆分这发布位置((\w+\W+){9})
几乎可以解决问题,但参议员有两个姓氏的情况除外(例如 Cortez Masto、Van Hollen)。您可以从我的一个驱动器。